所有文章 > 如何集成API > 使用Python调用Crawlbase Scraper API 抓取AliExpress 网页数据
使用Python调用Crawlbase Scraper API 抓取AliExpress 网页数据

使用Python调用Crawlbase Scraper API 抓取AliExpress 网页数据

由于速卖通多年来的巨大增长,对于那些需要有价值的数据进行市场研究的人来说,寻找可靠的速卖通代理变得越来越重要。

2022 年 11 月到 2023 年 4 月, 全球速卖通 吸引了 2.7 亿访客!每月访问量从未低于 432 亿次。猜猜怎么着?2023 年 1 月,全球点击量超过 4.49 亿次,夺得桂冠。

由于用户需求巨大,AliExpress 在定价和趋势方面领先于竞争对手,因此,抓取他们的数据可以提供有关当前趋势和定价的宝贵见解。但如果不使用代理,抓取 AliExpress 并不容易。

在本博客中,我们将指导您完成使用 Python 和Crawlbase Scraper API 构建 AliExpress 网络抓取工具的过程,为您提供分步方法。 您将学习如何设置编码环境、配置智能代理、创建抓取工具以及处理常见的网页抓取问题。

为什么使用Crawlbase Scraper API?

全球速卖通作为全球最大的电子商务平台之一,为企业和研究人员提供大规模的宝贵数据。 然而,从全球速卖通抓取数据也面临着一系列挑战。 这些挑战包括 IP 禁令、验证码以及绕过机器人检测机制的需要。使用Crawlbase Scraper API,将解决如下问题:

绕过 IP 封锁和限制

AliExpress 采用 IP 封锁作为标准措施,以防止过度抓取活动。通过不断轮换您的 IP 地址,Smart Proxy 可帮助您轻松绕过这些限制。这意味着您可以放心抓取数据,而不必担心 IP 地址被封锁,从而确保数据收集不间断。

绕过验证码

验证码是您在抓取速卖通时遇到的另一个障碍。 这些安全测试旨在区分人类和机器人。 智能代理 轮换IP地址 功能在这里可以解决问题。 当验证码出现时,智能代理会智能地切换到新的 IP 地址,确保您的抓取过程保持平稳和连续。 这些安全检查不会减慢您的速度。

逃避机器人检测

与许多在线平台一样,速卖通使用复杂的机器人检测机制来识别和阻止自动抓取活动。 智能代理的自动 IP 轮换可显着降低被检测为机器人的风险。 通过不断地 改变IP,智能代理使您的抓取活动保持谨慎,允许您匿名抓取数据。

高速数据提取

网络抓取的效率至关重要,而 Smart Proxy 在这方面表现出色。 它确保以最小的延迟处理您的请求,使您能够快速从速卖通提取数据。 此外,凭借其多线程操作,智能代理可以同时处理多个请求,进一步提高网页抓取任务的速度和效率。

数据保密和保护

智能代理不仅提高效率,还优先考虑您的匿名性。 通过多个路由您的请求 代理服务器,它可以保护您的在线身份,使您能够以最高级别的隐私和安全性执行网络抓取。

什么是 Crawlbase 1.0.0

Crawlbase1.0.0 是一个功能强大的 Python 库,旨在简化 Web 抓取和爬取任务。此工具于 2023 年 7 月 4 日发布,可作为与知名 Web 抓取和爬取 API 交互的便捷包装器。

主要特点:

  • 轻松集成:快速安装使用pip install <mark style="color: #272B32; border-width: 1px; border-radius: 4px; box-shadow: 0px 1px 3px 0px rgba(0, 0, 0, 0.1), 0px 1px 2px -1px rgba(0, 0, 0, 0.1); background-color: #FED7AA; border-color: #FB923C;">crawlbase</mark>并无缝集成到您的项目中。
  • 简化的API调用:提供用户友好的方法,使复杂的API交互变得简单、高效。
  • 多功能:适用于各种网络抓取任务,从提取数据到自动浏览网站。

为什么使用Crawlbase1.0.0?

  1. 节省时间:自动化例行工作并减少对自定义脚本的需要。
  2. 可靠性:基于稳定且广泛使用的 API,确保可靠的性能。
  3. 可扩展性:适合小型项目和可扩展应用程序。

无论您是经验丰富的开发人员还是刚开始使用网页抓取技术,Crawlbase1.0.0提供了您有效完成工作所需的工具。

Curl 命令的基本智能代理用法

在设置Python环境之前,让我们尝试测试智能代理并使用简单的curl命令从AliExpress网页获取数据。 你的第一步是 注册 使用 Crawlbase 并转到您的 智能代理仪表板 获取代理身份验证令牌。

获得令牌后,打开命令提示符或终端,复制下面的命令行,替换 USER_TOKEN 使用您之前获得的令牌,然后按 Enter 执行代码,将完成Crawlbase Scraper API的调用:

curl -x “http://USER_TOKEN@smartproxy.crawlbase.com:8012" -k “https://aliexpress.com/w/wholesale-macbook-pro.html”

本篇 curl 命令将通过 Crawlbase 的智能代理向您的目标 URL 发出 HTTP 请求。 代理设置为运行于 smartproxy.crawlbase.com 在港口 8012,并 -k 选项告诉 curl 忽略 SSL 证书验证。 当通过 HTTPS 连接到服务器并且您不想验证服务器证书的真实性时使用它。

在 Crawlbase 的智能代理上下文中,禁用 SSL 验证至关重要。 否则可能会阻碍智能代理和您的应用程序之间的交互。

成功执行后,您应该收到来自的 HTML 响应 全球速卖通 类似于此屏幕截图中显示的内容:

为智能代理请求添加参数

由于Crawlbase Scraper API 将您的请求转发到 抓取 API,它还受益于 Crawling API 的大部分功能。 您可以通过发送特定指令来微调您的请求,称为 参数,通过一个名为 CrawlbaseAPI-Parameters.

这可以让您准确地告诉智能代理您希望它如何处理您的请求。 您可以对其进行自定义以完美满足您的需求。

在这种情况下,我们将使用一个名为 scraper=aliexpress-serp。 这告诉智能代理提取网站的响应并以易于理解的方式组织它。 这就像要求 Smart Proxy 将杂乱的网站数据转变为整齐且有组织的信息。

curl -H “CrawlbaseAPI-参数:scraper=aliexpress-serp” -x “http://USER_TOKEN@smartproxy.crawlbase.com:8012" -k “https://aliexpress.com/w/wholesale-macbook-pro.html”

如何从 Crawlbase 库导入不同的 API?

要从 Crawlbase 库导入各种功能,您需要引用项目所需的特定 API。只需按照这些定制步骤操作即可。

导入 API 的步骤

  1. 安装crawlbase:确保您已在 Python 环境中安装了该库。
pip install crawlbase
  1. 导入特定 API:利用fromPython 中的语句引入您需要的 API。
from crawlbase import CrawlingAPI, ScraperAPI, LeadsAPI, ScreenshotsAPI, StorageAPI

导入语句示例

  • 网页爬取
from crawlbase import CrawlingAPI
  • 数据抓取
from crawlbase import ScraperAPI
  • 潜在客户生成
from crawlbase import LeadsAPI
  • 截图
from crawlbase import ScreenshotsAPI
  • 数据存储
from crawlbase import StorageAPI

通过遵循这些步骤,您可以轻松地将 Crawlbase 库中必要的功能集成到您的项目中,确保您可以访问根据您的需求定制的各种 API 功能。

使用 Python 调用 Crawlbase Scraper API

步骤 1. 配置您的 Python 项目

现在我们已经讨论了智能代理如何运行的基本细节。 我们已准备好设置 Python 环境。

首先确保您有 Python 安装在您的机器上。 如果这是您第一次使用 Python,我们推荐我们的 Python 初学者指南 并按照有关如何在系统上正确设置 Python 的分步过程进行操作。

步骤 2. 设置项目目录

在计算机上配置 Python 后,我们现在需要设置一个新项目。 打开控制台或终端并执行以下命令。

mkdir crawbase
  • mkdir:这是一个代表“make directory”的命令。 它用于创建新目录。
  • crawlbase:这是您要创建的目录的名称。 在本例中,它被命名为“crawlbase”,但您可以将其替换为您喜欢的任何其他名称。

接下来,执行下面的命令。

cd 文件夹名称 
touch crawlbase.py
  • cd folder-name:该命令代表“更改目录”。 它用于导航到特定文件夹。 将“文件夹名称”替换为您要输入的文件夹的名称。
  • &&:这是一个逻辑运算符,意思是“和”。 在此命令的上下文中,它确保命令的第二部分(touch crawlbase.py) 仅当第一部分 (cd folder-name) 成功。
  • touch crawlbase.py:本 touch 命令用于创建一个空文件。 在这种情况下,它会在前面指定的目录中创建一个名为“crawlbase.py”的文件 cd 命令。

因此,当您运行这行代码时,它会执行两件事:

  1. 它将当前目录更改为“文件夹名称”指定的目录。
  2. 它在该目录中创建一个名为“crawlbase.py”的新的空 Python 文件。

步骤3.安装依赖项

要从 AliExpress 网页检索数据并将其保存到 JSON 文件,我们需要两个基本包。

要求:这个包简化了发送HTTP/1.1请求的过程。 您不必手动将查询字符串添加到 URL 或对 PUT 和 POST 数据进行编码。 为了简单起见,您可以只使用 json 方法。

JSON:Python 本身支持 JSON。 它带有一个名为 json 的内置包,用于编码和解码 JSON 数据,无需安装额外的包。

如何使用 pip 安装 Crawlbase?

请按照以下简单的步骤使用 pip 安装它:

  1. 打开终端或命令提示符:
  • 对于 Windows,您可以通过搜索“cmd”找到命令提示符。
  • 在 macOS 或 Linux 上,使用终端应用程序。
  1. 确保已安装 Python:
  • 通过运行以下命令验证是否已安装 Python:
python --version
  • 如果尚未安装Python,请从Python官方网站下载。
  1. 安装Crawlbase使用pip:
  • 在终端或命令提示符中运行以下命令:
pip install crawlbase
  • 此命令来自 Python 包索引的包。

按照以下步骤操作即可在您的系统上启动并运行,可供您的开发项目使用。

步骤 4. 通过 Python 使用智能代理

我们已经可以开始编写主要的 Python 代码并集成智能代理调用了。

在上一节中,我们创建了一个名为 crawlbase.py。 找到此文件,复制下面的代码并运行它以检索所需的数据。

import requests

# replace with your Crawlbase user_token.
username = 'USER_TOKEN'
password = '' # password is empty, its not used for authentication.
proxy_auth = f'{username}:{password}'

url = 'https://nl.aliexpress.com/w/wholesale-macbook-pro.html'
proxy_url = f"http://{proxy_auth}@smartproxy.crawlbase.com:8012"
proxies = {"http": proxy_url, "https": proxy_url}

response = requests.get(url=url, proxies=proxies, verify=False)

print('Response Body: ', response.content)

导入 requests Library

该行导入 requests Library,它简化了在 Python 中发出 HTTP 请求的过程。

设置代理身份验证:

更换 'USER_TOKEN' 使用您实际的 Crawlbase 用户令牌。 该令牌用于通过智能代理发出请求时进行身份验证。 这 proxy_auth 然后,遵循基本身份验证格式,将变量格式化为包含用户名和空密码。

定义 URL 和代理 URL:

  • url:这是您要抓取的目标 URL。 在本例中,它是与 MacBook Pro 批发相关的速卖通网页。
  • proxy_url:这是智能代理服务器的 URL,包括身份验证详细信息。 网址格式为 http://username:password@proxy_host:proxy_port.

设置代理:

我们推荐使用 proxies 创建字典来指定代理设置。 “http”和“https”都设置为使用相同的代理 URL。

提出请求:

  • requests.get:该函数向指定的URL发起HTTP GET请求。
  • proxies:代理参数设置为使用配置的代理设置。
  • verify=False:该参数设置为 False 忽略 SSL 证书验证。 在生产环境中,正确处理 SSL 验证至关重要。

打印响应正文:

此行打印响应的内容,其中包括 HTML 或从指定 URL 检索的数据。

如何在 Crawlbase 中初始化 ScraperAPI 类?

要开始使用 ScraperAPI 类,您需要通过使用身份验证令牌创建类的实例来初始化它。这个过程很简单,只需几行代码即可。

首先,请确保您手边有 API 令牌。您将在身份验证过程中需要用到它。

接下来,通过将令牌传递到类构造函数来创建类的实例。以下是指导您的示例:

scraper_api = ScraperAPI({'token': 'YOUR_TOKEN'})

初始化该类后,您可以使用其方法执行网页抓取任务。例如,要从电子商务网站获取产品详细信息,您可以使用该get方法。

以下是从电子商务页面检索产品信息的方法:

response = scraper_api.get('https://www.example.com/product/12345')
if response['status_code'] == 200:
print(response['json']['name'])

在此代码片段中:

  • scraper_api.get('URL')向指定的 URL 发送请求。
  • 返回的响应对象包含状态码和JSON数据。
  • 通过检查是否status_code为 200,您可以确认请求成功。
  • 通过 访问产品名称response['json']['name']

关键要点

  • 令牌初始化:'YOUR_TOKEN'用您的实际 API 令牌替换。
  • URL 获取:'https://www.example.com/product/12345'用所需的 URL替换。
  • 数据提取:在尝试提取数据之前,确保响应成功。

通过这些步骤,您已准备好初始化并在 Web 抓取项目中使用 ScraperAPI 类。享受无缝数据提取!

如何使用 ScraperAPI 类发出 GET 请求?

要使用该类发出 GET 请求<mark style="color: #272B32; border-width: 1px; border-radius: 4px; box-shadow: 0px 1px 3px 0px rgba(0, 0, 0, 0.1), 0px 1px 2px -1px rgba(0, 0, 0, 0.1); background-color: #FED7AA; border-color: #FB923C;">ScraperAPI</mark>,您首先需要使用您的令牌初始化该类。

以下是分步指南:

  1. 初始化ScraperAPI:首先创建<mark style="color: #272B32; border-width: 1px; border-radius: 4px; box-shadow: 0px 1px 3px 0px rgba(0, 0, 0, 0.1), 0px 1px 2px -1px rgba(0, 0, 0, 0.1); background-color: #FED7AA; border-color: #FB923C;">ScraperAPI</mark>类的一个实例,并将您的令牌作为参数传递。
scraper_api = ScraperAPI({'token': 'YOUR_API_TOKEN'})
  1. 发出 GET 请求:使用实例get的方法scraper_api,提供您要抓取的网页的 URL。
response = scraper_api.get('https://www.amazon.com/DualSense-Wireless-Controller-PlayStation-5/dp/B08FC6C75Y/')
  1. 检查响应状态代码:通过检查状态代码是否为 200 来验证请求是否成功。
if response['status_code'] == 200:
product_name = response['json']['name']
print(product_name)
  • 如果状态代码表示成功,您可以从 JSON 响应中访问并打印产品名称或任何其他所需数据。

代码示例

# Step 1: Initialize the ScraperAPI class with your token
scraper_api = ScraperAPI({'token': 'YOUR_API_TOKEN'})

# Step 2: Make the GET request to the desired URL
response = scraper_api.get('https://www.amazon.com/DualSense-Wireless-Controller-PlayStation-5/dp/B08FC6C75Y/')

# Step 3: Check the response status code and print the product name
if response['status_code'] == 200:
product_name = response['json']['name']
print(product_name)

通过遵循这些步骤,您可以轻松地发出 GET 请求并使用该类检索必要的信息<mark style="color: #272B32; border-width: 1px; border-radius: 4px; box-shadow: 0px 1px 3px 0px rgba(0, 0, 0, 0.1), 0px 1px 2px -1px rgba(0, 0, 0, 0.1); background-color: #FED7AA; border-color: #FB923C;">ScraperAPI</mark>

如何在 Crawlbase 中为 API 请求设置自定义超时?

自定义 API 请求的超时时间非常简单。设置方法如下:

首先,当您创建新 API 对象的实例时,您可以指定所需的超时。这是通过传递超时值(以秒为单位)作为配置对象的一部分来完成的。以下是示例:

api = CrawlingAPI({'token': 'YOUR_TOKEN', 'timeout': 120})

要点:

  • 令牌:'YOUR_TOKEN'请确保用您的实际 API 令牌替换。
  • 超时:您设置的值'timeout'决定了 API 在放弃之前等待响应的时间。在本例中,120表示超时时间为 120 秒。

通过设置此参数,您可以确保您的请求在超时之前等待指定的时间,这对于管理长或复杂的 API 调用特别有用。

步骤 5. 执行 Python 代码

crawlbase.py

代码的成功响应将获取 AliExpress URL 的完整 HTML 源代码并将其显示在您的控制台上。 该数据在大多数情况下还没有用处,因为它很难剖析。 为了获得更合理且易于阅读的数据,我们必须解析此响应并将其转换为结构化数据,然后将其存储在数据库中以便于检索和分析。

步骤 6. 使用 AliExpress scraper 解析数据

此步骤将利用智能代理自动解析 AliExpress 数据的功能。 为此,我们只需要传递 scraper=速卖通-serp – CrawlbaseAPI-parameters 作为我们代码中的标题。 编辑你的 crawlbase.py 文件并粘贴下面的代码。

import requests
import json

# replace with your Crawlbase user_token.
username = 'USER_TOKEN'
password = '' # password is empty, its not used for authentication.
proxy_auth = f'{username}:{password}'

url = 'https://nl.aliexpress.com/w/wholesale-macbook-pro.html'
proxy_url = f"http://{proxy_auth}@smartproxy.crawlbase.com:8012"
proxies = {"http": proxy_url, "https": proxy_url}

headers = {
"CrawlbaseAPI-Parameters": "scraper=aliexpress-serp"
}

response = requests.get(url=url, proxies=proxies,
headers=headers, verify=False)

data = json.loads(response.text)

print('Response Scraped Body: ', json.dumps(data, indent=4))

执行此代码后,响应将采用 JSON 格式,如下所示:

{
"original_status": 200,
"pc_status": 200,
"url": "https://nl.aliexpress.com/w/wholesale-macbook-pro.html?spm=MI7V_IrIdoZgPjgbnB0s3Q&",
"body": {
"products": [
{
"title": "5 In 1 Usb C Hub Type C Naar 4K Hd Adapter Met Rj45 Netwerk 100M 1000M Ethernet Lan Oplader Adapter Voor Macbook Pro",
"price": {
"current": "\uffe11.27"
},
"url": "https://nl.aliexpress.com/item/1005005653517644.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-0&pdp_npi=4%40dis%21GBP%215.76%211.27%21%21%216.86%21%21%40210318ec16999696359782730e2cad%2112000033898457492%21sea%21UK%210%21AB&curPageLogUid=SwEz55KtOSLT",
"image": "https://ae04.alicdn.com/kf/Sbffa8b7a90564cff82ca0b7c2ece62038/5-in-1-USB-C-Hub-Type-C-To-4K-HD-Adapter-with-RJ45-Network-100M.jpg_220x220xz.jpg_.webp",
"shippingMessage": "Gratis verzending boven de \uffe18 \u00b7 Levering binnen 7 dagen",
"soldCount": 207,
"ratingValue": "",
"ratingLink": "https://nl.aliexpress.com/item/1005005653517644.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-0&pdp_npi=4%40dis%21GBP%215.76%211.27%21%21%216.86%21%21%40210318ec16999696359782730e2cad%2112000033898457492%21sea%21UK%210%21AB&curPageLogUid=SwEz55KtOSLT",
"sellerInformation": {
"storeName": "",
"storeLink": null
}
},
{
"title": "Getatek Usb C Hub 4K 60Hz Hdmi Docking Station Type C Naar Ethernet Poort Pd 100W Usb 3.2 Hub Adapter Voor Macbook Pro Xiaomi Lenovo",
"price": {
"current": "\uffe19.66"
},
"url": "https://nl.aliexpress.com/item/1005005980859268.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-1&pdp_npi=4%40dis%21GBP%2130.10%219.66%21%21%21261.78%21%21%40210318ec16999696359782730e2cad%2112000035159491762%21sea%21UK%210%21AB&curPageLogUid=zcTTJdwE54mt",
"image": "https://ae04.alicdn.com/kf/S07ec6c1f025748f591ba11f8c9289000U/Getatek-USB-C-Hub-4K-60Hz-HDMI-Docking-Station-Type-C-to-Ethernet-Port-PD-100W.jpg_220x220xz.jpg_.webp",
"shippingMessage": "Gratis verzending",
"soldCount": 261,
"ratingValue": "",
"ratingLink": "https://nl.aliexpress.com/item/1005005980859268.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-1&pdp_npi=4%40dis%21GBP%2130.10%219.66%21%21%21261.78%21%21%40210318ec16999696359782730e2cad%2112000035159491762%21sea%21UK%210%21AB&curPageLogUid=zcTTJdwE54mt",
"sellerInformation": {
"storeName": "",
"storeLink": null
}
},
{
"title": "12-In-1 Usb C Hub Docking Station Hdmi-Compatibele Adapter 4K 30Hz Pd 100W Type-C Hub Usb 3.0 Splitter Voor Laptop Macbook Pro Air",
"price": {
"current": "\uffe113.92"
},
"url": "https://nl.aliexpress.com/item/1005006054738654.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-2&pdp_npi=4%40dis%21GBP%2136.62%2113.92%21%21%2143.63%21%21%40210318ec16999696359782730e2cad%2112000035520585565%21sea%21UK%210%21AB&curPageLogUid=YU2V7Z8Q7JSg",
"image": "https://ae04.alicdn.com/kf/S5a1cda79dd644150b8755030c9bdc68aJ/12-in-1-USB-C-HUB-Docking-Station-HDMI-compatible-Adapter-4K-30Hz-PD-100W-Type.jpg_220x220xz.jpg_.webp",
"shippingMessage": "Gratis verzending",
"soldCount": 47,
"ratingValue": "",
"ratingLink": "https://nl.aliexpress.com/item/1005006054738654.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-2&pdp_npi=4%40dis%21GBP%2136.62%2113.92%21%21%2143.63%21%21%40210318ec16999696359782730e2cad%2112000035520585565%21sea%21UK%210%21AB&curPageLogUid=YU2V7Z8Q7JSg",
"sellerInformation": {
"storeName": "",
"storeLink": null
}
},
{
"title": "Baseus Usb Type C Hub Naar Hdmi Compatibel Usb 3.0 Adapter 6 In 1 Type C Hub Dock Voor macbook Pro Air Usb C Splitter",
"price": {
"current": "\uffe16.46"
},
"url": "https://nl.aliexpress.com/item/1005005208865147.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-3&pdp_npi=4%40dis%21GBP%2137.49%216.46%21%21%21325.98%21%21%40210318ec16999696359782730e2cad%2112000032856872202%21sea%21UK%210%21AB&curPageLogUid=0JuHtQXjX8DN",
"image": "https://ae04.alicdn.com/kf/S72ff1470a93645d6b3afd70400d7a288N/Baseus-USB-Type-C-HUB-to-HDMI-compatible-USB-3-0-Adapter-6-in-1-Type.jpg_220x220xz.jpg_.webp",
"shippingMessage": "Gratis verzending boven de \uffe18 \u00b7 Levering binnen 5 dagen",
"soldCount": 900,
"ratingValue": "",
"ratingLink": "https://nl.aliexpress.com/item/1005005208865147.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-3&pdp_npi=4%40dis%21GBP%2137.49%216.46%21%21%21325.98%21%21%40210318ec16999696359782730e2cad%2112000032856872202%21sea%21UK%210%21AB&curPageLogUid=0JuHtQXjX8DN",
"sellerInformation": {
"storeName": "",
"storeLink": null
}
},
{
"title": "Huav 2024 Originele Laptop 13.3 Inch 360% Omgedraaid Ultralicht 2K Touchscreen 16G Met 2Tssd Intel N4120 Windows 10 11 Laptop",
"price": {
"current": "\uffe1270.74"
},
"url": "https://nl.aliexpress.com/item/1005006176614563.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&aem_p4p_detail=20231114054716531607197640720004634170&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-4&pdp_npi=4%40dis%21GBP%21356.23%21270.74%21%21%213097.62%21%21%40210318ec16999696359782730e2cad%2112000036140607614%21sea%21UK%210%21AB&curPageLogUid=CWtKq454SCOw&search_p4p_id=20231114054716531607197640720004634170_1",
"image": "https://ae04.alicdn.com/kf/S09eb548a999e407384e583126b354e73Y/HUAV-2024-Original-Laptop-13-3-inch-360-Flipped-Ultra-Light-2K-Touch-Screen-16G-Running.jpg_220x220xz.jpg_.webp",
"shippingMessage": "Gratis verzending",
"soldCount": 18,
"ratingValue": "",
"ratingLink": "https://nl.aliexpress.com/item/1005006176614563.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&aem_p4p_detail=20231114054716531607197640720004634170&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-4&pdp_npi=4%40dis%21GBP%21356.23%21270.74%21%21%213097.62%21%21%40210318ec16999696359782730e2cad%2112000036140607614%21sea%21UK%210%21AB&curPageLogUid=CWtKq454SCOw&search_p4p_id=20231114054716531607197640720004634170_1",
"sellerInformation": {
"storeName": "",
"storeLink": null
}
},
{
"title": "Usb Hub 3.0 4 Poorten Usb3.0 Multi Splitter Adapter Otg Voor Xiaomi Lenovo Macbook Pro 13 15 Air Pro Pc Computer Laptop Accessoires",
"price": {
"current": "\uffe12.74"
},
"url": "https://nl.aliexpress.com/item/1005006212928878.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-5&pdp_npi=4%40dis%21GBP%214.57%212.74%21%21%215.44%21%21%40210318ec16999696359782730e2cad%2112000036304475455%21sea%21UK%210%21AB&curPageLogUid=koszKvWCNDet",
"image": "https://ae04.alicdn.com/kf/S3a56023e42be4eff830bd6174528311bp/USB-HUB-3-0-4-Ports-USB3-0-Multi-Splitter-Adapter-OTG-For-Xiaomi-Lenovo-Macbook.jpg_220x220xz.jpg_.webp",
"shippingMessage": "12-dag levering over \uffe18.39",
"soldCount": 9,
"ratingValue": "",
"ratingLink": "https://nl.aliexpress.com/item/1005006212928878.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-5&pdp_npi=4%40dis%21GBP%214.57%212.74%21%21%215.44%21%21%40210318ec16999696359782730e2cad%2112000036304475455%21sea%21UK%210%21AB&curPageLogUid=koszKvWCNDet",
"sellerInformation": {
"storeName": "",
"storeLink": null
}
},
{
"title": "Usb C Hub Voor Stoomdek Dockingstation Type C Naar Hdmi-Compatibel 4K 60Hz Pd 100W Usb 3.0 Adapterkabel Voor Laptop Macbook Pro",
"price": {
"current": "\uffe17.57"
},
"url": "https://nl.aliexpress.com/item/1005005653434065.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-6&pdp_npi=4%40dis%21GBP%2120.45%217.57%21%21%2124.37%21%21%40210318ec16999696359782730e2cad%2112000033897379128%21sea%21UK%210%21AB&curPageLogUid=E6zEd5ZZ3wXs",
"image": "https://ae04.alicdn.com/kf/S73ea26b1e655401cb67152e3c2aa3f30i/USB-C-HUB-for-Steam-Deck-Docking-Station-Type-C-to-HDMI-compatible-4K-60Hz-PD.jpg_220x220xz.jpg_.webp",
"shippingMessage": "Gratis verzending",
"soldCount": 30,
"ratingValue": "",
"ratingLink": "https://nl.aliexpress.com/item/1005005653434065.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-6&pdp_npi=4%40dis%21GBP%2120.45%217.57%21%21%2124.37%21%21%40210318ec16999696359782730e2cad%2112000033897379128%21sea%21UK%210%21AB&curPageLogUid=E6zEd5ZZ3wXs",
"sellerInformation": {
"storeName": "",
"storeLink": null
}
},
{
"title": "Usb C Naar Ethernet Adapter Rj45 Naar Thunderbolt 3 Type C Gigabit Netwerk Lan 1000Mbps Converter Voor Macbook Pro/Air Samsung Galaxy",
"price": {
"current": "\uffe13.37"
},
"url": "https://nl.aliexpress.com/item/1005006224668700.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-7&pdp_npi=4%40dis%21GBP%2111.24%213.37%21%21%2197.76%21%21%40210318ec16999696359782730e2cad%2112000036356461171%21sea%21UK%210%21AB&curPageLogUid=PuUF5xuqSwIN",
"image": "https://ae04.alicdn.com/kf/S6a1bc693df814f689c8a28bb25ce9867L/USB-C-to-Ethernet-Adapter-RJ45-to-Thunderbolt-3-Type-C-Gigabit-Network-LAN-1000Mbps-Converter.jpg_220x220xz.jpg_.webp",
"shippingMessage": "12-dag levering over \uffe18.39",
"soldCount": null,
"ratingValue": "",
"ratingLink": "https://nl.aliexpress.com/item/1005006224668700.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-7&pdp_npi=4%40dis%21GBP%2111.24%213.37%21%21%2197.76%21%21%40210318ec16999696359782730e2cad%2112000036356461171%21sea%21UK%210%21AB&curPageLogUid=PuUF5xuqSwIN",
"sellerInformation": {
"storeName": "",
"storeLink": null
}
},
{
"title": "Minisopuru Hub Usb C Hub 10Gbps Hub Usb Type C Naar Usb 3.2 Pd 100W Adapter Voor Macbook Pro Imac Pc Accessoires Usb Hub",
"price": {
"current": "\uffe14.64"
},
"url": "https://nl.aliexpress.com/item/1005005883953605.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-8&pdp_npi=4%40dis%21GBP%2132.13%214.64%21%21%21279.37%21%21%40210318ec16999696359782730e2cad%2112000034711180884%21sea%21UK%210%21AB&curPageLogUid=QeKUEU8r5Hh8",
"image": "https://ae04.alicdn.com/kf/S13153af571704d17b2143b89918557785/Minisopuru-HUB-USB-C-Hub-10Gbps-Hub-USB-Type-C-to-USB-3-2-PD-100W.jpg_220x220xz.jpg_.webp",
"shippingMessage": "Gratis verzending boven de \uffe18 \u00b7 Levering binnen 7 dagen",
"soldCount": 600,
"ratingValue": "",
"ratingLink": "https://nl.aliexpress.com/item/1005005883953605.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-8&pdp_npi=4%40dis%21GBP%2132.13%214.64%21%21%21279.37%21%21%40210318ec16999696359782730e2cad%2112000034711180884%21sea%21UK%210%21AB&curPageLogUid=QeKUEU8r5Hh8",
"sellerInformation": {
"storeName": "",
"storeLink": null
}
},
{
"title": "Screen Vervanging Compatibel Met Macbook Pro Air A1706 A1708 A1989 A2159 A2251 A2289 A2338 A1466 A1932 A2179 A2337 Lcd Display",
"price": {
"current": "\uffe1113.97"
},
"url": "https://nl.aliexpress.com/item/1005003836485026.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&aem_p4p_detail=20231114054716531607197640720004634170&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-9&pdp_npi=4%40dis%21GBP%21113.97%21113.97%21%21%21135.79%21%21%40210318ec16999696359782730e2cad%2112000031226615553%21sea%21UK%210%21AB&curPageLogUid=0LcWc3CWSgz3&search_p4p_id=20231114054716531607197640720004634170_2",
"image": "",
"shippingMessage": "Verzending: \uffe130.92",
"soldCount": 128,
"ratingValue": "",
"ratingLink": "https://nl.aliexpress.com/item/1005003836485026.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&aem_p4p_detail=20231114054716531607197640720004634170&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-9&pdp_npi=4%40dis%21GBP%21113.97%21113.97%21%21%21135.79%21%21%40210318ec16999696359782730e2cad%2112000031226615553%21sea%21UK%210%21AB&curPageLogUid=0LcWc3CWSgz3&search_p4p_id=20231114054716531607197640720004634170_2",
"sellerInformation": {
"storeName": "",
"storeLink": null
}
}
],
"relatedSearches": [
{
"title": "adapter netsnoer",
"link": "https://nl.aliexpress.com/w/wholesale-adapter-netsnoer.html"
},
{
"title": "macbook lucht bezel",
"link": "https://nl.aliexpress.com/w/wholesale-macbook-air-bezel.html"
},
{
"title": "macbook oplader",
"link": "https://nl.aliexpress.com/w/wholesale-macbook-oplader.html"
},
{
"title": "usb onderdeel",
"link": "https://nl.aliexpress.com/w/wholesale-usb-c-onderdeel.html"
},
{
"title": "keyboard bescherming macbook air",
"link": "https://nl.aliexpress.com/w/wholesale-keyboard-bescherming-macbook-air.html"
},
{
"title": "usb naar type c splitter",
"link": "https://nl.aliexpress.com/w/wholesale-usb-naar-type-c-splitter.html"
},
{
"title": "mac poorten",
"link": "https://nl.aliexpress.com/w/wholesale-mac-poorten.html"
},
{
"title": "dell laptops",
"link": "https://nl.aliexpress.com/w/wholesale-dell-laptops.html"
},
{
"title": "magsafe oplader macbook pro",
"link": "https://nl.aliexpress.com/w/wholesale-magsafe-charger-macbook-pro.html"
},
{
"title": "macbook pro a1229",
"link": "https://nl.aliexpress.com/w/wholesale-macbook-pro-a1229.html"
},
{
"title": "macbook lucht m1 16 16",
"link": "https://nl.aliexpress.com/w/wholesale-macbook-air-m1-16-512.html"
},
{
"title": "macbook pro a1708 toetsenbord vervanging",
"link": "https://nl.aliexpress.com/w/wholesale-macbook-pro-a1708-keyboard-replacement.html"
}
],
"relatedCategories": []
}
}

步骤 7. 将解析的数据保存到 JSON 文件

当然,我们不会让数据白白浪费。 在此步骤中,我们将在代码中添加几行,以便我们可以安全地存储抓取的数据以供以后使用。 回到你的 crawlbase.py 再次文件并粘贴下面的代码。

import requests
import json

# replace with your user_token which you get from your dashboard.
username = 'USER_TOKEN'
password = '' # password is empty, its not used for authentication.
proxy_auth = f'{username}:{password}'

url = 'https://nl.aliexpress.com/w/wholesale-macbook-pro.html'
proxy_url = f"http://{proxy_auth}@smartproxy.crawlbase.com:8012"
proxies = {"http": proxy_url, "https": proxy_url}

headers = {
"CrawlbaseAPI-Parameters": "scraper=aliexpress-serp"
}

response = requests.get(url=url, proxies=proxies,
headers=headers, verify=False)

data = json.loads(response.text)

with open('scraped_data.json', 'w') as json_file:
json.dump(data, json_file)

print('Response Scraped Body: ', json.dumps(data, indent=4))

处理响应并将其保存为 JSON:

  • json.loads(response.text):这会将响应的 JSON 格式文本转换为 Python 字典。
  • with open('scraped_data.json', 'w') as json_file:以写入模式打开名为“scraped_data.json”的文件。
  • json.dump(data, json_file):将Python字典(转换后的JSON数据)写入文件。

总结

在这篇博客中,我们深入探讨了Crawlbase Scraper API 的细节及其在提高 AliExpress 网页抓取效率方面发挥的重要作用。

该分步指南提供了有关配置 Python 项目、设置项目目录、安装依赖项、与 Python 无缝使用智能代理、执行代码以及使用 AliExpress 网络抓取工具高效解析抓取数据的深入介绍。最后一步是将解析后的数据保存到结构化 JSON 文件中。

资料原文:https://crawlbase.com/blog/aliexpress-proxy-scraping/

#你可能也喜欢这些API文章!