电商爬虫API-oxylabs

电商爬虫API-oxylabs

专用API
服务商 服务商: oxylabs
【更新时间: 2024.07.04】 电商爬虫 API 接口-oxylabs,这是一个强大的接口。它能够助力获取大多数电商网站的企业级数据,为用户提供高效、精准且全面的数据支持,无论是进行市场分析、竞品研究还是其他相关业务,都能发挥重要作用。
初始:49$ / 月 去服务商官网采购>
服务星级:6星
⭐ ⭐ ⭐ ⭐ ⭐ ⭐ 🌟
调用次数
0
集成人数
0
商用人数
0
! SLA: N/A
! 响应: N/A
! 适用于个人&企业
收藏
×
完成
取消
×
书签名称
确定
<
产品介绍
>

什么是oxylabs的电商爬虫API?

“电商爬虫API接口-oxylabs” 是一种专门为电子商务网站设计的数据抓取工具。该接口通过模拟人类浏览行为,可以自动化地从各大电商平台获取产品数据、价格信息、评论等,帮助用户进行市场分析、价格监控、竞争对手研究等。它能够高效地处理大量请求,并提供高质量、准确的数据,确保用户可以快速获取所需的电商信息。

什么是oxylabs的电商爬虫API?

由服务使用方的应用程序发起,以Restful风格为主、通过公网HTTP协议调用oxylabs的电商爬虫API,从而实现程序的自动化交互,提高服务效率。

oxylabs的电商爬虫API有哪些核心功能?

瞬间采集精确产品数据

电商爬虫API可以快速访问主流电商市场或独立站的产品数据。从多种类型的网页获取实时电商数据,包括HTML或JSON格式的搜索和产品页面。

轻松规避地理限制

无论您身在何处,都能访问几乎全球各地的本地化电商数据。电商爬虫API让您能轻松从195个国家采集高度本地化的产品数据。

 

只需几秒即可检索出高质量的结构化数据

我们基于机器学习的自适应解析器可以轻松适应网站的布局,并允许您从几乎任何电商产品页面收集数据。通过检测最重要的数据点,如标题、价格和产品描述,它能够为您提供JSON格式的高质量结构化数据。 

无头浏览器

只需一行代码就能渲染基于JavaScript的页面,无需复杂的浏览器开发或自动化的第三方工具。内置代理能帮助您访问来自世界各地的数据,并帮助解决反爬虫解决方案。由于能够将加载的页面保存为HTML或PNG,您可以很轻松地访问所需的数据。 

 

oxylabs的电商爬虫API的核心优势是什么?

深度教程
使用Oxylabs文档和GitHub repository,顺利入门。

无需代理管理
利用我们超过1.02亿个代理池,而不必担心其管理问题。

批量抓取
一次性抓取多个页面,每批最多可抓取1000个URL。

多种交付方式
通过API或您的云存储(AWS S3或GCS)来接收结果。

高度可扩展性
易于集成和定制,支持大规模的请求。

24/7实时支持
无论何时,我们的支持团队都会在您需要时提供帮助。

在哪些场景会用到oxylabs的电商爬虫API?


定价情报
轻松跟踪电子商务产品定价情报,并解锁动态定价策略。


 

产品目录映射
轻松监控产品库存状态(有货/缺货)并收集分类数据。

 

 

竞争对手分析
轻松提取最畅销产品或任何产品页面数据并收集评论。

 

<
产品价格
>

常规

企业

<
使用指南
>

电商爬虫API如何操作?

购买想要的套餐后,您就可以立即开始使用电商爬虫API。设置很简单,只需以下几个步骤:

  1. 登录仪表板。

  2. 创建API用户。

  3. 运行测试查询,然后继续设置。

电商爬虫API是一个易于使用的工具,无需任何特殊的基础设施或资源。

  1. 选择产品ID、链接或搜索短语

  2. 提交GET或POST请求

  3. 通过REST API直接接收所需的公共数据或上传到云

您会在仪表板上发现什么?

如果您选择使用Oxylabs的电商爬虫API,您将获得一个简便的仪表板。您可以关注您的数据使用统计并对您的订阅细节进行跟踪。不仅如此,您还可联系Oxylabs的客户服务团队,无论什么时候都能获得帮助。

身份验证

电商爬虫API采用需要用户名和密码的基本HTTP身份认证。这是开始掌握该工具的最简单的方法。以下代码示例展示如何使用实时交付方法向books.toscrape.com发送GET请求,我们将在本指南后面的内容中讨论这种方法。 如果您观察到成功率很低,或者检索内容为空,请尝试在请求中使用额外参数"render":"html"。请点击这里了解关于渲染参数的更多信息。

curl --user "USERNAME:PASSWORD" 'https://realtime.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source": "universal_ecommerce", "url": "https://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html", "geo-location": "United States", "parser_type": "ecommerce_product", "parse": true}'

集成方法

Oxylabs的电商爬虫API提供了各种集成方法,每一种都有独特的好处。您可以选择一个最适合您需求的方法,并有效地获得所需的电子商务数据。

Push-Pull

当使用push-pull集成方法时,您需要与我们的端点保持稳定连接,以获取所需的公共数据。在这种情况下,您只需向我们发送一个请求,然后我们返回您的工作ID。工作完成后,您可以使用这个id从/results端点获取数据。 

您可以自己检查工作状态,或者设置一个接受POST请求的监听器。在这种情况下,一旦准备回收工作,我们会向您发送一个回调消息。

这种方法相对而言较为简单,轻松即可扩大规模。它提供了以下功能:

  • 单一查询。我们的端点将处理一个关键字或URL的单一查询。API将向您发送一条确认消息,包括工作 id 和其他信息。在这个id的帮助下,您可以手动检查您的工作状态。

  • 检查工作状态。如果您在查询中包含callback_url ,我们会在抓取任务完成后向您发送一个内容链接。如果您的查询不包含callback_url,您应该自己检查工作状态。您需要使用响应消息rel:self下href中的URL。 

  • 检索工作内容。一旦工作内容准备就绪,您便可使用rel:results下href中的URL来获取。 

  • 批量查询。电商爬虫API可以对多个关键字执行查询,每批最多可执行1000个关键字。为此,您必须发布查询参数作为JSON主体的数据。系统会将每个关键字作为一个单独的请求进行处理,并为每个请求返回唯一的工作id。 

  • 获取通知者IP地址列表。要将向您发送回调消息的IP列入白名单,您应该向https://data.oxylabs.io/v1/info/callbacker_ips端点发送一个GET请求。

  • 上传至存储器。抓取的内容默认存储在我们的数据库中。要检索结果,您需要查询我们的端点。您也可以通过使用自定义存储功能将所有数据直接迁移到您的存储空间。

  • 回调。当数据收集任务完成后,我们会向您的设备发送一个回调请求,并向您提供一个URL,以获得抓取的数据。

在本快速入门指南中,我们提供了一个示例,介绍如何使用推拉集成方法和cURL库与电商爬虫API进行交互以提出请求。我们将在美国地理定位中从名为的虚拟电子商务网站中提取已解析的产品数据。如果您希望得到HTML页面内容,而不是解析的数据,则仅需删除'parse'和'parser_type'参数即可。

单个查询请求的示例:

curl --user "USERNAME:PASSWORD" 'https://data.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source": "universal_ecommerce", "url": "https://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html", "geo_location": "United States", "parse": true, "parser_type": "ecommerce_product"}'

 

详情参考:https://oxylabs.cn/blog/ecommerce-scraper-api-quick-start-guide

 

<
产品问答
>
?
什么是电商抓取?
电商抓取就是从电商市场或独立站提取公共电商产品数据。
?
电商爬虫API需要用时多久返回结果?
一般来说平均用时不到10秒。欲了解更多信息,请联系您的客户经理或我们的支持团队。一般来说平均用时不到10秒。欲了解更多信息,请联系您的客户经理或我们的支持团队。
?
我能用电商爬虫API实现重复抓取和解析自动作业吗?
可以,我们所有的爬虫API都提供免费的Scheduler功能。该功能支持安排重复抓取和解析自动作业。查看我们的文档,了解更多信息来设置您的Scheduler。
?
如何判断一个网站是否在使用JavaScript?
如果您在源代码中找不到文本,但在浏览器中可以看到它,它可能正用JavaScript来渲染。这是开发人员在对JavaScript密集型网站的信息进行抓取时所面临的最常见问题之一。您从服务器上接收的初始响应可能不包含您所期望的目视检查信息。Oxylabs的电商爬虫API能够从JavaScript渲染的网站中获取数据。如果您在源代码中找不到文本,但在浏览器中可以看到它,它可能正用JavaScript来渲染。这是开发人员在对JavaScript密集型网站的信息进行抓取时所面临的最常见问题之一。您从服务器上接收的初始响应可能不包含您所期望的目视检查信息。Oxylabs的电商爬虫API能够从JavaScript渲染的网站中获取数据。
<
关于我们
>
oxylabs
企业
Oxylabs是一家提供全球领先代理服务的公司,拥有超过1亿的住宅代理IP和200多万的数据中心代理,覆盖195个国家。公司专注于为各种规模的企业提供高质量的数据收集和网络抓取解决方案,包括动态住宅代理、数据中心代理、移动代理和ISP代理等。Oxylabs的产品和服务广泛应用于广告验证、价格监控、市场调研、品牌保护等领域,帮助企业高效、安全地获取和分析网络数据。通过其先进的代理基础架构和专业的技术支持,Oxylabs助力企业在全球范围内实现数据的自由流动和商业智能的深入洞察。
联系信息
服务时间: 00:00:00至24:00:00
邮箱: support@oxylabs.io

各种企业代理服务器的一站式解决方案

Oxysales, UAB公司于2015年在立陶宛成立。该公司能够在兼顾商业道德的基础上提供市场领先的解决方案。

Oxylabs网站隶属于Oxysales, UAB公司。

<
最可能同场景使用的其他API
>
API接口列表
<
产品价格
>

常规

企业

<
使用指南
>

电商爬虫API如何操作?

购买想要的套餐后,您就可以立即开始使用电商爬虫API。设置很简单,只需以下几个步骤:

  1. 登录仪表板。

  2. 创建API用户。

  3. 运行测试查询,然后继续设置。

电商爬虫API是一个易于使用的工具,无需任何特殊的基础设施或资源。

  1. 选择产品ID、链接或搜索短语

  2. 提交GET或POST请求

  3. 通过REST API直接接收所需的公共数据或上传到云

您会在仪表板上发现什么?

如果您选择使用Oxylabs的电商爬虫API,您将获得一个简便的仪表板。您可以关注您的数据使用统计并对您的订阅细节进行跟踪。不仅如此,您还可联系Oxylabs的客户服务团队,无论什么时候都能获得帮助。

身份验证

电商爬虫API采用需要用户名和密码的基本HTTP身份认证。这是开始掌握该工具的最简单的方法。以下代码示例展示如何使用实时交付方法向books.toscrape.com发送GET请求,我们将在本指南后面的内容中讨论这种方法。 如果您观察到成功率很低,或者检索内容为空,请尝试在请求中使用额外参数"render":"html"。请点击这里了解关于渲染参数的更多信息。

curl --user "USERNAME:PASSWORD" 'https://realtime.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source": "universal_ecommerce", "url": "https://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html", "geo-location": "United States", "parser_type": "ecommerce_product", "parse": true}'

集成方法

Oxylabs的电商爬虫API提供了各种集成方法,每一种都有独特的好处。您可以选择一个最适合您需求的方法,并有效地获得所需的电子商务数据。

Push-Pull

当使用push-pull集成方法时,您需要与我们的端点保持稳定连接,以获取所需的公共数据。在这种情况下,您只需向我们发送一个请求,然后我们返回您的工作ID。工作完成后,您可以使用这个id从/results端点获取数据。 

您可以自己检查工作状态,或者设置一个接受POST请求的监听器。在这种情况下,一旦准备回收工作,我们会向您发送一个回调消息。

这种方法相对而言较为简单,轻松即可扩大规模。它提供了以下功能:

  • 单一查询。我们的端点将处理一个关键字或URL的单一查询。API将向您发送一条确认消息,包括工作 id 和其他信息。在这个id的帮助下,您可以手动检查您的工作状态。

  • 检查工作状态。如果您在查询中包含callback_url ,我们会在抓取任务完成后向您发送一个内容链接。如果您的查询不包含callback_url,您应该自己检查工作状态。您需要使用响应消息rel:self下href中的URL。 

  • 检索工作内容。一旦工作内容准备就绪,您便可使用rel:results下href中的URL来获取。 

  • 批量查询。电商爬虫API可以对多个关键字执行查询,每批最多可执行1000个关键字。为此,您必须发布查询参数作为JSON主体的数据。系统会将每个关键字作为一个单独的请求进行处理,并为每个请求返回唯一的工作id。 

  • 获取通知者IP地址列表。要将向您发送回调消息的IP列入白名单,您应该向https://data.oxylabs.io/v1/info/callbacker_ips端点发送一个GET请求。

  • 上传至存储器。抓取的内容默认存储在我们的数据库中。要检索结果,您需要查询我们的端点。您也可以通过使用自定义存储功能将所有数据直接迁移到您的存储空间。

  • 回调。当数据收集任务完成后,我们会向您的设备发送一个回调请求,并向您提供一个URL,以获得抓取的数据。

在本快速入门指南中,我们提供了一个示例,介绍如何使用推拉集成方法和cURL库与电商爬虫API进行交互以提出请求。我们将在美国地理定位中从名为的虚拟电子商务网站中提取已解析的产品数据。如果您希望得到HTML页面内容,而不是解析的数据,则仅需删除'parse'和'parser_type'参数即可。

单个查询请求的示例:

curl --user "USERNAME:PASSWORD" 'https://data.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source": "universal_ecommerce", "url": "https://books.toscrape.com/catalogue/a-light-in-the-attic_1000/index.html", "geo_location": "United States", "parse": true, "parser_type": "ecommerce_product"}'

 

详情参考:https://oxylabs.cn/blog/ecommerce-scraper-api-quick-start-guide

 

<
依赖服务
>
<
产品问答
>
?
什么是电商抓取?
电商抓取就是从电商市场或独立站提取公共电商产品数据。
?
电商爬虫API需要用时多久返回结果?
一般来说平均用时不到10秒。欲了解更多信息,请联系您的客户经理或我们的支持团队。一般来说平均用时不到10秒。欲了解更多信息,请联系您的客户经理或我们的支持团队。
?
我能用电商爬虫API实现重复抓取和解析自动作业吗?
可以,我们所有的爬虫API都提供免费的Scheduler功能。该功能支持安排重复抓取和解析自动作业。查看我们的文档,了解更多信息来设置您的Scheduler。
?
如何判断一个网站是否在使用JavaScript?
如果您在源代码中找不到文本,但在浏览器中可以看到它,它可能正用JavaScript来渲染。这是开发人员在对JavaScript密集型网站的信息进行抓取时所面临的最常见问题之一。您从服务器上接收的初始响应可能不包含您所期望的目视检查信息。Oxylabs的电商爬虫API能够从JavaScript渲染的网站中获取数据。如果您在源代码中找不到文本,但在浏览器中可以看到它,它可能正用JavaScript来渲染。这是开发人员在对JavaScript密集型网站的信息进行抓取时所面临的最常见问题之一。您从服务器上接收的初始响应可能不包含您所期望的目视检查信息。Oxylabs的电商爬虫API能够从JavaScript渲染的网站中获取数据。
<
关于我们
>
oxylabs
企业
Oxylabs是一家提供全球领先代理服务的公司,拥有超过1亿的住宅代理IP和200多万的数据中心代理,覆盖195个国家。公司专注于为各种规模的企业提供高质量的数据收集和网络抓取解决方案,包括动态住宅代理、数据中心代理、移动代理和ISP代理等。Oxylabs的产品和服务广泛应用于广告验证、价格监控、市场调研、品牌保护等领域,帮助企业高效、安全地获取和分析网络数据。通过其先进的代理基础架构和专业的技术支持,Oxylabs助力企业在全球范围内实现数据的自由流动和商业智能的深入洞察。
联系信息
服务时间: 00:00:00至24:00:00
邮箱: support@oxylabs.io

各种企业代理服务器的一站式解决方案

Oxysales, UAB公司于2015年在立陶宛成立。该公司能够在兼顾商业道德的基础上提供市场领先的解决方案。

Oxylabs网站隶属于Oxysales, UAB公司。

<
最可能同场景使用的其他API
>