网络爬虫API-oxylabs

网络爬虫API-oxylabs

专用API
服务商 服务商: oxylabs
【更新时间: 2024.07.04】 网络爬虫 API 接口-oxylabs,专注于为用户提供高效便捷的服务。它能够针对大多数网站,实现对其提供的公共数据进行精准抓取和交付,助力用户轻松获取所需数据信息,极大地提升了数据获取的效率和质量。
初始:49$/月 去服务商官网采购>
服务星级:2星
⭐ ⭐ 🌟 🌟 🌟 🌟 🌟
调用次数
0
集成人数
0
商用人数
0
! SLA: N/A
! 响应: N/A
! 适用于个人&企业
收藏
×
完成
取消
×
书签名称
确定
<
产品介绍
>

什么是oxylabs的网络爬虫API?

“网络爬虫API接口-oxylabs” 是一种自动化工具,用于从各种网站提取数据。它提供了一个强大的接口,使用户能够通过简单的API请求来抓取网页内容,而无需处理复杂的抓取机制和反抓取技术。该接口的设计旨在简化数据获取过程,提高数据提取的效率和准确性。

什么是oxylabs的网络爬虫API?

由服务使用方的应用程序发起,以Restful风格为主、通过公网HTTP协议调用oxylabs的网络爬虫API,从而实现程序的自动化交互,提高服务效率。

oxylabs的网络爬虫API有哪些核心功能?

从任何URL收集高质量数据

凭借Oxylabs网络爬虫API,甚至可以从最复杂的网站中轻松提取数据。我们的内置专利代理轮换工具、JavaScript渲染、和其他智能解决方案能确保快速可靠的数据提取过程。

轻松规避地理限制

无论您身在何处,都能访问几乎世界各地的本地数据。网络爬虫API让您能收集195个国家的本地化搜索结果。

 

获取无需管理的抓取基础架构

利用我们随时可用的顶级网络数据收集基础架构。无需担心JavaScript密集型网站、IP封锁或其他挑战——我们都替您解决了。

无头浏览器

只需一行代码就能渲染基于JavaScript的页面,无需复杂的浏览器开发或自动化的第三方工具。内置代理能帮助您访问来自世界各地的数据,并帮助解决反爬虫解决方案。由于能够将加载的页面保存为HTML或PNG,您可以很轻松地访问所需的数据。 

 

oxylabs的网络爬虫API的核心优势是什么?

深度教程
使用Oxylabs文档和GitHub repository,顺利入门。

无需代理管理
利用我们超过1.02亿个代理池,而不必担心其管理问题。

批量抓取
一次性抓取多个页面,每批最多可抓取1000个URL。

多种交付方式
通过API或您的云存储(AWS S3或GCS)来接收结果。

高度可扩展性
易于集成和定制,支持大规模的请求。

24/7实时支持
无论何时,我们的支持团队都会在您需要时提供帮助。

在哪些场景会用到oxylabs的网络爬虫API?

市场调研
扫描来自世界各地的无数网页来洞悉市场趋势,领先对手。

 

欺诈防护
设置自动网页抓取,扫描来自任何网站和多个位置的恶意内容。

 

旅费监控
轻松从大量使用JavaScript的高级网站获取可靠的旅行定价数据。

 

<
产品价格
>

常规

企业

<
使用指南
>

网络爬虫API如何操作?

购买想要的套餐后,您就可以立即开始使用网络爬虫API。设置很简单,只需以下几个步骤:

  1. 登录仪表板。

  2. 创建API用户。

  3. 运行测试查询,然后继续设置。

网络爬虫 API 是一个易于使用的工具,无需任何特殊的基础设施或资源。 

  1. 选择目标链接、地理位置和 JS 渲染参数

  2. 添加自定义标题和 cookies,或者让我们自己管理

  3. 提交 GET 或 POST 请求

  4. 通过 REST API 直接接收数据或转到云

身份验证

网络爬虫 API采用需要用户名和密码的基本 HrrP 身份认证。这是开始掌握该工具的最简单的方法。以下代码示例展示如何使用实时交付方法向https://ip.oxylabs.io 发送 GEr 请;,我们将在本文后面的内容中讨论这种方法。如果您观察到成功率很低,或者检索内容为空,请尝试在请求中使用额外参数"render":"html"。请点击这里了解关于渲染参数的更多信息。

curl --user "USERNAME:PASSWORD"'https://realtime.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source": "universal", "url": "https://ip.oxylabs.io"}'

集成方法

您可以使用以下三种方法其中一种集成网络爬虫API:Push-Pull、Realtime和SuperAPI。现在我们了解每种方法的详细工作原理。

Push-Pull

Push-Pull 的优势在于其简单性,同时也是最可靠的数据交付方法。使用这种方法,您向我们提供您的工作参数,我们会为您的工作分配一个 id,可以用来在稍后从/results端点获取内容。您可以自己检查工作是否完成,或者设置一个接受 POST 请求的监听器,在这种情况下,一旦准备回收工作,我们会向您发送一个回调消息。

此外,Push-Pull方法还提供了以下功能:

  • 单一查询。我们的端点将处理一个关键字或 URL 的单一请求。工作 id 连同其他信息,将通过 API 确认消息发送给您。这个 id 将帮助您手动检查您的工作状态。 

  • 检查工作状态。如果您在查询中包含 callback_url ,我们会在抓取任务完成后向您提供一个数据链接。如果您的查询没有 callback_url,您需要使用响应消息 rel:self 下 href 中的 URL,手动验证工作状态。 

  • 检索工作内容。一旦工作内容准备就绪,您便可使用 rel:results下 href 中的 URL 获取数据。

  • 批量查询。网络爬虫 API 可以执行多个关键字,每批最多可执行 1000 个关键字。为此,您必须发布查询参数作为 JSON 主体的数据。系统会将每个关键字作为一个单独的请求进行处理,并为每个请求返回唯一的工作 id。 

  • 获取通知者 IP 地址列表。为了将向您发送回调消息的 IP 列入白名单,您应该 GET这个端点。

  • 上传至存储器。抓取的内容默认存储在我们的数据库中。然而,我们配备一个自定义的存储功能,让您将结果存储在您的云存储中,这样您就无需进行任何额外的请求来获取结果 – 任何内容都会直接转入您的存储。 

  • 回调。当数据收集任务完成后,我们会向您的计算机发送一个回调请求,并向您提供一个 URL,以获得抓取的数据。 

在本快速入门指南中,我们提供了一个示例,介绍如何使用推拉集成方法和 cURL库与网络爬虫 API 进行交互以提出请求。我们将从测试网站 https://ip.oxylabs.io 获取内容,该网站会返回提出请求的 IP 地址。我们将使用美国地理定位。

单个查询请求的示例:

curl --user "USERNAME:PASSWORD"'https://data.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source": "universal", "url": "https://ip.oxylabs.io", "geo_location": "United States"}'

 

详情参考:https://oxylabs.cn/blog/web-scraper-api-quick-start-guide

 

<
产品问答
>
?
我能用网络爬虫API提取什么类型的数据?
网络爬虫API能够交付大多数网站的网页HTML代码。此外,有些网站使用JavaScript来加载动态内容,您还能使用JavaScript渲染功能从这些网站获取所需HTML。
?
我能用网络爬虫API实现重复抓取自动作业吗?
可以,我们所有的爬虫API都提供免费的Scheduler功能。您只需安排重复抓取作业的日程就能实现自动作业。简单来说,您无需再发送带有相同参数的新请求来接收相同公共数据的日常更新。同样地,您也无需创建或管理您的日程安排脚本。查看我们的文档,了解更多关于Scheduler功能的信息。可以,我们所有的爬虫API都提供免费的Scheduler功能。您只需安排重复抓取作业的日程就能实现自动作业。简单来说,您无需再发送带有相同参数的新请求来接收相同公共数据的日常更新。同样地,您也无需创建或管理您的日程安排脚本。查看我们的文档,了解更多关于Scheduler功能的信息。
?
网络爬虫API需要用时多久返回结果?
网络爬虫API能交付来自几乎世界各地任何网站的实时结果。交付时间很大程度上取决于请求目标。欲了解关于具体目标的更多信息,请联系您的客户经理或我们的支持团队。
?
对网站的信息进行抓取是否合法?
在不违反任何有关源目标或数据本身的法律的情况下,网络爬取服务可能属于合法。我们强烈建议您在执行任何抓取项目之前阅读相关资料并咨询您的法律顾问,以避免任何潜在风险。在不违反任何有关源目标或数据本身的法律的情况下,网络爬取服务可能属于合法。我们强烈建议您在执行任何抓取项目之前阅读相关资料并咨询您的法律顾问,以避免任何潜在风险。
<
关于我们
>
oxylabs
企业
Oxylabs是一家提供全球领先代理服务的公司,拥有超过1亿的住宅代理IP和200多万的数据中心代理,覆盖195个国家。公司专注于为各种规模的企业提供高质量的数据收集和网络抓取解决方案,包括动态住宅代理、数据中心代理、移动代理和ISP代理等。Oxylabs的产品和服务广泛应用于广告验证、价格监控、市场调研、品牌保护等领域,帮助企业高效、安全地获取和分析网络数据。通过其先进的代理基础架构和专业的技术支持,Oxylabs助力企业在全球范围内实现数据的自由流动和商业智能的深入洞察。
联系信息
服务时间: 00:00:00至24:00:00
邮箱: support@oxylabs.io

各种企业代理服务器的一站式解决方案

Oxysales, UAB公司于2015年在立陶宛成立。该公司能够在兼顾商业道德的基础上提供市场领先的解决方案。

Oxylabs网站隶属于Oxysales, UAB公司。

<
最可能同场景使用的其他API
>
API接口列表
<
产品价格
>

常规

企业

<
使用指南
>

网络爬虫API如何操作?

购买想要的套餐后,您就可以立即开始使用网络爬虫API。设置很简单,只需以下几个步骤:

  1. 登录仪表板。

  2. 创建API用户。

  3. 运行测试查询,然后继续设置。

网络爬虫 API 是一个易于使用的工具,无需任何特殊的基础设施或资源。 

  1. 选择目标链接、地理位置和 JS 渲染参数

  2. 添加自定义标题和 cookies,或者让我们自己管理

  3. 提交 GET 或 POST 请求

  4. 通过 REST API 直接接收数据或转到云

身份验证

网络爬虫 API采用需要用户名和密码的基本 HrrP 身份认证。这是开始掌握该工具的最简单的方法。以下代码示例展示如何使用实时交付方法向https://ip.oxylabs.io 发送 GEr 请;,我们将在本文后面的内容中讨论这种方法。如果您观察到成功率很低,或者检索内容为空,请尝试在请求中使用额外参数"render":"html"。请点击这里了解关于渲染参数的更多信息。

curl --user "USERNAME:PASSWORD"'https://realtime.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source": "universal", "url": "https://ip.oxylabs.io"}'

集成方法

您可以使用以下三种方法其中一种集成网络爬虫API:Push-Pull、Realtime和SuperAPI。现在我们了解每种方法的详细工作原理。

Push-Pull

Push-Pull 的优势在于其简单性,同时也是最可靠的数据交付方法。使用这种方法,您向我们提供您的工作参数,我们会为您的工作分配一个 id,可以用来在稍后从/results端点获取内容。您可以自己检查工作是否完成,或者设置一个接受 POST 请求的监听器,在这种情况下,一旦准备回收工作,我们会向您发送一个回调消息。

此外,Push-Pull方法还提供了以下功能:

  • 单一查询。我们的端点将处理一个关键字或 URL 的单一请求。工作 id 连同其他信息,将通过 API 确认消息发送给您。这个 id 将帮助您手动检查您的工作状态。 

  • 检查工作状态。如果您在查询中包含 callback_url ,我们会在抓取任务完成后向您提供一个数据链接。如果您的查询没有 callback_url,您需要使用响应消息 rel:self 下 href 中的 URL,手动验证工作状态。 

  • 检索工作内容。一旦工作内容准备就绪,您便可使用 rel:results下 href 中的 URL 获取数据。

  • 批量查询。网络爬虫 API 可以执行多个关键字,每批最多可执行 1000 个关键字。为此,您必须发布查询参数作为 JSON 主体的数据。系统会将每个关键字作为一个单独的请求进行处理,并为每个请求返回唯一的工作 id。 

  • 获取通知者 IP 地址列表。为了将向您发送回调消息的 IP 列入白名单,您应该 GET这个端点。

  • 上传至存储器。抓取的内容默认存储在我们的数据库中。然而,我们配备一个自定义的存储功能,让您将结果存储在您的云存储中,这样您就无需进行任何额外的请求来获取结果 – 任何内容都会直接转入您的存储。 

  • 回调。当数据收集任务完成后,我们会向您的计算机发送一个回调请求,并向您提供一个 URL,以获得抓取的数据。 

在本快速入门指南中,我们提供了一个示例,介绍如何使用推拉集成方法和 cURL库与网络爬虫 API 进行交互以提出请求。我们将从测试网站 https://ip.oxylabs.io 获取内容,该网站会返回提出请求的 IP 地址。我们将使用美国地理定位。

单个查询请求的示例:

curl --user "USERNAME:PASSWORD"'https://data.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source": "universal", "url": "https://ip.oxylabs.io", "geo_location": "United States"}'

 

详情参考:https://oxylabs.cn/blog/web-scraper-api-quick-start-guide

 

<
依赖服务
>
<
产品问答
>
?
我能用网络爬虫API提取什么类型的数据?
网络爬虫API能够交付大多数网站的网页HTML代码。此外,有些网站使用JavaScript来加载动态内容,您还能使用JavaScript渲染功能从这些网站获取所需HTML。
?
我能用网络爬虫API实现重复抓取自动作业吗?
可以,我们所有的爬虫API都提供免费的Scheduler功能。您只需安排重复抓取作业的日程就能实现自动作业。简单来说,您无需再发送带有相同参数的新请求来接收相同公共数据的日常更新。同样地,您也无需创建或管理您的日程安排脚本。查看我们的文档,了解更多关于Scheduler功能的信息。可以,我们所有的爬虫API都提供免费的Scheduler功能。您只需安排重复抓取作业的日程就能实现自动作业。简单来说,您无需再发送带有相同参数的新请求来接收相同公共数据的日常更新。同样地,您也无需创建或管理您的日程安排脚本。查看我们的文档,了解更多关于Scheduler功能的信息。
?
网络爬虫API需要用时多久返回结果?
网络爬虫API能交付来自几乎世界各地任何网站的实时结果。交付时间很大程度上取决于请求目标。欲了解关于具体目标的更多信息,请联系您的客户经理或我们的支持团队。
?
对网站的信息进行抓取是否合法?
在不违反任何有关源目标或数据本身的法律的情况下,网络爬取服务可能属于合法。我们强烈建议您在执行任何抓取项目之前阅读相关资料并咨询您的法律顾问,以避免任何潜在风险。在不违反任何有关源目标或数据本身的法律的情况下,网络爬取服务可能属于合法。我们强烈建议您在执行任何抓取项目之前阅读相关资料并咨询您的法律顾问,以避免任何潜在风险。
<
关于我们
>
oxylabs
企业
Oxylabs是一家提供全球领先代理服务的公司,拥有超过1亿的住宅代理IP和200多万的数据中心代理,覆盖195个国家。公司专注于为各种规模的企业提供高质量的数据收集和网络抓取解决方案,包括动态住宅代理、数据中心代理、移动代理和ISP代理等。Oxylabs的产品和服务广泛应用于广告验证、价格监控、市场调研、品牌保护等领域,帮助企业高效、安全地获取和分析网络数据。通过其先进的代理基础架构和专业的技术支持,Oxylabs助力企业在全球范围内实现数据的自由流动和商业智能的深入洞察。
联系信息
服务时间: 00:00:00至24:00:00
邮箱: support@oxylabs.io

各种企业代理服务器的一站式解决方案

Oxysales, UAB公司于2015年在立陶宛成立。该公司能够在兼顾商业道德的基础上提供市场领先的解决方案。

Oxylabs网站隶属于Oxysales, UAB公司。

<
最可能同场景使用的其他API
>