网络爬虫API-oxylabs
专用API
服务商:
oxylabs
【更新时间: 2024.07.04】
网络爬虫 API 接口-oxylabs,专注于为用户提供高效便捷的服务。它能够针对大多数网站,实现对其提供的公共数据进行精准抓取和交付,助力用户轻松获取所需数据信息,极大地提升了数据获取的效率和质量。
初始:49$/月
去服务商官网采购>
|
服务星级:2星
调用次数
0
次
集成人数
0
人
商用人数
0
人
SLA: N/A
响应: N/A
适用于个人&企业
收藏
×
完成
取消
×
书签名称
确定
|
- API详情
- 定价
- 使用指南
- 常见 FAQ
- 关于我们
- 相关推荐
什么是oxylabs的网络爬虫API?
“网络爬虫API接口-oxylabs” 是一种自动化工具,用于从各种网站提取数据。它提供了一个强大的接口,使用户能够通过简单的API请求来抓取网页内容,而无需处理复杂的抓取机制和反抓取技术。该接口的设计旨在简化数据获取过程,提高数据提取的效率和准确性。
什么是oxylabs的网络爬虫API?
oxylabs的网络爬虫API有哪些核心功能?
从任何URL收集高质量数据凭借Oxylabs网络爬虫API,甚至可以从最复杂的网站中轻松提取数据。我们的内置专利代理轮换工具、JavaScript渲染、和其他智能解决方案能确保快速可靠的数据提取过程。 |
|
轻松规避地理限制无论您身在何处,都能访问几乎世界各地的本地数据。网络爬虫API让您能收集195个国家的本地化搜索结果。 |
获取无需管理的抓取基础架构利用我们随时可用的顶级网络数据收集基础架构。无需担心JavaScript密集型网站、IP封锁或其他挑战——我们都替您解决了。 |
|
无头浏览器只需一行代码就能渲染基于JavaScript的页面,无需复杂的浏览器开发或自动化的第三方工具。内置代理能帮助您访问来自世界各地的数据,并帮助解决反爬虫解决方案。由于能够将加载的页面保存为HTML或PNG,您可以很轻松地访问所需的数据。 |
oxylabs的网络爬虫API的核心优势是什么?
深度教程 |
无需代理管理 |
批量抓取 |
多种交付方式 |
高度可扩展性 |
24/7实时支持 |
在哪些场景会用到oxylabs的网络爬虫API?
市场调研 扫描来自世界各地的无数网页来洞悉市场趋势,领先对手。 |
|
欺诈防护 设置自动网页抓取,扫描来自任何网站和多个位置的恶意内容。 |
|
旅费监控 轻松从大量使用JavaScript的高级网站获取可靠的旅行定价数据。 |
|
常规
企业
网络爬虫API如何操作?
购买想要的套餐后,您就可以立即开始使用网络爬虫API。设置很简单,只需以下几个步骤:
-
登录仪表板。
-
创建API用户。
-
运行测试查询,然后继续设置。
网络爬虫 API 是一个易于使用的工具,无需任何特殊的基础设施或资源。
-
选择目标链接、地理位置和 JS 渲染参数
-
添加自定义标题和 cookies,或者让我们自己管理
-
提交 GET 或 POST 请求
-
通过 REST API 直接接收数据或转到云
身份验证
网络爬虫 API采用需要用户名和密码的基本 HrrP 身份认证。这是开始掌握该工具的最简单的方法。以下代码示例展示如何使用实时交付方法向https://ip.oxylabs.io 发送 GEr 请;,我们将在本文后面的内容中讨论这种方法。如果您观察到成功率很低,或者检索内容为空,请尝试在请求中使用额外参数"render":"html"。请点击这里了解关于渲染参数的更多信息。
curl --user "USERNAME:PASSWORD"'https://realtime.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source": "universal", "url": "https://ip.oxylabs.io"}'
集成方法
您可以使用以下三种方法其中一种集成网络爬虫API:Push-Pull、Realtime和SuperAPI。现在我们了解每种方法的详细工作原理。
Push-Pull
Push-Pull 的优势在于其简单性,同时也是最可靠的数据交付方法。使用这种方法,您向我们提供您的工作参数,我们会为您的工作分配一个 id,可以用来在稍后从/results端点获取内容。您可以自己检查工作是否完成,或者设置一个接受 POST 请求的监听器,在这种情况下,一旦准备回收工作,我们会向您发送一个回调消息。
此外,Push-Pull方法还提供了以下功能:
-
单一查询。我们的端点将处理一个关键字或 URL 的单一请求。工作 id 连同其他信息,将通过 API 确认消息发送给您。这个 id 将帮助您手动检查您的工作状态。
-
检查工作状态。如果您在查询中包含 callback_url ,我们会在抓取任务完成后向您提供一个数据链接。如果您的查询没有 callback_url,您需要使用响应消息 rel:self 下 href 中的 URL,手动验证工作状态。
-
检索工作内容。一旦工作内容准备就绪,您便可使用 rel:results下 href 中的 URL 获取数据。
-
批量查询。网络爬虫 API 可以执行多个关键字,每批最多可执行 1000 个关键字。为此,您必须发布查询参数作为 JSON 主体的数据。系统会将每个关键字作为一个单独的请求进行处理,并为每个请求返回唯一的工作 id。
-
获取通知者 IP 地址列表。为了将向您发送回调消息的 IP 列入白名单,您应该 GET这个端点。
-
上传至存储器。抓取的内容默认存储在我们的数据库中。然而,我们配备一个自定义的存储功能,让您将结果存储在您的云存储中,这样您就无需进行任何额外的请求来获取结果 – 任何内容都会直接转入您的存储。
-
回调。当数据收集任务完成后,我们会向您的计算机发送一个回调请求,并向您提供一个 URL,以获得抓取的数据。
在本快速入门指南中,我们提供了一个示例,介绍如何使用推拉集成方法和 cURL库与网络爬虫 API 进行交互以提出请求。我们将从测试网站 https://ip.oxylabs.io 获取内容,该网站会返回提出请求的 IP 地址。我们将使用美国地理定位。
单个查询请求的示例:
curl --user "USERNAME:PASSWORD"'https://data.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source": "universal", "url": "https://ip.oxylabs.io", "geo_location": "United States"}'
详情参考:https://oxylabs.cn/blog/web-scraper-api-quick-start-guide
各种企业代理服务器的一站式解决方案
Oxysales, UAB公司于2015年在立陶宛成立。该公司能够在兼顾商业道德的基础上提供市场领先的解决方案。
Oxylabs网站隶属于Oxysales, UAB公司。
常规
企业
网络爬虫API如何操作?
购买想要的套餐后,您就可以立即开始使用网络爬虫API。设置很简单,只需以下几个步骤:
-
登录仪表板。
-
创建API用户。
-
运行测试查询,然后继续设置。
网络爬虫 API 是一个易于使用的工具,无需任何特殊的基础设施或资源。
-
选择目标链接、地理位置和 JS 渲染参数
-
添加自定义标题和 cookies,或者让我们自己管理
-
提交 GET 或 POST 请求
-
通过 REST API 直接接收数据或转到云
身份验证
网络爬虫 API采用需要用户名和密码的基本 HrrP 身份认证。这是开始掌握该工具的最简单的方法。以下代码示例展示如何使用实时交付方法向https://ip.oxylabs.io 发送 GEr 请;,我们将在本文后面的内容中讨论这种方法。如果您观察到成功率很低,或者检索内容为空,请尝试在请求中使用额外参数"render":"html"。请点击这里了解关于渲染参数的更多信息。
curl --user "USERNAME:PASSWORD"'https://realtime.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source": "universal", "url": "https://ip.oxylabs.io"}'
集成方法
您可以使用以下三种方法其中一种集成网络爬虫API:Push-Pull、Realtime和SuperAPI。现在我们了解每种方法的详细工作原理。
Push-Pull
Push-Pull 的优势在于其简单性,同时也是最可靠的数据交付方法。使用这种方法,您向我们提供您的工作参数,我们会为您的工作分配一个 id,可以用来在稍后从/results端点获取内容。您可以自己检查工作是否完成,或者设置一个接受 POST 请求的监听器,在这种情况下,一旦准备回收工作,我们会向您发送一个回调消息。
此外,Push-Pull方法还提供了以下功能:
-
单一查询。我们的端点将处理一个关键字或 URL 的单一请求。工作 id 连同其他信息,将通过 API 确认消息发送给您。这个 id 将帮助您手动检查您的工作状态。
-
检查工作状态。如果您在查询中包含 callback_url ,我们会在抓取任务完成后向您提供一个数据链接。如果您的查询没有 callback_url,您需要使用响应消息 rel:self 下 href 中的 URL,手动验证工作状态。
-
检索工作内容。一旦工作内容准备就绪,您便可使用 rel:results下 href 中的 URL 获取数据。
-
批量查询。网络爬虫 API 可以执行多个关键字,每批最多可执行 1000 个关键字。为此,您必须发布查询参数作为 JSON 主体的数据。系统会将每个关键字作为一个单独的请求进行处理,并为每个请求返回唯一的工作 id。
-
获取通知者 IP 地址列表。为了将向您发送回调消息的 IP 列入白名单,您应该 GET这个端点。
-
上传至存储器。抓取的内容默认存储在我们的数据库中。然而,我们配备一个自定义的存储功能,让您将结果存储在您的云存储中,这样您就无需进行任何额外的请求来获取结果 – 任何内容都会直接转入您的存储。
-
回调。当数据收集任务完成后,我们会向您的计算机发送一个回调请求,并向您提供一个 URL,以获得抓取的数据。
在本快速入门指南中,我们提供了一个示例,介绍如何使用推拉集成方法和 cURL库与网络爬虫 API 进行交互以提出请求。我们将从测试网站 https://ip.oxylabs.io 获取内容,该网站会返回提出请求的 IP 地址。我们将使用美国地理定位。
单个查询请求的示例:
curl --user "USERNAME:PASSWORD"'https://data.oxylabs.io/v1/queries' -H "Content-Type: application/json" -d '{"source": "universal", "url": "https://ip.oxylabs.io", "geo_location": "United States"}'
详情参考:https://oxylabs.cn/blog/web-scraper-api-quick-start-guide
各种企业代理服务器的一站式解决方案
Oxysales, UAB公司于2015年在立陶宛成立。该公司能够在兼顾商业道德的基础上提供市场领先的解决方案。
Oxylabs网站隶属于Oxysales, UAB公司。