所有文章 > 当前标签:爬虫

Playwright爬虫实战 - 破解验证码的常见策略
2025/03/13
本教程详细介绍了破解验证码的常见策略,以帮助绕过常见验证码类型。这些策略包括手动输入、使用第三方识别服务、模拟自动化登录过程、以及复用登录状态等。具体验证码类型包括图片验证码、滑动验证码、点击验证码、行为验证码和复杂验证等。破解策略涵盖了手动输入适合低频验证码、自动化服务识别复杂验证码、模拟用户行为操作、以及通过复用登录信息减少验证码出现频率。Playwright工具被用来实现多种自动化操作。

爬取全球新闻网站的实战指南:从入门到精通
【日积月累】
近来新闻数据成为了解全球动态、进行市场分析、舆情监控的重要资源。然而,手动从各个新闻网站收集数据不仅耗时耗力,而且难以保证数据的实时性和全面性。因此,自动化爬取全球新闻网站的技术显得尤为重要。本文将围绕“爬取全球新闻网站”这一主题,结合实操性强的代码示例,带你从入门到精通。
2025/01/22

不安全的API和爬虫攻击导致企业每年损失高达1860亿美元
【API安全】
API 不安全和爬虫程序的自动滥用导致全球高达 11.8% 的网络事件和损失,与 Bot 相关的安全事件数量在 2022 年和 2023 年分别增长了 88% 和 28%,与 2021 年相比,不安全的 API 造成的损失高达 120 亿美元。
2024/11/16

如何在Python、PHP、Ruby程序中使用搜索引擎结果采集API接口
【如何集成API】
本文主要以bright.cn功能的搜索引擎采集API接口做为案例,讲解如何对接API接口,具体如何在应用中深度使用,属于产品范畴,不在本文章的内容中。
2024/07/31