
使用NestJS和Prisma构建REST API:身份验证
今天为大家介绍一个轻量级的 Python 库——toapi,旨在通过简单的配置将网页数据快速转换为 RESTful API。它适用于需要从现有网页提取数据并以 API 格式提供服务的场景。这种工具在构建轻量级爬虫或快速搭建数据接口时非常有用。
了解-toapi之前,我们先来了解下什么是python 词语图;
Python 词语图,通常指的是词云图(Word Cloud),是一种数据可视化技术,用于展示文本数据中词汇的频次和重要性。以下是四个使用Python 词语图的场景:
了解了什么是Python 词语图之后,我们再来看下toapi的主要特点、基本用法以及实用案例
toapi 可以通过 pip 安装:
pip install toapi
在 toapi 中,每个网页资源都通过 Item 类定义,您只需声明需要抓取的字段和其对应的 CSS 选择器或 XPath。
from toapi import Item, TextField, AttrField
class News(Item): title = TextField(css_select="h1.title") link = AttrField(css_select="a.link", attr="href")
class Meta: source = "https://news.example.com" route = "/news/:id"
2.注册数据模型一旦数据模型定义完成,需要将其注册到 API 服务中,才能启动并暴露接口。
from toapi import Api
api = Api()api.register(News)
调用 run 方法来启动服务,toapi 会自动启动一个 HTTP 服务器并监听请求。
if __name__ == "__main__": api.run()
toapi 支持动态路由,您可以在 URL 中使用变量部分。通过 :param 声明动态路由,例如从 URL 中提取参数。
class Product(Item): name = TextField(css_select="h1.product-name") price = TextField(css_select="span.price") class Meta: source = "https://example.com/product/:product_id" route = "/product/:product_id"
这样,通过访问 http://localhost:5000/product/123,API 会提取 URL 中的 product_id 并从网页中抓取相应的数据。
toapi 支持自定义中间件来处理请求和响应。中间件可以用于日志记录、请求修改、数据过滤等任务。
from toapi.middleware import Middleware
class CustomMiddleware(Middleware): def process_request(self, request): print(f"Request URL: {request.url}")
def process_response(self, request, response): print(f"Response: {response}") api.add_middleware(CustomMiddleware)
这样,每次请求和响应都会经过 CustomMiddleware 中定义的逻辑。
toapi 内置了缓存机制,可以减少频繁的数据抓取请求,提高效率。可以使用内存缓存或自定义缓存后端。
from toapi.cache import MemoryCache
api.cache = MemoryCache()
通过启用缓存,toapi 会在首次抓取数据时缓存结果,之后相同的请求将直接返回缓存数据。
通过 toapi,我们可以将 GitHub 趋势页面转换为一个 API 接口,动态抓取流行的项目和相关信息。
from toapi import Item, TextField, AttrField
class GitHubTrend(Item): name = TextField(css_select="h1.h3.lh-condensed") stars = TextField(css_select="span.d-inline-block.float-sm-right") link = AttrField(css_select="h1.h3.lh-condensed > a", attr="href")
class Meta: source = "https://github.com/trending" route = "/trending"
api = Api()api.register(GitHubTrend)
if __name__ == "__main__": api.run()
访问 http://localhost:5000/trending 即可返回 GitHub 热门项目的数据。
在新闻网站上,您可以使用 toapi 提取新闻标题、内容等信息,并提供 RESTful API 供其他应用使用。
class News(Item): title = TextField(css_select="h1.article-title") content = TextField(css_select="div.article-body") link = AttrField(css_select="a.read-more", attr="href")
class Meta: source = "https://news.example.com" route = "/news/:id"
此 API 接口将提供关于新闻的详细信息,帮助构建新闻聚合平台。
toapi 是一个非常简洁、易用的工具,适用于快速爬取网页并将数据转换为 API 的场景。它以简单的声明式规则和 RESTful 接口为核心,适合初学者和需要快速开发的项目。如果需要更复杂的功能,可以结合 Selenium 或其他动态网页处理工具使用。各位小伙伴,今天的 Python 学习之旅就到这里啦!
文章转自微信公众号@王老五说职场