主页

索引

模块索引

搜索页面

Web 爬虫和数据提取平台

浏览器/Web browsing

pyppeteer

  • https://github.com/pyppeteer/pyppeteer

  • 一个用于 Python 的无头浏览器控制库,它是对流行的 JavaScript 库 puppeteer 的 Python 移植。

  • 允许开发者通过编程方式控制无头浏览器(例如 Chromium 或 Chrome),执行网页自动化任务,比如爬取数据、生成截图、测试网页应用等。

playwright

  • 是一个用于自动化网络浏览器的 Python 库,类似于 puppeteer,但它提供了更强大的功能和更好的多浏览器支持,包括 Chromium、Firefox 和 WebKit。

  • playwright 非常适合用于网页测试、爬虫和自动化任务。

  • https://playwright.dev/python/docs/api/class-browsertype

selenium

Web 爬虫

apify

  • https://apify.com/

  • 成立于 2015 年。Apify 致力于帮助个人和企业轻松地从网站中提取数据并自动化任务。

  • 核心功能包括:Web 爬虫、数据提取、任务自动化

  • 如果您需要丰富的数据提取和自动化功能,Apify 是更好的选择。

Crawlbase

  • https://zh-cn.crawlbase.com/

  • 一个专注于中文互联网资源的爬虫平台,提供数据抓取、处理和存储服务。

  • 核心功能包括:Web 爬虫、数据提取、任务自动化

  • 如果您需要强大的 Web 爬虫功能,Crawlbase 是更好的选择。

存档工具

ArchiveBox

格式化

bs4

  • beautifulsoup4

  • used for web scraping purposes to parse HTML and XML documents.

Web searching API

serper.dev

  • https://serper.dev/: Serper.dev 是一个免费的 Google 搜索 API,它提供快速的搜索结果和准确的排名。它还允许用户搜索图像和视频

  • google1(The World’s Fastest and Cheapest Google Search API): https://www.serper.dev

serpapi

Google

DuckDuckGo

  • DuckDuckGo是专注隐私、反追踪以及避免信息过滤的搜索引擎,使用多方来源优化搜索结果,并加强内容的关联度。

Bing Web Search API

Other

主页

索引

模块索引

搜索页面