Web 爬虫和数据提取平台¶

浏览器/Web browsing¶

pyppeteer¶

https://github.com/pyppeteer/pyppeteer
一个用于 Python 的无头浏览器控制库，它是对流行的 JavaScript 库 puppeteer 的 Python 移植。
允许开发者通过编程方式控制无头浏览器（例如 Chromium 或 Chrome），执行网页自动化任务，比如爬取数据、生成截图、测试网页应用等。

playwright¶

是一个用于自动化网络浏览器的 Python 库，类似于 puppeteer，但它提供了更强大的功能和更好的多浏览器支持，包括 Chromium、Firefox 和 WebKit。
playwright 非常适合用于网页测试、爬虫和自动化任务。
https://playwright.dev/python/docs/api/class-browsertype

selenium¶

https://www.selenium.dev/documentation/webdriver/browsers

Web 爬虫¶

apify¶

https://apify.com/
成立于 2015 年。Apify 致力于帮助个人和企业轻松地从网站中提取数据并自动化任务。
核心功能包括：Web 爬虫、数据提取、任务自动化
如果您需要丰富的数据提取和自动化功能，Apify 是更好的选择。

Crawlbase¶

https://zh-cn.crawlbase.com/
一个专注于中文互联网资源的爬虫平台，提供数据抓取、处理和存储服务。
核心功能包括：Web 爬虫、数据提取、任务自动化
如果您需要强大的 Web 爬虫功能，Crawlbase 是更好的选择。

存档工具¶

ArchiveBox¶

https://archivebox.io/
https://github.com/ArchiveBox/ArchiveBox
开源的自托管互联网存档工具，可用于保存网页、社交媒体帖子、文件和其他网络内容。
主要功能包括：保存网页、保存社交媒体帖子、保存文件、离线访问

格式化¶

bs4¶

beautifulsoup4
used for web scraping purposes to parse HTML and XML documents.