Web 爬虫和数据提取平台
######################


浏览器/Web browsing
===================


pyppeteer
---------

* https://github.com/pyppeteer/pyppeteer
* 一个用于 Python 的无头浏览器控制库，它是对流行的 JavaScript 库 puppeteer 的 Python 移植。
* 允许开发者通过编程方式控制无头浏览器（例如 Chromium 或 Chrome），执行网页自动化任务，比如爬取数据、生成截图、测试网页应用等。


playwright
----------

- 是一个用于自动化网络浏览器的 Python 库，类似于 puppeteer，但它提供了更强大的功能和更好的多浏览器支持，包括 Chromium、Firefox 和 WebKit。
- playwright 非常适合用于网页测试、爬虫和自动化任务。
- https://playwright.dev/python/docs/api/class-browsertype


selenium
--------

* https://www.selenium.dev/documentation/webdriver/browsers

Web 爬虫
========


apify
-----

* https://apify.com/
* 成立于 2015 年。Apify 致力于帮助个人和企业轻松地从网站中提取数据并自动化任务。
* 核心功能包括：Web 爬虫、数据提取、任务自动化
* 如果您需要丰富的数据提取和自动化功能，Apify 是更好的选择。

Crawlbase
---------

* https://zh-cn.crawlbase.com/
* 一个专注于中文互联网资源的爬虫平台，提供数据抓取、处理和存储服务。
* 核心功能包括：Web 爬虫、数据提取、任务自动化
* 如果您需要强大的 Web 爬虫功能，Crawlbase 是更好的选择。


存档工具
========


ArchiveBox
----------

* https://archivebox.io/
* https://github.com/ArchiveBox/ArchiveBox
* 开源的 自托管互联网存档工具，可用于保存网页、社交媒体帖子、文件和其他网络内容。
* 主要功能包括：保存网页、保存社交媒体帖子、保存文件、离线访问


格式化
======


bs4
---

* beautifulsoup4
* used for web scraping purposes to parse HTML and XML documents.