Web 爬虫和数据提取平台 ###################### 浏览器/Web browsing =================== pyppeteer --------- * https://github.com/pyppeteer/pyppeteer * 一个用于 Python 的无头浏览器控制库,它是对流行的 JavaScript 库 puppeteer 的 Python 移植。 * 允许开发者通过编程方式控制无头浏览器(例如 Chromium 或 Chrome),执行网页自动化任务,比如爬取数据、生成截图、测试网页应用等。 playwright ---------- - 是一个用于自动化网络浏览器的 Python 库,类似于 puppeteer,但它提供了更强大的功能和更好的多浏览器支持,包括 Chromium、Firefox 和 WebKit。 - playwright 非常适合用于网页测试、爬虫和自动化任务。 - https://playwright.dev/python/docs/api/class-browsertype selenium -------- * https://www.selenium.dev/documentation/webdriver/browsers Web 爬虫 ======== apify ----- * https://apify.com/ * 成立于 2015 年。Apify 致力于帮助个人和企业轻松地从网站中提取数据并自动化任务。 * 核心功能包括:Web 爬虫、数据提取、任务自动化 * 如果您需要丰富的数据提取和自动化功能,Apify 是更好的选择。 Crawlbase --------- * https://zh-cn.crawlbase.com/ * 一个专注于中文互联网资源的爬虫平台,提供数据抓取、处理和存储服务。 * 核心功能包括:Web 爬虫、数据提取、任务自动化 * 如果您需要强大的 Web 爬虫功能,Crawlbase 是更好的选择。 存档工具 ======== ArchiveBox ---------- * https://archivebox.io/ * https://github.com/ArchiveBox/ArchiveBox * 开源的 自托管互联网存档工具,可用于保存网页、社交媒体帖子、文件和其他网络内容。 * 主要功能包括:保存网页、保存社交媒体帖子、保存文件、离线访问 格式化 ====== bs4 --- * beautifulsoup4 * used for web scraping purposes to parse HTML and XML documents.