Web 爬虫和数据提取平台¶
浏览器/Web browsing¶
pyppeteer¶
一个用于 Python 的无头浏览器控制库,它是对流行的 JavaScript 库 puppeteer 的 Python 移植。
允许开发者通过编程方式控制无头浏览器(例如 Chromium 或 Chrome),执行网页自动化任务,比如爬取数据、生成截图、测试网页应用等。
playwright¶
是一个用于自动化网络浏览器的 Python 库,类似于 puppeteer,但它提供了更强大的功能和更好的多浏览器支持,包括 Chromium、Firefox 和 WebKit。
playwright 非常适合用于网页测试、爬虫和自动化任务。
selenium¶
Web 爬虫¶
apify¶
成立于 2015 年。Apify 致力于帮助个人和企业轻松地从网站中提取数据并自动化任务。
核心功能包括:Web 爬虫、数据提取、任务自动化
如果您需要丰富的数据提取和自动化功能,Apify 是更好的选择。
Crawlbase¶
一个专注于中文互联网资源的爬虫平台,提供数据抓取、处理和存储服务。
核心功能包括:Web 爬虫、数据提取、任务自动化
如果您需要强大的 Web 爬虫功能,Crawlbase 是更好的选择。
存档工具¶
ArchiveBox¶
开源的 自托管互联网存档工具,可用于保存网页、社交媒体帖子、文件和其他网络内容。
主要功能包括:保存网页、保存社交媒体帖子、保存文件、离线访问
格式化¶
bs4¶
beautifulsoup4
used for web scraping purposes to parse HTML and XML documents.
Web searching API¶
serper.dev¶
https://serper.dev/: Serper.dev 是一个免费的 Google 搜索 API,它提供快速的搜索结果和准确的排名。它还允许用户搜索图像和视频
google1(The World’s Fastest and Cheapest Google Search API): https://www.serper.dev
serpapi¶
Google¶
Visit https://console.cloud.google.com/apis/credentials to get key.
DuckDuckGo¶
DuckDuckGo是专注隐私、反追踪以及避免信息过滤的搜索引擎,使用多方来源优化搜索结果,并加强内容的关联度。
Bing Web Search API¶
Other¶
google0: https://www.searchapi.io/
Brave Search API(注重隐私保护、提供公正搜索结果的搜索引擎): https://brave.com/search/api/