Crawl4AI 是排名第一的热门 GitHub 存储库,由活跃的社区积极维护。它提供速度极快、支持 AI 的网页爬取功能,专为 LLM、AI 代理和数据管道量身定制。Crawl4AI 开源、灵活且专为实时性能而打造,为开发人员提供无与伦比的速度、精度和部署便利性。
为什么选择 Crawl4AI?
- 专为 LLM 打造:创建针对 RAG 和微调应用程序优化的智能、简洁的 Markdown。
- 闪电般快速:以实时、经济高效的性能以 6 倍的速度提供结果。
- 灵活的浏览器控制:提供会话管理、代理和自定义挂钩,实现无缝数据访问。
- 启发式智能:使用先进的算法进行高效提取,减少对昂贵模型的依赖。
- 开源且可部署:完全开源,无需 API 密钥 – 可用于 Docker 和云集成。
- 蓬勃发展的社区:由充满活力的社区和排名第一的 GitHub 存储库积极维护。
快速入门
- 安装Crawl4AI:
pip install crawl4ai crawl4ai-setup # Setup the browser
- 运行一个简单的网络爬虫:
import asyncio from crawl4ai import AsyncWebCrawler, CacheMode async def main(): async with AsyncWebCrawler(verbose=True) as crawler: result = await crawler.arun(url="https://www.nbcnews.com/business") # Soone will be change to result.markdown print(result.markdown_v2.raw_markdown) if __name__ == "__main__": asyncio.run(main())
优势特征:
- 100%开源免费。
- 闪电般的性能:在快速可靠的抓取方面优于许多付费服务。
- 基于AI LLM构建:以JSON、HTML或markdown格式输出数据。
- 多浏览器支持:可与Chromium、Firefox和WebKit无缝配合。
- 可同时抓取多个URL:一次处理多个网站,以实现高效的数据提取。
- 全媒体支持:轻松提取图像、音频、视频以及所有HTML媒体标签。
- 提取链接:获取所有内部和外部链接以获得更深入的数据挖掘。
- XML元数据检索:捕获页面标题、描述和其他元数据。
- 可定制:添加用于身份验证、标题或自定义页面修改的功能。
- 支持匿名:自定义用户代理设置。
- 支持截图:具备强大的错误处理功能,拍摄页面快照。
- 自定义JavaScript:在抓取定制结果之前执行脚本。
- 结构化数据输出:根据规则生成良好的JSON数据。
- 智能提取:使用LLM、集群、正则表达式或CSS选择器进行准确的数据抓取。
- 代理验证:通过安全代理支持访问受保护的内容。
- 会话管理:轻松处理多页导航。
- 图像优化:支持延迟加载和响应式图像。
- 动态内容处理:管理交互式页面的延迟加载。
- 对LLM友好的头文件:为特定于LLM的交互传递自定义头文件。
- 精确提取:使用关键字或指令优化结果。
- ️灵活的设置:调整超时和延迟,以实现更流畅的抓取。
- iframe支持:提取iframe中的内容,以获得更深入的数据提取。
项目地址:https://github.com/unclecode/crawl4ai
原创文章,作者:北单,如若转载,请注明出处:https://www.beidanyezhu.com/a/279.html