Crawl4AI:适用于 AI自由地爬虫。

Crawl4AI 是排名第一的热门 GitHub 存储库,由活跃的社区积极维护。它提供速度极快、支持 AI 的网页爬取功能,专为 LLM、AI 代理和数据管道量身定制。Crawl4AI 开源、灵活且专为实时性能而打造,为开发人员提供无与伦比的速度、精度和部署便利性。

Crawl4AI:适用于 AI自由地爬虫。

为什么选择 Crawl4AI?

  1. 专为 LLM 打造:创建针对 RAG 和微调应用程序优化的智能、简洁的 Markdown。
  2. 闪电般快速:以实时、经济高效的性能以 6 倍的速度提供结果。
  3. 灵活的浏览器控制:提供会话管理、代理和自定义挂钩,实现无缝数据访问。
  4. 启发式智能:使用先进的算法进行高效提取,减少对昂贵模型的依赖。
  5. 开源且可部署:完全开源,无需 API 密钥 – 可用于 Docker 和云集成。
  6. 蓬勃发展的社区:由充满活力的社区和排名第一的 GitHub 存储库积极维护。

快速入门

  1. 安装Crawl4AI:
pip install crawl4ai
crawl4ai-setup # Setup the browser
  1. 运行一个简单的网络爬虫:
import asyncio
from crawl4ai import AsyncWebCrawler, CacheMode

async def main():
    async with AsyncWebCrawler(verbose=True) as crawler:
        result = await crawler.arun(url="https://www.nbcnews.com/business")
        # Soone will be change to result.markdown
        print(result.markdown_v2.raw_markdown) 

if __name__ == "__main__":
    asyncio.run(main())

优势特征:

  • 100%开源免费。
  • 闪电般的性能:在快速可靠的抓取方面优于许多付费服务。
  • 基于AI LLM构建:以JSON、HTML或markdown格式输出数据。
  • 多浏览器支持:可与Chromium、Firefox和WebKit无缝配合。
  • 可同时抓取多个URL:一次处理多个网站,以实现高效的数据提取。
  • 全媒体支持:轻松提取图像、音频、视频以及所有HTML媒体标签。
  • 提取链接:获取所有内部和外部链接以获得更深入的数据挖掘。
  • XML元数据检索:捕获页面标题、描述和其他元数据。
  • 可定制:添加用于身份验证、标题或自定义页面修改的功能。
  • 支持匿名:自定义用户代理设置。
  • 支持截图:具备强大的错误处理功能,拍摄页面快照。
  • 自定义JavaScript:在抓取定制结果之前执行脚本。
  • 结构化数据输出:根据规则生成良好的JSON数据。
  • 智能提取:使用LLM、集群、正则表达式或CSS选择器进行准确的数据抓取。
  • 代理验证:通过安全代理支持访问受保护的内容。
  • 会话管理:轻松处理多页导航。
  • 图像优化:支持延迟加载和响应式图像。
  • 动态内容处理:管理交互式页面的延迟加载。
  • 对LLM友好的头文件:为特定于LLM的交互传递自定义头文件。
  • 精确提取:使用关键字或指令优化结果。
  • ️灵活的设置:调整超时和延迟,以实现更流畅的抓取。
  • iframe支持:提取iframe中的内容,以获得更深入的数据提取。

项目地址:https://github.com/unclecode/crawl4ai

原创文章,作者:北单,如若转载,请注明出处:https://www.beidanyezhu.com/a/279.html

(0)
北单的头像北单
上一篇 2024-12-02 10:52:57
下一篇 2024-12-05 10:39:19

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

分享本页
返回顶部