分享好友 最新动态首页 最新动态分类 切换频道
Crawl4AI - LLM 友好的异步爬虫工具
2024-12-26 14:49

Crawl4AI - LLM 友好的异步爬虫工具


Crawl4AI 是一款开源 LLM 有好的网络爬虫,Crawl4AI 简化了异步Web抓取和数据提取,使其可用于大型语言模型(LLM)和AI应用程序。🆓🌐

同步版:查看README.sync.md。您还可以在分支V0.2.76中访问以前的版本。


  • github : https://github.com/unclecode/crawl4ai
  • 试用 Colab :https://colab.research.google.com/drive/1REChY6fXQf-EaVYLv0eHEWvzlYxGm0pd
  • 官方文档:https://crawl4ai.com/mkdocs/
  • 贡献指南 | 许可 | 推特@unclecode

特点✨

  • 🆓完全免费和开源
  • 🚀超快的性能,优于许多付费服务
  • 🤖LLM友好的输出格式(JSON,清理 HTML ,降价
  • 🌍支持同时抓取多个URL
  • 🎨提取并返回所有媒体标签(图像、音频和视频
  • 🔗提取所有外部和内部链接
  • 📚从页面中提取元数据
  • 🔄抓取前用于身份验证、标题和页面修改的自定义挂钩
  • 🕵️用户代理定制
  • 🖼️页面截图
  • 📜抓取前执行多个自定义JavaScript
  • 📊生成结构化输出没有LLM使用JsonCssExtractionStrategy
  • 📚各种组块策略:基于主题、正则表达式、句子等
  • 🧠高级提取策略:余弦聚类、LLM等
  • 🎯CSS选择器支持精确的数据提取
  • 📝传递指令/关键字来细化提取
  • 🔒代理支持增强隐私和访问
  • 🔄复杂多页面抓取场景的会话管理
  • 🌐异步架构,以提高性能和可扩展性

Crawl4AI提供灵活的安装选项以适应各种用例。您可以将其安装为Python包或使用Docker。


1、使用pip🐍

选择最适合您需求的安装选项


1.1 基本安装

对于基本的网络抓取和抓取任务

 

默认情况下,这将安装Crawl4AI的异步版本,使用Playwright进行网络抓取。

👉注意:安装Crawl4AI时,安装脚本应自动安装并设置Playwright。但是,如果您遇到任何与Playwright相关的错误,您可以使用以下方法之一手动安装它

1、通过命令行

 

2、如果上述方法不起作用,请尝试以下更具体的命令

 

第二种方法在某些情况下被证明更可靠。


1.2 使用同步版本安装

如果您需要使用Selenium的同步版本

 

1.3 开发安装

对于计划修改源代码的贡献者

 

2、使用Docker🐳

我们正在创建Docker映像并将它们推送到Docker Hub。这将提供一种在容器化环境中运行Crawl4AI的简单方法。敬请关注更新

有关更详细的安装说明和选项,请参阅我们的安装指南。


 


1、执行JavaScript和使用CSS选择器

 

2、使用代理

 

3、在没有LLM的情况下提取结构化数据

该允许使用CSS选择器从网页中精确提取结构化数据。

 

有关更高级的使用示例,请查看文档中的示例部分。


4、使用OpenAI提取结构化数据

 

5、会话管理和动态内容爬行

Crawl4AI擅长处理复杂的场景,例如使用通过JavaScript加载的动态内容抓取多个页面。这是跨多个页面抓取GitHub提交的示例

 

此示例演示了Crawl4AI处理异步加载内容的复杂场景的能力。它抓取多个GitHub提交页面,执行JavaScript加载新内容,并使用自定义挂钩确保在继续之前加载数据。

有关更高级的使用示例,请查看文档中的示例部分。


Crawl4AI的设计以速度为主要关注点。我们的目标是通过高质量的数据提取提供尽可能快的响应,最大限度地减少数据和用户之间的抽象。

我们对Crawl4AI和付费服务Firecrawl进行了速度比较。结果证明了Crawl4AI的卓越性能

 

如您所见,Crawl4AI的性能明显优于Firecrawl

  • 简单爬行:Crawl4AI比Firecrawl快4倍以上。
  • 使用JavaScript执行:即使执行JavaScript以加载更多内容(将找到的图像数量增加一倍,Crawl4AI仍然比Firecrawl的简单抓取更快。

您可以在我们的存储库中找到完整的比较代码。


最新文章
广西排名多少可以上同济大学?附广西最低录取分数线及位次
2022年广西高考排名全区多少位可以上同济大学?广西多少分能读同济大学?如果你也有这个疑问,那么本文展示的同济大学近三年在广西壮族自治区的最低录取分数线及位次这份数据,将会给你答案。一、同济大学广西录取分数线、位次排名(近三年
网站开发全攻略:从基础到性能优化
在构建网页之前,掌握HTML(HyperText Markup Language)的基础结构是至关重要的。HTML是一种用于创建网页的标准标记语言,它定义了网页内容的含义和结构。本章节将介绍HTML的骨架,包括基本的结构标签ÿ
谷歌浏览器2022最新版下载安装介绍
谷歌浏览器2022最新版下载安装是手机上十分好用的一款浏览器软件!软件不会占用太多的手机储存空间,能够让大家都能更好的体验更加舒适的上网过程。你可以在这里自由搜索各种各样的内容,在这里可以上知天文,下知地理,无所不能!谷歌浏览
超逼真美女写真不再是梦:这些AI工具助你一键生成!
限时免费,点击体验最近超火的AI生图神器,坐拥3000美女的大男主就是你! https://ai.sohu.com/pc/generate/textToImg?_trans_=030001_yljdaimn 在这个科技飞速发展的时代,人工智能(AI)已经悄然渗透到我们生活的各个角落。你是否曾幻想
上传对象失败的原因和解决方法
用户可以上传对象至已有的存储桶中。上传方式区分普通上传、分片上传与追加写。上传方式说明普通上传当上传文件小于5GB时使用,支持putObject和postObject,两种上传方式的区别请参见PUT上传和POST上传有什么区别。分片上传当上传文件大于5
一文看懂MySQL索引下推(ICP)
索引下推(Index Condition Pushdown,简称ICP),是MySQL5.6版本的新特性,它允许数据库存储引擎在存储层直接应用WHERE子句中的过滤条件,而不是先将所有匹配的数据行返回给查询处理层(server层)再进行过滤。
语联网申请低代码开发平台专利,提高开发效率
金融界2024年12月9日消息,国家知识产权局信息显示,语联网(武汉)信息技术有限公司申请一项名为“低代码开发平台”的专利,公开号CN 119088369 A,申请日期为2024年8月。专利摘要显示,本发明提供一种低代码开发平台,该低代码开发平台包
昇兴股份股票,升兴股份股票潜力分析
西藏珠峰在盐湖提锂中以积极的态度扩大产能,有望在新能源的带动下业绩呈现稳步增长的趋势。西藏珠峰在盐湖提锂中对于产能扩大的态度很积极,有望在新能源的推动中实现业绩的稳步增长。另外,对于公司其他的有色金属来说,储量也很大,有色
八款免费好用的搜图软件!
01Pixabay一个提供无版权图片素材的网站,除了图片,还提供矢量图、插画和视频素材。当你喜欢一张图片并想要下载时,你可以选择三到四种尺寸大小。不同的尺寸大小也对应着不同的内存大小。在pixabay网站中,你可以通过设置首页的五个选项。
七合一小程序saas平台源码全开源 可视化后台自由DIY+部署搭建教程
分享一个七合一小程序saas平台源码,可视化后台可自由DIY,含详细的部署搭建教程,源码开源可二开,支持多终端七端合一,一个后台控制7端,支持微信小程序+支付宝小程序+百度小程序+抖音
相关文章
推荐文章
发表评论
0评