大家好,我是章北海
Jina AI 开源了 RAG 数据处理中的关键组件:“网页数据爬取” ——Reader,目前 3300+ Star⭐️
项目地址:https://github.com/jina-ai/reader
Jina AI Reader 特征:
免费使用
开源
延迟大概 2S 内,复杂的内容可能需要更多时间
提供 stream 模式,方便缓解复杂内容等待
不支持多语
能够处理 PDF 如 arXiv,但是不是一个通用的 PDF 抽取器
未来会支持处理图片或视频总结
支持在线网页
5 分钟之内上传的内容会缓存
说它是爬取其实有点“过”了,因为这个工具主要服务于将任何 url 转化为 LLM 友好的格式(比如 markdown),然后可以再针对这些内容集成不同的模型。
它可以免费使用,提供 Stream 模式可流式读内容(简单内容2s内可获取)
也可以访问 https://jina.ai/reader/,尝试在线 Demo。
填入链接,点击 FETCH CONTENT 即可获取到内容,甚至提供了基于获取的内容直接提问,结合 Jina AI 的 Embedding 召回 + LLM 组合输出。
Jina AI Reader 原理是通过 puppeteer 抓取网页内容,然后解析再保存成 markdown,这样的方法对于抓取静态的网页内容还可以,如果抓取更复杂的页面就无能为力,还是需要更专业的爬虫解析工具。
其实抓取url,将正文转换为良好的markdown格式的工具还有很多,比如:
https://markdowndown.vercel.app
web-scraper(open source): https://github.com/zzzgydi/webscraper
code-html-to-markdown: https://github.com/siviltaram/code-html-to-markdown (偏向于更好地处理代码块)