如此“爬虫”？代码全省了

如此“爬虫”？代码全省了

2024-12-26 14:33

大家好，我是章北海

Jina AI 开源了 RAG 数据处理中的关键组件：“网页数据爬取” ——Reader，目前 3300+ Star⭐️

项目地址：https://github.com/jina-ai/reader

Jina AI Reader 特征：

说它是爬取其实有点“过”了，因为这个工具主要服务于将任何 url 转化为 LLM 友好的格式（比如 markdown），然后可以再针对这些内容集成不同的模型。

它可以免费使用，提供 Stream 模式可流式读内容（简单内容2s内可获取）

也可以访问 https://jina.ai/reader/，尝试在线 Demo。

填入链接，点击 FETCH CONTENT 即可获取到内容，甚至提供了基于获取的内容直接提问，结合 Jina AI 的 Embedding 召回 + LLM 组合输出。

Jina AI Reader 原理是通过 puppeteer 抓取网页内容，然后解析再保存成 markdown，这样的方法对于抓取静态的网页内容还可以，如果抓取更复杂的页面就无能为力，还是需要更专业的爬虫解析工具。

其实抓取url，将正文转换为良好的markdown格式的工具还有很多，比如：

https://markdowndown.vercel.app
web-scraper(open source): https://github.com/zzzgydi/webscraper
code-html-to-markdown: https://github.com/siviltaram/code-html-to-markdown （偏向于更好地处理代码块）

最新文章

在B站，企业品牌号视频内容如何让更多目标用户人群看到？通过bilibili商业起飞（创作推广）在B站，企业品牌如何圈粉年轻一代用户？通过bilibili商业起飞（创作推广）B站商业起飞bilibili商业起飞定义商业起飞是bilibili内原生内容推广加热

限时免费，点击体验最近超火的AI生图神器，坐拥3000美女的大男主就是你！ https://ai.sohu.com/pc/generate/textToImg?_trans_=030001_yljdaimn 在这个数字化的时代，科技为我们的生活带来了巨大的变革。特别是在创意和艺术领域，AI绘画工

　　1688商家版电脑版是一款专门为1688商家定制的PC端工作台，提供了营销推广、商品管理、订单处理、数据分析等功能，供1688商家自由使用。其强大的数据分析功能，让1688商家能够深入了解店铺运营状况，灵活地调整经营策略，把店铺经营地更

导语：在人工智能时代，AI大模型已成为技术创新的焦点。对于即将踏入职场的新鲜人，尤其是秋招生来说，掌握AI大模型相关技能无疑是提升就业竞争力的关键。下面我们来详细剖析AI大模型的必备技能，并提供实用的学习路径和求职策略。AI大模

从人工智能到万物智能，产品与技术正在加速创新。“2024新思科技开发者大会”近日召开，全场与会嘉宾与开发者们共同探讨行业未来的发展趋势。受益于芯片及更广泛科技领域的创新，全球正加速迎来万物智能时代。这给各个行业带来挑战的同时，

随着科技的不断进步，手机CPU的性能已成为衡量手机优劣的重要标准之一。2024年，伴随着新技术的涌现，市场上出现了众多高性能CPU的手机，这不仅为用户提供了更多的选择，同时也带来了性价比与顶级性能之间的激烈竞争。本文将深入探讨2024年

功能类福彩3D显示遗漏：显示/隐藏遗漏值，遗漏值是指自上期开出到本期间隔的期数。福彩3D遗漏分层：是将当前遗漏值用柱状图形标注。福彩3D分段线：是每五期使用分隔线，使横向导航更加清晰。福彩3D显示断区：在分区走势中使用，将开出0个号

导语：QuestMobile数据显示，作为微信生态体系的核心板块，随着微信小程序覆盖场景的持续增加，小程序已经成为“流量赋能”最成功的模式，截止10月份，微信小程序用户达到9.49亿，月人均使用时长已经达到1.7小时，月人均使用次数也达到近70

历史的车轮已经飞奔在2020年的路上，所经之处，旧路面被碾压，破碎；新的支撑在不断形成。科技金融、转型升级、敏捷反应、创新驱动、数字化颠覆等一系列企业战略关键词的背后，是对企业人才管理体系和水平更加超前的要求。我们在持续为金融