AI模型的出现改变了网络爬虫的生态,为了让网站能够管理AI网络爬虫的数据抓取,Cloudflare本周发布了一系列工具,包括可用来查看AI爬虫具体活动的AI Audit,可一键封锁所有AI爬虫的Block AI Scrapers and Crawlers,也准备推出新组件,以让网站管理者可以设置特定内容的价格,并向模型供应商收费。
Cloudflare解释,过去网络爬虫只有好跟坏两种,好爬虫以搜索引擎爬虫为代表,让用户可发现网站并替网站带来流量,坏爬虫则可能会攻击网站、利用自动化功能夺取优先权,或是访问用以竞争的数据。然而,AI时代带来了第三种AI爬虫,这些爬虫试图扫描网站的公开内容,并用来训练模型,尽管它们并不会破坏或攻击网站,但它们也不会替网站带来流量,而是利用网站的内容来创造自己的价值。
过去Cloudflare构建了Cloudflare Bot Management平台,以让网站管理员可区分不同的爬虫,并决定允许或阻止它们,现在Cloudflare则开发AI Audit,可用来查看AI爬虫的各种行为,包括爬虫的类型、访问的频率,或是所扫描的内容,以准确了解AI爬虫的行为,决定是否控制它们。
若还不确定该如何处理这些AI爬虫,网站管理员可以借由新的Block AI Scrapers and Crawlers功能,一键封锁所有的AI爬虫。
在这两个新的免费功能之外,网站管理员也可通过既有的Web Application Firewall(WAF)功能,更精细地控制所要允许或封锁的爬虫。
Cloudflare指出,除了上述的选择之外,他们认为网站应该也要能够得到合理的补偿,因此正在规划一个新的组件,允许网站拥有者可替该站或特定内容设置价格,要求以AI爬虫扫描该站的模型供应商付费。