分享好友 最新动态首页 最新动态分类 切换频道
今日头条的 ByteSpider,怎么就成了小网站的“噩梦”?
2024-12-26 03:44

今日头条的 ByteSpider,怎么就成了小网站的“噩梦”?


正文:

今日头条,最近又上头条了。

2019 上半年,今日头条正式公布开始做搜索引擎。本来单纯的以为头条和微信一样,做的是垂直搜索或者站内搜,没想到做的是抓取全网内容的全新搜索引擎。 

这个决定其实也是在情理之中。毕竟头条系产品现在的流量已经到了一个很恐怖的量级,扩展做搜索具有天然的优势。

但我们今天不聊“字节跳动搜索能否干翻百度”,只想说一下轰轰烈烈的「搜索大战」之下,头条的一个操作让很多小网站「痛苦不堪」。

我们的社区(sifou.com)用户很多都有自己的个人网站和博客,虽然流量有高有低,毕竟是大家自己的后花园。

但最近,很多社区用户纷纷跟我反馈,一种名为 Bytespider 的爬虫爬取他们的网站信息的频率太高,直接把网站搞瘫痪了。大家顺着爬虫的 IP 地址查了一下,发现 Bytespider 应该就是今日头条的搜索爬虫。

更有甚者,短短一上午时间就收到了 46 万次请求,消耗掉服务器 7 .42GB 流量。这对平均日活可能都没有过千的小网站来说,已经算得上一次小型的 DDoS 攻击了...


爬虫就是自动抓取网络内容的一种程序,它会定时定量的把互联网上的内容爬下来,汇总存储到自己的服务器上。放到搜索引擎上来说,我们每次搜索的时候,搜索引擎就会在这些爬取到的内容里进行匹配相似度高的内容反馈给你。

所以做搜索引擎的公司离不开爬虫。大公司也都会给自己的爬虫起一个名字:谷歌的爬虫叫 Googlebot,百度的爬虫是 Baiduspider,搜狗的爬虫 Sogouspider,而今日头条就是上文中的 Bytespider。

扯远了,我们继续讨论开头的这个事情。为什么之前别的搜索引擎爬取内容就没事儿,头条一爬小网站就崩溃了呢?

其实从今年 6 月开始就有网站主抱怨了这个 Bytespider。而且从今年 6 月到 10 月,越来越多的人开始在网上爆料自己也遇到了类似的情况。在国外的编程交流网站上大家也有讨论啥是「Bytespider」,并且指出它非常不地道的无视了自己网站的 robots.txt 协议:

“Given they don't respect the robots.txt file,I'd consider them block-fodder.”


什么是 robots.txt 协议?

即使不是运维工程师,关注互联网的人应该也听说过 robots 协议。当年的 3Q 大战就涉及到了一场关于屏蔽与反屏蔽的争论,也把原本非常小众的 robots 协议变成了媒体热词。

robots 协议的出现要追溯到 1994 年。

在互联网的蛮荒发展时代,搜索引擎可以通过爬虫直接进入网站的管理后台,把所有网页信息全部收录。除了涉及隐私外,爬虫程序的反复收录在 20 年前对网站带宽也是不小的负载。

面对这个情况,荷兰工程师 Martin Koster 提出通过设立名为 robots 规范的网站访问限制政策,来解决网络爬虫带来的潜在风险与威胁,这一提议收到了广泛的认可与应用

robots 协议自成立以来在全球受到严格遵守,也获得了很多的成效。我们还是通过一个 3Q 大战为例子,来看一下 robot.txt 协议的价值。

两大搜索巨头的战役,可谓牵一发而动全身,甚至逼迫了全网站队。但最终的诉讼结果,也让行业有了一个法律层面的参考。

在百度诉 360 一案中,法院认定 robots 协议虽然不是法律意义上的合同,但属于“搜索引擎行业内公认的、应当被遵守的商业道德”,如果违反 robots 协议、爬取网站明确不允许爬取的内容,会构成违反《反不正当竞争法》第二条的原则性规定:“经营者在市场交易中,应当遵循自愿、平等、公平、诚实信用的原则,遵守公认的商业道德。”

但另一方面,robots 协议本身也不能不合理的限制特定爬虫。就像 360 提出百度的 robots 协议允许谷歌、微软必应、雅虎、搜狗等搜索引擎抓取,但却不允许 360 抓取内容,同样属于不正当竞争与限制。

法院也认定,在 360 向百度提出修改 robots 协议的主张之后,百度未能在合理期限内说明拒绝 360 爬取的合理理由,所以从这个时点之后,360 的爬取行为不再构成不正当竞争。


爬虫的法律风险

之前,有一家上海的企业**了字节跳动的防抓取措施,使用「tt_spider」文件进行视频数据的抓取,经法院判定,造成了字节跳动的技术服务费损失 2 万元。最终判处该公司罚金 20 万元,主管人员罚金 3 - 5 万元不等、有期徒刑 9 个月到 1 年不等。


爬虫的滥用终于被制裁了,但事情都是有正反两面的。反爬取措施的滥用又如何规范与避免?

如果反爬措施被滥用,就像 3Q 大战中不合理的限制竞争对手、维持垄断地位,是否也不利于数字信息共享、促进竞争?如何平衡两方面的利益,可能通过未来的案例会衍生出更精密的机制。

需要注意,上面我们提到的两种情况中,是否构成非法获取罪或者不正当竞争,与数据是否为公开信息是没有关系的。即使获取的数据为公开信息,也不影响定性。

最后,即使上述情形都不涉及(既没有违反Robots协议、也没有反爬措施、所有数据都是公开信息),也不可以随意爬取。如果你对爬取数据的使用,侵犯了对方的商业价值,仍然有可能构成不正当竞争。

这个在我们平台就是一个很好的例子,比如我们社区网站的文章、问答内容经常被非法的爬取搬运。在这里不展开详细的讨论,但还是想要号召大家都能够遵守一下基本的操守和底线。




如何避免被爬虫「误伤」?

就像这次 Bytespider 的爬虫,虽然不算是 DDos,但对于很多小网站来说真的「遭不住」。

除了 robots.txt 封禁之外,主动的做法可能就是在服务器上直接识别爬虫名称然后进行封禁,同时也可以在服务器上封禁爬虫的服务器等。比如:

- 在 robots.txt 协议中封禁或者限制相关爬虫 User-agent;
- 在服务器上或者 CDN 节点上屏蔽相关爬虫的 IP 段;
- Nginx 服务器也可以封禁相关的爬虫 User-agent;




总而言之,爬虫有风险,爬取需谨慎。

越是大体量的公司,越应该遵守社会规则、承担社会责任。在数据泛滥、科技进步的时代,合法与违法之间存在很多灰色地带,相关的法律法规也还有待完善,但我们作为社会中的一员,作为承担着社会责任的「社会人」,还是要尽量的遵守我们自己的道德底线。

别老想着钻空子,给别人添堵的最后,难免会给自己招来麻烦。


最新文章
铜梁爱采购运营技巧
1、专享企业个人名片。在百度搜索結果中,特制信用卡展现,为店家打造品牌,提高名气。2、多情景开启呈现。产品搜索、型号规格搜索、生产厂家搜索、市场行情搜索、等情景开启呈现,扩展总流量。3、产品百度收录跨平台同歩呈现。PC、挪动网
百度地图车机版2024导航
2022百度搜索地图车载导航版app是一款快速查询应用的导航仪,全新升级行车导航精确到每一个地址方向,并已将众多客户处理车载式方式没声音的苦恼,开辟车机互联的交通出行互联网时代,有须要的客户赶紧下載畅玩吧。百度搜索地图车机版介绍
自研芯片公司:英伟达在前,其余公司能否望其项背?
在追求构建更强大人工智能(AI)模型的当下,一般的通用芯片已难以支撑,行业对人工智能芯片的需求显著增长。在AI芯片领域,有英伟达(NVIDIA)、超威半导体(AMD)、英特尔(Intel)等耳熟能详的大公司持续深耕,也有Groq、SambaNova Syst
中国十大创意广告,市场趋势方案实施_Advance33.98.96
摘要:中国市场上出现了十大创意广告,这些广告代表着市场趋势&#
“世界为何如此暴力和痛苦?然而,世界为何又如此美丽?” | 2024诺奖得主韩江演讲全文
北京时间12月8日凌晨,韩江在瑞典学院现场作了题为《光与线》(Light and Thread)的获奖演讲。在演讲中,她从童年写下的诗句开始,讲述了每一部作品背后的创作心路,而始终困扰她的问题是,“为什么世界如此暴力和痛苦?然而,世界为何又
美股收盘:道指连跌七日 博通涨逾24%加入“万亿美元俱乐部”
  美东时间周五,美股三大指数收盘涨跌不一,道指连续第7个交易日下跌,创下自2020年以来最长的连跌纪录,投资者预计美联储下周将放缓降息步伐。  受大涨推动,100指数连续第四周攀升,而其他主要股指则表现低迷。除了科技板块之外,支
免费看电影电视剧软件排行榜:免费影视剧观看软件大全
在当今数字化时代,电影和电视剧已成为人们休闲娱乐的重要组成部分,随着智能手机的普及和网络技术的发展,越来越多的人选择通过移动应用来观看影视作品,以下是一些受欢迎的免费看电影电视剧的软件:1、电视直播大全特点:这款软件提供央
阿里巴巴外贸直通车推广如何设置?
了解完“外贸直通车是什么”,我们再来看看阿里巴巴外贸直通车推广如何设置? 外贸直通车的基本流程:选择产品-选择关键词-出价-完成 第一步:选择想要推广的产品。(PS.推广的产品数量越多,被买家搜索到的概率就越大) 步骤1)点击“营销中
漫蛙漫画官网最新版本2024下载安装
漫蛙漫画官网最新版本2024下载安装是一款优质的漫画阅读软件,汇集了海量热门漫画资源,涵盖各种题材和风格,满足用户多样化的阅读需求。用户可以通过该软件轻松浏览最新更新的漫画,享受高清流畅的阅读体验。同时,软件提供了个性化推荐功
网龙裁员引发的AI时代思考:谁能从中突围?
然而,尽管AI在效率和成本控制上展现了极大的潜力,人们的担忧依然存在:AI会否以无情的姿态逐步取代人类在游戏创意和设计中的地位?对此,行业内的观点并不统一。一方面,有分析认为AI将使得开发人员从繁重的重复劳动中解放出来,将精力更
相关文章
推荐文章
发表评论
0评