分享好友 最新动态首页 最新动态分类 切换频道
Chrome插件 WEB 网页数据采集和爬虫程序_chrome插件爬虫开发
2024-12-26 23:53

所谓的自动化程序,就是用机器大批量地发起请求,拿到响应后再做处理。专业术语叫做或者。

模拟请求(基于代码或爬虫框架

此方案需要我们至少熟悉一门编程语言(Python、Node.js、Java等,自行编写代码或者借助优秀的开源爬虫框架,实现数据获取。某些场景,还需要通过抓包分析目标网站的参数规则,然后通过组合式请求方能达到目的。

这里罗列下我用过或收藏且还在不断更新维护的框架

名称开发语言简介ScrapyPythonA fast high-level web crawling & scraping framework for Python.PyspiderPythonA Powerful Spider(Web Crawler) System in Python.NutchJava一种高度可扩展、可伸缩的开源 Web 爬虫软件项目。功能强大,支持 Hadoop 集群内运行webmagicJava一个简单灵活的Java爬虫框架。基于WebMagic,你可以快速开发出一个高效、易维护的爬虫。真的非常简单😄Spiderman2Java开源Web数据抽取工具,我没实际使用过node-crawlerNode.jsWeb Crawler/Spider for NodeJS + server-side jQuery 😉

开发者工具 F12 🛠️

首先访问目标网站,按需进行登录,然后按下键盘 F12(或者 Ctrl+Shift+I)进入开发者工具,可以在中写或贴入 JS 脚本,回车收尾😎。

这是我常用的一种方式,用户验证脚本跟少规模作业。

自动化测试工具(Selenium/Puppeteer/Playwright

WEB 自动化测试工具,是指通过程序代替人工完成验证 WEB 功能的过程。当然,也能利用它来抓取数据。这类工具通过驱动程序(webdriver、DevTools Protocol,驱使浏览器执行既定的动作/脚本。

  • Selenium:老牌大哥,我最开始接触的自动化测试工具,支持 Chrome、Edge、Firefox、IE、Safari 等浏览器,对开发语言支持也很广:Java、Python、C#、Ruby、JavaScript
  • Puppeteer: Chrome 开发团队在 2017 年发布的一个 Node.js 包,用来模拟 Chrome 浏览器的运行。主打对 Chrome 的良好支持,社区有针对 Java、Python 版本。
  • Playwright:微软大厂出品,浏览器支持 Chrome、Edge、Firefox、Safari,官方提供 Java、Python、Node.js、C# 编程语言的 SDK。

Electron / Traui

这两个软件跟上一节工具基本一致,之所以单独列出来,是因为它们提供了更丰富的接口,既能控制浏览器完成任务,又可以制作 GUI 界面(可用于与爬虫程序交互)。

浏览器扩展(插件

官方应该叫做浏览器扩展(Extensions,但是我们习惯叫做插件😄,后续文章我将重点以此方式进行实践。

浏览器扩展(插件)是运行在特定浏览器,遵循相关规范的应用程序包,由 JS、CSS、HTML 组成,能够管理标签页、注入代码、操作DOM、监控页面活动等。

插件功能非常强大,具体的文档详见Chrome Extensions Document。不过有一个小遗憾是不能在插件内打开标签页的开发者工具,官方给出的回答是出于安全考虑。

有大佬做的强大插件webscraper插件(本地使用免费👍。

小结

我们在做数据采集时,可以根据实际情况灵活选择方案。不过,无论是何种方式,都要随着目标网站的更新迭代,做相应的适配,否则会出现程序无效的情况,而这是一个耗时耗力的过程🙂。

拦路虎之 IP 限制

当 ip 被限制,就无法正常访问网站或服务。我们的请求很可能被防火墙、网关、WAF(Web 应用防护系统)等前置设备、应用拦截,压根没有到藏在后面的网站。常用应对方式是更换终端IP,比如用代理。

拦路虎之验证码

对于文字型可以用OCR,简单交互类的可以用脚本模拟人工拖拽动作,逻辑类的话就难很多,需要对症下药。当然也可以花钱调商用接口,我用过的有超级鹰。

拦路虎之行为检测

关于行为检测,我没有深入了解,只是在一个爬取某国外社交平台数据时,直接告诉我,是因为操作路径每次都一样而被拦截😒。

有数据的地方就有江湖,爬取与反爬取,是一个长期博弈的过程。今天道高一尺,明日魔高一丈,唯有不断学习进步,方能跬步前行。

最新文章
白板标注器
直播讲课画笔标注工具白板标注器直播讲课工具,占用空间小;网课标注工具,操作简单,界面简洁;线上会议重点标注,用途广泛,开启快速;主播都在用,赶紧下载吧! 51下载站提供白板标注器app官方版下载地址,有需要的用户可免费下载使用!
肠炎和直肠炎的区别是什么
肠炎和直肠炎的区别在于病变部位、病因、症状、治疗方法以及预后情况。1.病变部位肠炎指的是整个肠道出现炎症反应,包括小肠和大肠。而直肠炎仅涉及直肠末端部分。2.病因肠炎可能由病毒、细菌感染或食物不耐受引起,如轮状病毒感染、志贺菌
聊天被诬陷性骚扰犯法吗
一、聊天被诬陷性骚扰犯法吗在交流过程中受到指控涉嫌性骚扰,然而仅凭恶意的指责而缺乏实际行为作为支撑,此种情况并不符合犯罪构成要件。若该项诬告最终导致指控者承受了不当的制裁或名誉受到了实质性的伤害,那么诽谤者则有可能就其恶意
苹果哪款手机拍照效果最好?苹果十大最佳拍照手机排名
苹果当中拍照好的手机很多,苹果十大最佳拍照手机排名为:iPhone SE 2020,iPhone 12 Pro,iPhone 11,iPhone SE 2,iPhone 6S Plus,iPhone 6S,iPhone12 Pro Max,iPhone 12 mini,iphone 12,iPhone 13 mini,这十款苹果手机是目前拍照
联想笔记本电池驱动(联想笔记本进BIOS按什么键)
1. 引起读者的注意在现代社会中,笔记本电脑已经成为人们日常生活不可或缺的工具。随着使用时间的增加,笔记本电池的性能逐渐下降,给用户带来了不便。而联想作为知名的电脑品牌,其笔记本电池驱动更是备受关注。我们如何进入联想笔记本的B
一文全方位掌握“架构原则”:3 总则、4 域细则与 TOGAF 10 原则
架构设计不像数学公式或者物理定律那样有固定的解答。很多时候,它是设计师在各种需求、技术限制和未来规划之间做出的权衡结果,是一种最符合实际情况的“智慧输出”。不过,虽然架构设计充满了不确定性,但一些好的架构原则和思路可以帮助
湖南筱度引领企业SEO新营销浪潮
湖南筱度SEO优化推广服务,专注提升企业网络营销效果,助力企业开启互联网营销新篇章,实现品牌影响力与市场竞争力双提升。随着互联网技术的飞速发展,网络营销已经成为企业获取客户、提高品牌知名度的重要手段,在众多网络营销策略中,SEO
色情链接太多了吧,百度遭媒体质疑|1月21日坏消息榜
关注钛媒体每日、每月整理发布的行业坏消息榜,一榜略尽当日当月最具影响的坏消息。近日,有记者通过电脑页面和手机客户端,分别登录此前报道中涉及的贴吧,看到大多数贴吧已被彻底关停,但名为“苍XX”的贴吧,仍可通过手机客户端间断登录
百度搜索优化这样做,让你的流量蹭蹭暴涨!
对于SEOER来说,百度搜索优化是个老生常谈的话题。做好百度搜索引擎优化,不仅有助于网站在搜索引擎上获得良好的排名,带来的自然曝光和流量也十分可观。无论从品牌传播的角度还是从业务转化的角度,都大有裨益。那么,当网站访客流量遭遇
微信外链新闻:全面外链策略指南
网站外链建设规划目标:建立高质量的外链网络,提高网站在搜索引擎结果页面 (SERP) 中的排名和可见度。策略:* 创建有价值的内容:撰写信息丰富、引人入胜且相关的文章、博客文章和指南,为受众提供价值。* 接触相关网站和影响者:寻找相关
相关文章
推荐文章
发表评论
0评