分享好友 最新动态首页 最新动态分类 切换频道
3个字母,抓取4943条数据,超实用的XPath爬虫工具教学!
2024-12-26 18:20

当你想要快速批量采集某个网站的内容时,首先想到的会是什么

有的朋友可能会想到爬虫工具,但大部分人基本也只是听过,没用过。如果要用的话,会不会很复杂?要不要学习什么技术

今天就给大家分享一个实用的网页内容批量采集工具XPath不需要复杂的准备工作,就能快速上手,尤其适用于轻量化的网页内容抓取。

掌握了XPath的用法之后,只需3个字母,就可以抓取4943条数据。接下来,我以一个真实的网页内容抓取需求为例,详细讲解XPath的用法。

假设你正在开展一项研究,需要收集餐饮连锁品牌的名单,这时候找到一个网站

https://www.maigoo.com/brand/list_1811.html

网站上有数十个餐饮连锁的名单,如果是一个个复制粘贴,50个就需要来回操作上百次,倘若还要搜集其他的名单,这一天下来不仅效率极低,手估计也要废了。

如何能够一键抓取这些品牌的名单呢?这时候XPath就帮大忙啦。


一、准备工作

在正式开始之前我们需要先做好准备工作,这里列出了所有的准备清单。

1、安装Chrome(谷歌)浏览器

https://www.google.cn/intl/zh-CN/chrome/

2、安装XPath Helper插件

方法一(有梯子可以直接前往chrome应用商店下载,避免安装出错

https://chrome.google.com/webstore/detail/xpath-helper/hgimnogjllphhhkhlmebbmlgjoejdpjl

方法二:没梯子可下载安装包,可能有的浏览器版本不适配文末有安装包获取方法

3、抓取的目标网站

4、没接触过XPath的朋友, 可前往此处学习详细的使用教程

https://www.runoob.com/xpath/xpath-tutorial.html

所有的案例资料和插件工具,我都打包整理好了加微信yesaze (备注XPath)即可领取。


二、安装XPath Helper插件

1、打开Chrome浏览器,点击右上角“ ”按钮,选择“更多工具”-> “扩展程序”

2、打开右上角“开发者模式”,点击“加载已压缩的扩展程序”,选择已解压的XPath helper 插件文件夹(XPath helper插件只能在谷歌浏览器中使用)

3、当扩展程序中出现XPath helper时,就代表安装成功了

4、在Macbook上按shift+command+X键,可以快速唤起和隐藏XPath Helper(Windows的快捷键是Ctrl+Shift+X


三、抓取网页内容

1、什么是XPath?

XPath 是一门在 XML 文档中查找信息的语言。而XML是一种结构化的编程语言,如果不理解也没关系。

你只需要知道我们所看到的的网页,其实是由有规律、有结构的代码组成,我们所要提取的内容,就在这些结构化的代码里面。

XPath可以帮助我们根据网页的结构路径,灵活编写爬虫脚本,定位到我们需要的内容,从而进行抓取。

打开前面案例中的链接

https://www.maigoo.com/brand/list_1811.html

我们看到的是排布整齐的图文,当我们点击鼠标右键→检查,可以看到页面的内容都是有固定结构的,一级一级向下展开。

XPath 使用路径表达式在 XML 文档中选取节点。如果我们需要提取餐饮品牌的名称,只需要编写对应的路径即可。

在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。

 

以上代码是从网站中截取的XML代码,为了便于讲解,做了精简处理。其中文档节点、元素节点、属性节点例子如下

 

在这个案例中,我们可以看到,li里面包含了div,它们统称为节点,li是父节点,div是子节点。依此类推div里面又包含了a,它们又构成父子节点关系。

其中info、_blank等值,没有父或子节点,称之为基本知识,就是最基础的元素。

2、如何编写爬虫路径

理解了节点的概念,我们只需要编写一个路径,从大到小,逐级定位到我们需要的内容节点即可。那要如何编写路径呢

我们用双斜杠//表示从匹配选择的当前节点选择文档中的节点,而不考虑它们相对位置。如//li,表示选取所有li子元素,而不管它们在文档中的位置。

形如 //li//div//a/text() 表示定位到所有li下的所有div,所有div下的所有a,并提取其中的文本内容(text)表示提取文本内容

此时我们将语句输入XPath helper,发现有很多空的内容也被抓取了。先别着急,完整的语句应该是

//li//div[@class=“info”]/a/text()

与前面的语句相比,其中多了一个**[@class=“info”]**,这个的意思是选取所有 div 元素,且这些元素拥有值为 info 的 class 属性。这样定位就更精准了。

最后我们只需要全选复制结果即可,通过短短几个语句就能快速采集网页内容。

对于没有接触过XPath的朋友,可能有点晦涩难懂,建议还是详细阅读一下学习教程,半个小时就能掌握语句的含义和用法,能为以后采集内容省去不少时间。


四、补充案例

如果说刚才的案例不太好理解,那我们再来看一个简单的案例,如何用3个字母抓取4943条数据?

在网站

https://www.maigoo.com/category/zhishi/

,详细罗列了不同的行业类别及子类目,只需要通过**//li/a**这简短的语句,就能把所有类目抓取下来。

//li/a表示定位到所有li下的a,这个网页结构比较简单,只要能快速识别结构,就能轻松写出路径。

同理如果我们只需要抓取左侧的品牌大类,只需写出相应的路径即可

//div[@id=“leftcatlist”]/a,表示定位到包含id="leftcatlist"属性的div下的所有a,21个品牌大类的数据就轻松完成采集了。

以上就是XPth案例教学的全部内容,其中只用到了一部分XPath的能力,还有更多功能等待你去探索。想要系统学习推荐前往

https://www.runoob.com/xpath/xpath-tutorial.html

了解详情,有完整免费的教程内容。

工具就是熟能生巧,长时间不用就容易遗忘,所以想要熟练掌握一是要勤加练习和使用。书到用时方恨少,事到经过才知难。

如果觉得有帮助建议收藏备用,反复阅读。

此外我这里准备了详细的Python资料,除了为你提供一条清晰的学习路径,我甄选了最实用的学习资源以及庞大的实例库。短时间的学习,你就能够很好地掌握爬虫这个技能,获取你想得到的数据。

我们把Python的所有知识点,都穿插在了漫画里面。

最新文章
国内可以24小时挂机的云电脑有哪些?
随着云计算技术的发展,越来越多的人需要使用云计算机。云计算机可以帮助我们随时随地访问桌面环境和应用程序,而不必担心数据丢失和缺乏计算能力。本文将为大家介绍几款可以24小时挂机的国产云电脑主机。1.阿里云阿里云是中国最大的云计算
澄迈爱采购代运营费用
百度爱采购服务商浅谈:上传产品图片需要注意的地方 百度爱采购服务商浅谈:上传产品图片需要注意的地方,不同的商品质量影响着商品的排序程度,主要因素有类目优化程度、图片质量、参数丰富度、时间、地域等,下面来了解下百度爱采购上传
解决方案:如何确保网站被百度收录并提升网站内容质量与优化技术
确保网站被百度收录,对网站的进步极为关键。这表示网站能够吸引更多访客,获得更广泛的关注。网站内容质量网站内容必须保证高水准和原创性。若是内容只是简单的抄袭和拼凑,百度是不会给予关注的。内容要有实际价值,比如提供实用的信息。
数学老师职称工作总结
总结是对某一阶段的工作、学习或思想中的经验或情况进行分析研究的书面材料,它是增长才干的一种好办法,是时候写一份总结了。如何把总结做到重点突出呢?下面是小编收集整理的数学老师职称工作总结,仅供参考,希望能够帮助到大家。在教学
收藏!这些超好用的Presentation神器,10个留学生9个都在用!
转眼进入12月,随之而来的还有让留学生们心慌发冷的Final。除了写不完的paper,还有做不完的presentation。更伤的是,光一个PPT有时还不能解决越来越复杂的课业问题。然而deadline近在眼前,实在是熬不过啊!猪队友是靠不住了,你需要这些
拼多多外链开放:外链建设规划及执行方案
一、外链建设目标通过外链建设,达到以下目标:* 提高拼多多网站在搜索引擎中的排名和可见度* 吸引高质量流量至拼多多网站* 提升品牌影响力和知名度二、目标受众分析确定外链建设的目标受众,包括:网购者、行业博主、新闻媒体等。三、外链
网易高管解读Q1财报:希望未来海外市场占比达到50%
5月24日,网易公布了2022年第一季度财报。一季度,网易净收入236亿元人民币;归属于公司股东的净利润为44亿元;研发投入34亿元,研发投入强度达14%。在随后的财报电话会上,网易CEO丁磊、CFO杨昭烜等高管就财报和业务发展做出解读。当投资人
如何利用黄页引流推广网站入口提升业务曝光度
在当今数字化时代,企业正面临日益激烈的市场竞争,尤其是在网络上的营销和推广活动成为了重中之重。许多企业往往忽视了一个传统而有效的工具——黄页。虽然黄页在互联网时代并不如从前那般受宠,但其潜在的引流能力依然不可小觑。充分利用
抖音短剧系统快速搭建,部署上线维护全包,支持媒资管理/广告回传
标题:抖音短剧系统一站式服务,快速搭建,无忧运营!正文:随着短视频行业的蓬勃发展,短剧作为一种新兴的短视频形式,迅速吸引了大量用户的关注。为了帮助广大开发者轻松踏入短剧制作与运营的领域,南阳迈特推出了一款领先的短剧系统——
相关文章
推荐文章
发表评论
0评