【Python爬虫奇淫技巧】 用pandas库read

   日期:2024-12-28    作者:zhanjiangbaoguan 移动:http://ljhr2012.riyuangf.com/mobile/quote/76259.html

一、介绍read_html()函数

【Python爬虫奇淫技巧】 用pandas库read

喜欢Python编程的小伙伴你知道吗,python的pandas库除了可以做数据分析,还可以做简易爬虫,仅需一行核心代码,就可以实现一个爬虫程序,轻轻松松爬取网页数据!

它就是pandas库的read_html()函数,实现python爬虫可以说是非常方便了。

这里需要说明的是,它只能针对网页上有<table></table>标签的表格数据进行爬取。

二、分析爬取目标页面

这里,我爬取的目标网址是:

查看web页面数据

可以看到,页面上是有一个表格数据的,按F12打开开发者模式,查看网页源代码:

查看网页源代码

确实是有<table>标签的表格数据。那就好办了,开始撸代码!

三、代码讲解

代码总共3行,核心代码就1行:

这样短短3行代码,数据就爬取下来了。看一下爬下来的数据:

pandas数据爬取结果

没问题,和原页面数据完全一致!后面在用pd.to_excel()把数据保存下来就OK了。

超级简单、强大有没有!

这里附上read_html()函数的官网参数说明,供小伙伴们参考:(贴心的我已经翻译成中文了^_^)

read_html()参数说明

再次强调一遍,它只能针对网页上有<table></table>标签的表格数据进行爬取。

如果页面上没有<table>标签,用这个方法爬取的话,会提示"No tables found"的报错:

报错截图

这是我用ipython界面截的图,你用其他IDE也会这样报错的!

对应的视频讲解传送门:

四、关于我

我是 @马哥python说  ,关注我,持续分享Python干货中!

按以往的习惯,我都会分享Python源码文件,这次不用分享了吧,就3行代码,自己撸吧小伙伴!


特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号