今天给大家分享一期豆瓣读书TOP排行榜250的python爬虫案例
爬取的目标网址是:https://movie.douban.com/top250
咱们以目标为驱动,以兴趣为导向,先来看下爬虫程序运行后得到的excel文档数据
那代码是如何实现豆瓣电影TOP250数据爬取的了?下面逐一讲解一下python实现。
通过浏览器F12查看所有请求,发现他并没有发送ajax请求,那说明我们要的数据大概率是在html页面内容上。
于是我们 点击右键->查看网页源代码 ,发现我们需要的豆瓣电影评分的排行榜数据都在html页面里
这就简单了,我们直接往下看,上代码。
首先,导入我们需要用到的库
然后,向豆瓣电影TOP250的网页发起请求,获得html页面内容
用lxml库解析html页面
使用xpath来提取我们需要的排行榜数据内容
其中,需要特殊说明的是,第3页《窃听风暴》这部电影和其他电影页面排版不同:
这部电影只有导演,却没有主演信息,所以会有个异常处理的代码
还有就是有些电影,他的年份、国家、类型的格式有细微的不同之处,所以也需要特殊处理一下。
最后,我们将爬虫爬取的数据保存到csv文档里
上面的movie_names、urls等变量都是使用的list来进行存储的,这样才能符合pandas导出数据时的需要,最后调用to_csv()方法即可导出豆瓣电影的排行榜数据到文档里了。