【python爬虫案例】利用python爬取豆瓣电影TOP250评分排行数据！

今天给大家分享一期豆瓣读书TOP排行榜250的python爬虫案例

爬取的目标网址是：https://movie.douban.com/top250

咱们以目标为驱动，以兴趣为导向，先来看下爬虫程序运行后得到的excel文档数据

那代码是如何实现豆瓣电影TOP250数据爬取的了？下面逐一讲解一下python实现。

通过浏览器F12查看所有请求，发现他并没有发送ajax请求，那说明我们要的数据大概率是在html页面内容上。

于是我们点击右键->查看网页源代码，发现我们需要的豆瓣电影评分的排行榜数据都在html页面里

这就简单了，我们直接往下看，上代码。

首先，导入我们需要用到的库

然后，向豆瓣电影TOP250的网页发起请求，获得html页面内容

用lxml库解析html页面

使用xpath来提取我们需要的排行榜数据内容

其中，需要特殊说明的是，第3页《窃听风暴》这部电影和其他电影页面排版不同：

这部电影只有导演，却没有主演信息，所以会有个异常处理的代码

还有就是有些电影，他的年份、国家、类型的格式有细微的不同之处，所以也需要特殊处理一下。

最后，我们将爬虫爬取的数据保存到csv文档里

上面的movie_names、urls等变量都是使用的list来进行存储的，这样才能符合pandas导出数据时的需要，最后调用to_csv()方法即可导出豆瓣电影的排行榜数据到文档里了。

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行