最近经常有人问我,明明看着教程写个爬虫很简单,但是自己上手的时候就麻爪了。。。那么今天就给刚开始学习爬虫的同学,分享一下怎么一步一步写爬虫,直至抓到数据的过程。
首先是工具的准备:python3.6、pycharm、requests库、lxml库以及火狐浏览器
这2个库都是python的第三方库,需要用pip安装一下!
requests是用于请求网页,得到网页的源代码,然后用lxml库分析html源码,从中间取出我们需要的内容!
之所以用火狐而不用其他的浏览器,没有别的意思,就是习惯。。。
工具准备好以后呢,我们就可以开始我们的爬虫之旅了!今天我们的目标是抓取猫眼电影的经典影片部分,大约有8万多条数据
那么,现在整体思路就很明确了:请求网页==>>获取html源代码==>>匹配内容,然后在外面在加一步:获取页码==>>构建所有页的循环,这样就可以将所有内容都抓出来了!下面外面来写代码吧。
先导入2个库,然后用一行代码获取网页html,在打印一下看看结果
第17,18行,2行代码获取div标签下的所有文本内容,还记得那个评分吗?它不在一个标签下,而是2个标签下的文本内容合并的,所以用这种方式获取!
然后,用zip函数,将内容一一对应的写入txt文件里
至此,爬虫部分基本完成!先来看看效果吧,时间有限,就先抓前5页,代码和结果如下:
学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!