python入门，手把手教你写爬虫，一文了解简单的数据抓取

最近经常有人问我，明明看着教程写个爬虫很简单，但是自己上手的时候就麻爪了。。。那么今天就给刚开始学习爬虫的同学，分享一下怎么一步一步写爬虫，直至抓到数据的过程。

首先是工具的准备：python3.6、pycharm、requests库、lxml库以及火狐浏览器

这2个库都是python的第三方库，需要用pip安装一下！

requests是用于请求网页，得到网页的源代码，然后用lxml库分析html源码，从中间取出我们需要的内容！

之所以用火狐而不用其他的浏览器，没有别的意思，就是习惯。。。

工具准备好以后呢，我们就可以开始我们的爬虫之旅了！今天我们的目标是抓取猫眼电影的经典影片部分，大约有8万多条数据

那么，现在整体思路就很明确了：请求网页==>>获取html源代码==>>匹配内容，然后在外面在加一步：获取页码==>>构建所有页的循环，这样就可以将所有内容都抓出来了！下面外面来写代码吧。

先导入2个库，然后用一行代码获取网页html，在打印一下看看结果

第17，18行，2行代码获取div标签下的所有文本内容，还记得那个评分吗？它不在一个标签下，而是2个标签下的文本内容合并的，所以用这种方式获取！

然后，用zip函数，将内容一一对应的写入txt文件里

至此，爬虫部分基本完成！先来看看效果吧，时间有限，就先抓前5页，代码和结果如下：

学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行