一、打开网页找到url
二、查看数据是否存在于网页源代码中
三、编写代码获取网页源代码
1、获取电影名称
注意正则表达式的使用,先观察网页源代码,我们发现每一部电影的数据存放在一个<li></li>中,如上图。并且我们要获取的电影名前后的标签和下面一行的标签相同,如果我们直接使用电影名前后的标签来筛选数据,会出现下面情况:
因此我们需要找到其它的方法区别这两个位置:
2、按照同样的方法获取想要的内容
这里获取:电影名,时间,国家,评分,评价人数,短评
爬取的结果:
3、获取新的内容
点击第二页:获取新的url
成功获取新内容: