python批量爬取公众号文章,写给即将正在找工作的Python攻城狮

   日期:2024-12-26    作者:5cw1ak 移动:http://ljhr2012.riyuangf.com/mobile/quote/38548.html

html=response.text#得到网页的文本形式

python批量爬取公众号文章,写给即将正在找工作的Python攻城狮

print(html)

这里的请求头信息必须添加上cookie的信息,否则无法得到网页信息

网页的请求结果如下图所示,红色框标出的为我们需要的文章标题以及文章链接

2、解析网页

从得到的网页响应结果中我们可以看到,每篇文章的标题和链接都分别在"title"标签和"cover"标签后面,所以我们可以采用正则表达式直接对其进行解析

title=re.findall(‘“title”:“(.*?)”’,html)#得到文章标题

cover=re.findall(‘“cover”:“(.*?)”’,html)#得到文章链接

all=zip(title,cover)#利用zip方法,将两个列表中的数据一一对应

print(list(all))#list是对zip方法得到的数据进行解压

解析后结果如下

3、保存数据

for data in all:#for循环遍历列表

time.sleep(3)#每爬取一篇文章间隔3秒,以防触发反爬

with open(‘C:UsersAdministratorDesktop爬取公众号文章.csv’,‘a’,encoding=‘utf-8-sig’) as file:

#将数据保存到桌面

write=csv.writer(file)

write.writerow(data)

完整代码


import re#用来解析网页

import requests#用来请求网页

import csv#用来保存数据


特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号