分享好友 最新动态首页 最新动态分类 切换频道
python 看微信文章增加阅读量 python爬微信公众号文章
2024-12-26 11:27


微信公众号是目前最为流行的自媒体之一,上面有大量的内容,如何将自己感兴趣的公众号内容爬取下来,离线浏览,或者作进一步的分析呢?

下面我们讨论一下微信公众号文章的爬取。

  • windows 7 x64
  • python3.7 (Anaconda 3)
  • vscode编辑器
  • Firefox开发版

首先网页登陆微信公众平台(https://mp.weixin.qq.com/),登陆成功后,点击新建群发->自建图文,插入超连接在如下的对话框中,点击选择其他公众号。


在弹出的编辑超链接的对话框中,输入想要爬取的公众号名字,回车


下拉列表中第一个就是我们想找的,点击它,弹出的这个公众号的文章列表,是按照时间排序的。


我们看一下这个过程中前后端交互的HTTP请求和响应。

请求url: https://mp.weixin.qq.com/cgi-bin/searchbiz
方法: GET
提交的参数为

请求中的字段

action 动作
begin 列表的起始
count 列表的数目
query 查询的字符串
f 参数格式 这里为json
ajax 应该代码ajax请求
lang 语言 这里是中文
token 这应该是授权信息,下文会深究

得到的响应为

响应中各字段的含义不难看出

fakeid 为该公众号的唯一的id,为一串bs64编码
nikename 为公众号的名称
alias 为别名
round_head_img 为圆形logo的url
service_type 服务类型 不太清楚 没必要深究用不到

请求网址:https://mp.weixin.qq.com/cgi-bin/appmsg
请求方法:GET
提交的参数:

action 行为
begin 列表开始索引
count 列表返回的公众号的时间区间长度,如5表示返回5天的数据
fakeid 这个公众号的ID
type 不知道
query 检索的关键字,这里为空
token 用户的token
lang 语言
f 数据格式,这里为json
ajax

响应为

响应的字段

app_msg_cnt 表示这个公众号已经发布了919次文章,不代表919篇文章
aid 文章唯一的id,应该是
appmsgid 代表一次群发,如三篇文章是一次性群发的,其appmsgid相同
cover 文章封面图片的url
create_time 创建时间戳
digest 文章的摘要信息
is_pay_subscribe
item_show_type
itemidx 在这次群发中的序号
link 文章的url
tagid 为一个列表
title 文章的标题
update_time 文章更新的时间戳
这些已经包含了一篇文章的元数据了。

上面的GET方法提交的参数有中都有个token字段,这个字段的用途应该鉴权用的,这个值从哪儿来的?我们在前面的HTTP请求中找,发现几乎所有的请求中的都带有这个token,我猜测这个token是用户登陆时从后端返回来的。
为了印证这个判断,重新登陆一次,发现了有这样的一个HTTP请求。
请求网址:https://mp.weixin.qq.com/cgi-bin/bizlogin?action=login
请求方法:POST
表单数据:

响应:

后端返回了一个重定向的uri,其中就包含了token的值。
完成这个请求后,页面进行了重定向,并且以后的每次请求都有会有lang=zh_CN&token=xxxx这两个参数。

完成了上面这些分析,下面我们进行代码实现。

可以看到,所有文章的元数据已经存入数据库了。
下一节,我们讲如何利用文章的url来爬取文章内容,这个比较简单。
这儿还存在一个问题,腾讯的这个接口有频率限制,当爬取的次数太多,频率太快时,就请求不到数据了,会返回这样的信息。

至少间隔一天,这个账号才能继续爬取,不知道如何破解。


最新文章
2024年浙江公路设计加盟设立分公司的标准+2024top5公路设计加盟榜单汇总
2024年浙江公路设计加盟设立分公司的标准+2024top5公路设计加盟榜单汇总
ai人工智能教室布置,ai人工智能教室布置图
1、在教育行业,我们怎么利用人工智能2、智慧教室是什么意思?3、如何在班级教室的墙上布置画板?4、在教育行业,我们怎么利用人工智能?1、语音识别和语音合成:人工智能技术可以应用于语言教育,提供智能化的语音识别和语音合成工具,以提高学
AI绘画:轻松生成高清美女写真,简单易上手的工具推荐与实用教程
在这个数字化的时代,想象一下,你只需要几次点击,就能生成一张纹理细腻、神情动人的高清美女写真,简直太神奇了吧!而这些美丽的图像正是通过AI绘画工具所创造的,这些工具帮助无数创作者、设计师和普通用户,轻松实现自己的视觉梦想。宝
ChatGPT搜索与Her开放,搜索免费开放,甚至连剧透明日直播主题都没有。
今天ChatGPT带来的是搜索功能有些迭代升级方面(更像谷歌)。 主要有三点,个人认为最大的亮点是第二点: 依据用户反馈,对搜索体验进行优化,移动电话端搜索速度更快,可以搜索多模态信息;结合前几天发布的Her功能,可在即时通话时进行语音
2024新澳正版免费资料|词语作答释义解释
词语作答释义解释与免费资源的深度解析(2024版)随着科技的进步和互联网的普及,信息获取变得日益便捷,在这样一个时代背景下,新澳正版资料”的需求也日益增长,本文将围绕“新澳正版资料”、“词语作答释义解释”等关键词展开,探讨如何
HTTPS 和 SSL 证书对 SEO 为什么重要?
SEO就像是一场永不停歇的比赛,因为那些大搜索引擎(比如谷歌)总是在改进它们找网页的方法。不过,有件事情对你的网站在这场比赛里表现得好非常重要,那就是安装HTTPS和SSL证书。想象一下,谷歌有个报告说,现在用Chrome浏览器上网的人,
2024排名靠前:烟台前十不孕不育医院-烟台不孕不育医院排行榜(问诊挂号)
烟台不孕医院排名:1、烟台丽华医院,2、烟台丽华不孕不育医院,3、烟台丽华医院妇科。排卵障碍是导致女性不孕的主要因素,约占女性不孕因素的40%。由于下丘脑-垂体-卵巢性腺轴功能障碍,细胞及其周围的颗粒卵丘细胞从卵巢异常排出。临床表
360借条逾期多久会被起诉?真还不上怎么办?全攻略!
360逾期会被起诉吗?若无法偿还,应怎样解决?导语:随着互联网金融的应该快速发展,多人开始将资金投入到网贷平台中。部分借款人由于不可抗力等起因,也许会无法准时偿还借款。本文将就360逾期是不是会被起诉以及对借款人而言怎样妥善解决
1218早报|OpenAI免费开放ChatGPT搜索功能;阿里74亿出售银泰净亏93亿
语言游戏让AI自我进化,谷歌DeepMind推出苏格拉底式学习OpenAI免费开放ChatGPT搜索功能图森未来发布图生视频开源大模型“Ruyi”阿里74亿出售银泰净亏93亿《黑神话:悟空》天命人1比1雕像预售字节否认与中兴通讯成立新品牌百度回应进军短剧
2025-2030年中国锂电池隔膜行业投资规划及前景预测报告
锂离子电池是现代高性能电池的代表,由正极材料、负极材料、隔膜、电解液四个主要部分组成。隔膜是一种具有微孔结构的薄膜,是锂离子电池产业链中最具技术壁垒的关键内层组件,在动力电池中成本占比约为10-20%。隔膜在锂电池中主要起到隔绝
相关文章
推荐文章
发表评论
0评