python 看微信文章增加阅读量 python爬微信公众号文章

分享好友最新动态首页最新动态分类切换频道

python 看微信文章增加阅读量 python爬微信公众号文章

2024-12-26 11:27

微信公众号是目前最为流行的自媒体之一，上面有大量的内容，如何将自己感兴趣的公众号内容爬取下来，离线浏览，或者作进一步的分析呢？

下面我们讨论一下微信公众号文章的爬取。

windows 7 x64
python3.7 (Anaconda 3)
vscode编辑器
Firefox开发版

首先网页登陆微信公众平台(https://mp.weixin.qq.com/)，登陆成功后，点击新建群发->自建图文,插入超连接在如下的对话框中，点击选择其他公众号。

在弹出的编辑超链接的对话框中，输入想要爬取的公众号名字，回车

下拉列表中第一个就是我们想找的，点击它，弹出的这个公众号的文章列表，是按照时间排序的。

我们看一下这个过程中前后端交互的HTTP请求和响应。

请求url: https://mp.weixin.qq.com/cgi-bin/searchbiz
方法: GET
提交的参数为

请求中的字段

action 动作
begin 列表的起始
count 列表的数目
query 查询的字符串
f 参数格式这里为json
ajax 应该代码ajax请求
lang 语言这里是中文
token 这应该是授权信息，下文会深究

得到的响应为

响应中各字段的含义不难看出

fakeid 为该公众号的唯一的id，为一串bs64编码
nikename 为公众号的名称
alias 为别名
round_head_img 为圆形logo的url
service_type 服务类型不太清楚没必要深究用不到

请求网址:https://mp.weixin.qq.com/cgi-bin/appmsg
请求方法:GET
提交的参数：

action 行为
begin 列表开始索引
count 列表返回的公众号的时间区间长度，如5表示返回5天的数据
fakeid 这个公众号的ID
type 不知道
query 检索的关键字，这里为空
token 用户的token
lang 语言
f 数据格式,这里为json
ajax

响应为

响应的字段

app_msg_cnt 表示这个公众号已经发布了919次文章，不代表919篇文章
aid 文章唯一的id，应该是
appmsgid 代表一次群发，如三篇文章是一次性群发的，其appmsgid相同
cover 文章封面图片的url
create_time 创建时间戳
digest 文章的摘要信息
is_pay_subscribe
item_show_type
itemidx 在这次群发中的序号
link 文章的url
tagid 为一个列表
title 文章的标题
update_time 文章更新的时间戳
这些已经包含了一篇文章的元数据了。

上面的GET方法提交的参数有中都有个token字段，这个字段的用途应该鉴权用的，这个值从哪儿来的？我们在前面的HTTP请求中找，发现几乎所有的请求中的都带有这个token，我猜测这个token是用户登陆时从后端返回来的。
为了印证这个判断，重新登陆一次，发现了有这样的一个HTTP请求。
请求网址:https://mp.weixin.qq.com/cgi-bin/bizlogin?action=login
请求方法:POST
表单数据:

响应：

后端返回了一个重定向的uri，其中就包含了token的值。
完成这个请求后，页面进行了重定向，并且以后的每次请求都有会有lang=zh_CN&token=xxxx这两个参数。

完成了上面这些分析，下面我们进行代码实现。

可以看到，所有文章的元数据已经存入数据库了。
下一节，我们讲如何利用文章的url来爬取文章内容，这个比较简单。
这儿还存在一个问题，腾讯的这个接口有频率限制，当爬取的次数太多，频率太快时，就请求不到数据了，会返回这样的信息。

至少间隔一天，这个账号才能继续爬取，不知道如何破解。