分享好友 最新动态首页 最新动态分类 切换频道
scrapy爬取微信公众号内容,多管道储存,orm数据储存
2024-12-18 19:08
  • 基本介绍:基于异步爬虫的框架。高性能的数据解析,高性能的持久化存储,全站数据爬取,增量式,分布式…
  • 环境的安装

- Linux

scrapy爬取微信公众号内容,多管道储存,orm数据储存

 

- Windows

 
  • scrapy基本使用
    • 工程的目录结构

      • spiders文件夹: 这里存放爬虫的主程序,这里可以写多个爬虫文件,分别执行不同的爬虫功能。
        • 要求:必须要存储一个或者多页爬虫文件
      • items.py: 这个文件定义了爬虫程序中爬取的字段信息,对应着数据库中的属性信息。
      • middlewares.py: 下载中间件,可以对爬取到的网页信息尽心特定的处理。
      • pipelines.py: 管道,也就是将返回来的item字段信息写入到数据库,这里可以写写入数据库的代码。
      • settings.py: 配置文件。
    • 2.创建爬虫文件

      • cd proName
      • scrapy genspider spiderName www.xxx.com
    • 3.执行工程

      • scrapy crawl spiderName
      • 重点关注的日志信息:ERROR类型的日志信息
        • settings.py:LOG_LEVEL = ‘ERROR’
        • settings.py:不遵从robots协议
        • settings.py:
        • UA伪装:USER_AGENT = ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36’

settings.py代码参考以及配置意思的含义:

 
数据解析
 
 
 

打开spiders文件夹下爬虫文件
wechat/wechat/spiders/wechatspider.py

代码如下:

 
持久化存储
 
  • 基于终端指令的持久化存储
    cd 项目文件下
    用命令把爬取课程名和url地址存在本地
 
 
  • 基于管道的持久化存储
    1.spider文件下得爬虫文件wechatspider.py
 

2.items.py代码

 

3.去settings里开启管道配置。

 
 
 

4.1 封装管道类,把数据储存到mysql里 ; pipelines.py代码:
,我比较懒,不喜写SQL语句,用sqlalchemy来处理的。

mysql 创建库:

create database wechat charset utf8mb4;

cd spiderst同级目录下
mkdir docs
新建models.py:

 

执行命令:

alembic init migrations

修改alembic.ini、enc.py代码 ,参考:https://blog.csdn.net/yutu75/article/details/117362459
也可以自行百度如何迁移

alembic revision --autogenerate -m “v1”

alembic upgrade head

修改pipelines.py,代码:
下面封装了三个管道类

txt文件,mysql,Redis

 

执行命令 :

scrapy crwal wechatspider

储存后txt

持久化储存的知识点总结
 
redis的基础使用
 
全站数据爬取
最新文章
无需谷歌搜索,教你11个高级搜索技巧!
我是汤老师一个放纵不羁爱自由的人在这里我希望你们不受约束尽情嗨众所周知,谷歌搜索在中国无法使用,鉴于国内的搜索引擎搜索命中率的问题,很多用户在怀念谷歌,也有很多用户仍然在通过各种方式使用谷歌,在大多数情况下用户都是通过基本
101种获取优质链接的方法
1.搞一个XXX的101个方法。这种文件经常被引用,经常会成为权威文件。人们没法不链接向这种表列。2.写一篇“帮你XXX的10个窍门”文章。非常容易得到链接。3.针对某个话题总结一个完整的参考资料列表。4.
什么是思维导图,在线思维导图对SEO有用吗?
在我多年的SEO优化与项目管理经历中,我发现,无论是策划内容框架还是梳理复杂信息,思维导图都是一个不可或缺的工具。它不仅帮助我更清晰地思考,还无形中促进了创意的碰撞。今天,我们就来聊聊什么是思维导图,以及在线思维导图在SEO优化
揭秘 SEO 按天扣费模式的猫腻,你知道多少?
关键词每日扣费一定靠谱吗?近年来,SEO行业形势不断发生变化,各种新的SEO计费方式和营销模式不断涌现。如今,大多数SEO公司都采用每日扣费的模式来吸引客户。事实上,每日抵扣模式还有很多技巧。今天,就带大家了解一下一家公司的日常扣
专业SEO关键词优化:提升网站排名,打造互联网流量利器
为了让您的网站在激烈的市场竞争中占据有利位置,进行精准的关键词优化是必不可少的。如何才能进行高效且专业的SEO关键词优化呢?我们将为您介绍几个关键的优化步骤。关键词研究是SEO优化的第一步,也是最为基础和重要的一步。通过关键词研
Copilot插件:时时陪伴的AI助手 | Obsidian实践
这段时间,有点儿沉迷于AIGC实践不可自拔,也因此懈怠了Obsidian实践。回过头来猛然发觉,其实Obsidian也“上架”了很多与ChatGPT有关的插件。赶紧体验下,看看有没有什么,是一下子就能用起来的。不得不说,自从我安装了Copilot插件,就再
seo优化推广如何 SEO优化推广效果与策略解析
SEO优化推广如何:掌握数字时代的营销利器在当今数字化迅猛发展的时代,企业的在线可见性和品牌影响力变得至关重要SEO(搜索引擎优化)作为一种有效的数字营销策略,不仅能够帮助企业在竞争激烈的市场中脱颖而出,还能带来持续、稳定的流量
宁波SEO服务热线汇总,助力网站快速提升排名抢占市场优势
宁波SEO厂商电话一览,为您提供专业SEO服务,助您快速提升网站排名,抢占市场先机。涵盖多家知名SEO公司,详尽联系方式,让您轻松选择,高效优化网站,助力企业发展。随着互联网的快速发展,企业对网络营销的需求日益增长,SEO(搜索引擎优
Python开发QQ聊天机器人——Yes酱的部署与调教
Yes酱是一个会发s图的群管理机器人,基于 go-cqhttp,使用OneBot标准的插件开发的一个机器人,支持以下功能:发送setu/猫猫图返回一张涩图/猫猫图检测关键字禁言私聊调教对话本文主要参考了其官方博客,结合Yes酱的github和go-cqhttp的gith
2024 (图文)Yoast SEO插件使用教程,详细设置步骤
  Yoast SEO是著排名第一的。插件有Yoast SEO(免费)和Yoast SEO Premium(付费)有两个版本  Yoast SEO可以完美地在所有类型的网站或上实现SEO相关的设置。可帮助您编写更好的且经过优化的内容让搜索引擎收录。该插件的免费版本还具
相关文章
推荐文章
发表评论
0评