分享好友 最新动态首页 最新动态分类 切换频道
提取y通道 python
2024-12-27 10:28


提取y通道 python


文章目录

  • 说明:
  • 我的配置:
  • 目标网站:
  • 今天爬虫(手动提取url,发送get请求)
  • 1、创建项目+初始化爬虫文件:
  • 2、在setting中配置
  • 3、修改items.py:
  • 4、修改爬虫程序:spiders/scrapyd.py
  • ①、scrapy.Request()
  • ②、直接上我的代码:
  • 5、管道处理(一般都在这里进行数据清洗和数据储存操作):pipelines.py
  • 1、测试spider是什么:
  • 2、保存到MongoDB数据库:
  • 6、我刚学scrapy对itmes模块的一个疑问:
  • 1、我改为item={}
  • 2、我改为:item = ScrapydCnItem()
  • 3、对比,得出我认为的结论:


今天主要学习一下翻页的功能,手动翻页的效果,前面的基础操作这里不不再依次讲解截图说明了,如果不太懂,可以参考我的上一篇scrapy博客:

http://lab.scrapyd.cn/ 因为这个网站是get,响应的页面就能找到下一页的url,我记得之前测试翻页是用的腾讯招聘网站,但是现在腾讯招聘的页面改成异步获取的json数据了,如果真的爬取,我觉得直接使用requests模块比较方便,如果用scrapy,可以直接把开始的start_urls列表换成一个异步url列表集,我感觉使用scrapy那样爬取多此一举了。

比如这样,url列表集:

不过这样的我不写,这样的和我的第一个博客没有什么区别,只不过初始化的url列表数量多了而已。

生成文件:

这里我们只要三维数据,需要三个字段即可。

①、scrapy.Request()

这个只是和之前比这多了一个翻页功能,这个scrapy.Request()
里面有俩个必须要传递的参数,一个是url,一个是返回的函数,这里的parse是本身的方法中,继续处理数据直至页面结束,可以自己写多个方法,根据项目和网站需要定义方法,和需要的返回方法中。

其中还有几个常用的参数:


scrapy.Request()中几个常用参数解释:

②、直接上我的代码:

1、测试spider是什么:

下面是我测试的方法,之前使用过name属性进行过对不同的数据进行清洗和储存。你也可以自己研究测试。

2、保存到MongoDB数据库:

代码:

打印出的页面显示:

数据MongoDB存入成功:

不知道刚学scrapy时有没有和我一样,有这样一个疑问,爬虫程序中,我不继承items中的ScrapydCnItem类,直接用一个字典代替,其实,我的理解,如果不涉及过的爬虫数据类型保存,是一样的,但是如果涉及过多的类型数据保存,会影响数据的混乱保存。比如进入管道中的,一个程序中,我就有好几种数据分别保存到不同的数据库,这时,继承items中的dict数据进入管道pipelines.py就可以用

isinstance(item,ScrapydCnItem)

返回的是True和False,进行保存自己需要的数据类型,到对应的需求数据库中。


scrapy.Item进入源文件是继承一个dict类:


scrapy.Field() 进入源文件也是继承一个dict

爬虫文件中,我测试发现定义一个字典返回的管道数据中储存,结果和定义的items的类ScrapydCnItem最后进入管道的结果是一样的,但是类型不一样,最后我找到一个可以理解这定义这个items中ScrapydCnItem类dict的原因:

1、我改为item={}

爬虫spider/scrapyd.py中,改为item = {}:


pipelines.py中打印到处item类型,和print(“isinstance”,isinstance(item,ScrapydCnItem))

其中这个ScrapydCnItem类,是items.py中的目标数据字段的类。
from scrapyd_cn.items import ScrapydCnItem


上面的打印结果:

2、我改为:item = ScrapydCnItem()

爬虫spider/scrapyd.py中

pipelines.py中,用来打印出我的疑问


打印出管道中的结果:

3、对比,得出我认为的结论:

通过上面俩个打印出的结论,我也就自己给出了我的疑问答案,那就是,items的文件,在爬虫程序中继承过来的字段类型,看着是字典,但是可以根据这个进行不同的数据类型(根据继续的items中的类来体现),根据isinstance(item,ScrapydCnItem),ScrapydCnItem要改为你实际需求的数据类名,进行不同数据类型分开保存。

这也就是我自己对这个items中的定义目标数据字段的理解。

最新文章
高效建设攻略,搭建与优化关键步骤解析
搭建与优化是打造高效的关键。选择合适的和,确保稳定运行。设计简洁、直观的界面,提高用户体验。优化结构和内容,提高搜索引擎排名。定期并修复漏洞,保障安全。这些步骤将有助于打造一个高效、安全的。搭建优化在互联网迅猛发展的今天,
香港资料大全正版资料2024年免费|综合解答落实完美版220.300
香港资料大全正版资料2024年免费——综合解答完美版随着信息技术的快速发展,人们对于各类资料的需求也日益增长,香港作为一个国际化大都市,其资料种类繁多,涵盖了历史、文化、经济、教育等多个领域,本文将围绕香港资料大全正版资料展开
私域roi分析,告诉你怎么样的私域才能是合格的私域
市场营销获客工具【爱短链】全域跳转工具,打通私域引流关键一步:轻松将公域流量,引导至私域,通过链接点击直达,方便快捷,无风险提示跳转,助力企业/商家高速获客。》》点此获取链接我们关心如何如何来,如何保留,如何转化;也关心成
神经网络轻量化及硬件加速技术与应用
报告地点:吉林大学中心校区唐敖庆楼B521报告介绍1.神经网络轻量化及硬件加速技术与应用报告人简介姚美宝,吉林大学人工智能学院副教授,博士生导师,担任智能机器人实验室负责人。从事智能机器人,计算机视觉,控制理论及应用等研究,主要
谈谈“推荐系统”和“搜索引擎”两者间的关系、和异同点
原标题:产品经理需要了解:推荐系统和搜索引擎的关系注:本文作者结合自己的实践经验来为大家阐述推荐系统和搜索引擎两者之间的关系、分享自己的体会。从信息获取的角度来看,搜索和推荐是用户获取信息的两种主要手段。无论在互联网上,还
阿亮网创72计第2计:0基础1小时精通SEO,免费流量取之不尽(价值20万)
第2计:0基础1小时精通SEO,免费流量取之不尽(价值20万)在网赚圈有一个绝对真理:流量就等于钱,精准流量就等于很多钱。如何才能在完全免费的情况下, 源源不断的获取海量的精准流量? 纵观整个互联网,唯独seo能够做到。什么是seo?seo就
谷歌SEO优化时,为何internal page会替代home page显示?
在SEO的浩瀚世界里,每一个细节都关乎网站的生死存亡。我曾无数次深入探索,试图揭开谷歌搜索引擎的神秘面纱。今天,我想和大家聊聊一个有趣且至关重要的现象:在谷歌SEO优化过程中,为何internal page(内页)有时会替代home page(首页)
百度关键词优化软件排名,哪款工具更高效提升搜索排名?
在当下这个信息爆炸的时代,搜索引擎优化(SEO)成为了众多网站和企业在网络世界中立足的关键。而百度,作为中国最大的搜索引擎,其关键词优化更是众多网络营销策略中的重中之重。基于我多年的实战经验和对行业的深刻理解,我发现选择合适
第六章(项目进度管理)
项目进度管理包括为管理项目按时完成所需的各个过程。 项目进度计划(Schedule)说明了项目如何以及何时交付项目范围中定义的产品、服务 和成果。创建 WBS 最底层得到的是工作包,但是为了更好的估算活动持续时间和活动
QQ群排名引流的两种方式,适合各类粉丝
QQ群大家都不陌生,可以说是在微信群之前最火的了。虽然说现在它的热度已经没有那么高了,但是并不影响我们利用它进行引流操作。虽然本篇文章的标题写的是群排名引流,不过我今天分享的是QQ群的两种引流方式。方式一相信大家也碰到过,不管
相关文章
推荐文章
发表评论
0评