分享好友 最新动态首页 最新动态分类 切换频道
爬取淘宝商家货物简单销售数据(销量,价格,销售地,货物名称)
2024-11-07 23:08

爬取淘宝商家货物简单销售数据(销量,价格,销售地,货物名称)

前天接一个爬取淘宝商家(自行车)信息的请求,要求数据按照其销售量排行。

完成该请求后,爬取数据(李宁卫衣)如下在这里插入图片描述

接下来看如何实现的

首先打开淘宝网:https://www.taobao.com/,在搜索栏输入自行车,结果发现页面转跳到https://login.taobao.com/member/login.jhtml 淘宝登录页面,要求登录才能进行关键字搜索获取数据。(需要登录的时候应当想到cookies

cookies 及其用处: 当我们登录某网站时,服务器会生成一个cookies,包含有用户登录等信息,与当前账号绑定,浏览器将此cookies存储到。下一次,浏览器带着cookies访问网站,就不需要在输入账号密码。注意cookies是有时效性的。

所以,目标明确,第一步,获取用户登录的cookies

需要登录淘宝页面获取cookies,才能执行后续操作。而模拟登录有两种方法

  • 搞清淘宝登录机制,修改参数登录。(借鉴裸睡的猪 猪哥的文章
  • 使用selenium调用webdriver模块,模拟人真实的操作浏览器。

方法一:直接看源码+备注,具体原因看猪哥的解释(当然代码是自己写的啊,思想借用

 

在自行登录以后,把参数都复制到Data里替换掉代码中的data就可以。 在这里插入图片描述

方法二:使用selenium调用webdriver模块(自己写的,所以解释详细点

前提是安装了Chorm driver插件,Chorm插件下载地址。 下载完成后,解压到python根目录下即可。

driver可以模拟人在目标栏目输入,也可以模拟人对按钮进行点击。

对登录页面以及源码进行分析:发现在这里插入图片描述

 

所以,代码如下:在账号密码框里输入内容,点击登录进行登录.

 

注意,有时候登录时需要滑动滑块,手动滑动登录即可。

到此用户操作所用cookies的已经获取,这时候就可以搜索关键字了

进入搜索页:https://s.taobao.com/search? 输入关键字,观察url变化 在这里插入图片描述

我们发现q参数对应着搜索内容。然后翻动页面,来到第二页,观察url变化,发现变化的有s参数 在这里插入图片描述

研究多个页面发现,url需要修改的参数只有q与s。

在翻页的过程中,发现我们所需要的内容在Response的第0个回应中,即存在于Element中,所以只要获取到该网页的源码,就可以获取到数据。 在这里插入图片描述

所以使用https://s.taobao.com/search?q=自行车&s=88 这个格式(q表示搜索的关键字,s*44代表页数)的链接就可以访问带有数据的源码。

所以代码如下

 

这是我爬取的一个李宁卫衣的网页源码,发现重要信息保存在一个大字典:g_page_config中 在这里插入图片描述 在这里插入图片描述

所以我们可以通过正则表达式获取这个大字典,然后逐一提取各数据。或者直接正则各数据提取,我们采用第二种方法。

 

到这里已经把所有有效数据存储到title,location等变量中。它们均为字符串列表

使用csv保存数据

 

因为要求数据要根据销量降序排列,而销量数据格式为字符串。分析源码,发现源码中销量的表示一般有’8000+’、‘1.6万+’、‘784’这几种表示。即如果销量小于10000,则按照 ‘具体数字’ 或 ‘具体数字+’ 这样表示,如’845’、‘3500+’,如果数据大于一万,则会在后续加个万字, 如’1.6万+’,‘5.8万’,强转为float时需要做判断

所以,通过条件判断语句和if else判断

 

还有一个发现就是,商品的链接与nid是有关系的,具体关系如下

 

到此代码已经分析完毕,源码如下,登录时修改自己的账号密码,以及文件的保存路径即可

最新文章
云国际代理商
如何在全球市场中通过精准引流成为腾讯云国际代理商的成功者 在全球数字化转型的浪潮中,云计算已经成为企业信息化建设的核心。腾讯云作为中国领先的云计算服务提供商,正在积极扩展国际市场,为全球各地的企业提供高效
鄭欽文奪冠“點燃”成都網球熱情
當地時間8月3日,鄭欽文在巴黎奧運會網球女單決賽中直落兩盤擊敗克羅地亞選手維基奇,拿到中國和亞洲首枚奧運會網球單打金牌,創造了歷史。鄭欽文奪冠后,不僅網球的討論熱度飆升,相關消費與產品的搜索也直線上漲。在某社交平台上,標注“
资本市场助力撬动循环经济,深企格林美“变废为宝”跃升创新优势企业,重金投向研发增强核心竞争力
开栏语:数据显示,深市公司2022年实现营业总收入20万亿元,同比增长7%,近六成公司收入正增长,其中研发投入超6600亿元,同比增长15%,近七成研发资金投向先进制造、数字经济、绿色低碳领域,成为企业保持长期增长的稳定动力。积极投入技
精灵SEO统计,网站优化利器,揭秘搜索引擎排名提升秘籍
精灵SEO统计,一款专为网站优化设计的高效工具,助您快速提升搜索引擎排名,成为网站优化的秘密武器。在互联网时代,搜索引擎优化(SEO)已经成为和不可或缺的一部分,为了帮助广大网站管理者更高效地进行SEO工作,众多SEO工具应运而生,我
推荐三款小说生成工具:一键生成故事与的软件,轻松创作独特作品
在如今这个信息爆炸的时代文学创作不再是少数人的专利。无论是小说家、家还是业余创作者都可借助科技的力量轻松打造出属于本人的独到作品。小说生成工具的出现为广大创作者提供了无限的可能性,只需一键操作,就能生成故事大纲、人物关系甚
ChatGPT中文版网页
ChatGPT中文版网页是一款十分好用的ai聊天软件,在ChatGPT中文版网页中,软件涵盖了多种智能聊天功能,多元化的服务,满足各用户不同需求,用户可以随意提问题,流畅回复,感受智能的对话服务。软件内存很小,不会占用手机太多的内存空间,
开服即被挤爆,AI新拐点来临!
昨日,OpenAI视频生成模型Sora正式版终于发布!此次发布的Sora Turbo,为原始Sora模型的全新高端加速版本,用户不仅可以通过文字提示生成视频,还能将静态图片转化为动态视频,甚至可以对现有视频进行创意改编。作为OpenAI“王炸”产品,So
【经验分享】含多酚多糖植物材料RNA的提取方法
观察与问题笔者在2023年10月至2024年6月跟随师兄对番茄中某转录因子进行研究,研究过程中笔者提取了模式番茄(Solanum lycopersicum)多个生长阶段中各器官RNA超60组。在使用TIANGEN公司RNAprep Pure多糖多酚植物总RNA提取试剂盒(离心柱型
生成式AI新时代:OpenAI、DeepMind与端侧智能的巨变
随着生成式AI技术的不断演进,我们见证了多个重量级产品和平台的重大进展。从OpenAI发布的新模型到DeepMind的视觉语言模型,再到国内端侧智能公司的融资动态,AI领域正迎来一场竞争与创新的热潮。OpenAI的猎户座模型泄露最新消息显示,Open
SEO网站关键词排名优化,提升网站流量与转化率的秘籍解析,揭秘SEO,关键词优化秘籍,助你网站流量与转化率双提升
SEO网站关键词排名优化秘籍解析:通过深入分析关键词策略、优化网站结构和内容质量,有效提升网站在搜索引擎中的排名,从而增加流量和转化率。 *** 包括合理布局关键词、优化页面加载速度、增强用户体验等。掌握这些技巧,助力网站在竞争中
相关文章
推荐文章
发表评论
0评