分享好友 最新动态首页 最新动态分类 切换频道
python爬虫实例100例-Python爬虫实例
2024-12-29 08:59

importrequestsfrom bs4 importBeautifulSoupfrom datetime importdatetimeimportreimportjsonimportpandas

news_total=[]

commentURL='http://comment5.news.sina.com.cn/page/info?version=1&format=js&channel=gn&newsid=comos-{}&group=&compress=0&ie=utf-8&oe=utf-8&page=1&page_size=20'url='http://api.roll.news.sina.com.cn/zt_list?channel=news&cat_1=gnxw&cat_2==gdxw1||=gatxw||=zs-pl||=mtjj&level==1||=2&show_ext=1&show_all=1&show_num=22&tag=1&format=json&page={}&callback=newsloadercallback&_=1509373193047'

defparseListLinks(url):

newsdetails=[]

res=requests.get(url)

jd= json.loads(res.text.strip().lstrip('newsloadercallback(').rstrip(');'))for ent in jd['result']['data']:

newsdetails.append(getNewsDetail(ent['url']))returnnewsdetailsdefgetNewsDetail(newsurl):

result={}

res=requests.get(newsurl)

res.encoding='utf-8'soup=BeautifulSoup(res.text,'html.parser')

result['title']=soup.select('#artibodyTitle')[0].text

result['newssource']=soup.select('.time-source span a')[0].text

timesource=soup.select('.time-source')[0].contents[0].strip()

dt1=datetime.strptime(timesource,'%Y年%m月%d日%H:%M')

result['dt'] =dt1.strftime('%Y-%m-%d-%H:%M')

result['article']=' '.join([p.text.strip() for p in soup.select('#artibody p')[:-1]])

result['editor']=soup.select('.article-editor')[0].text.strip('责任编辑')

result['comments']=getCommentCounts(newsurl)print('获得一条新闻')returnresultdefgetCommentCounts(newsurl):

m=re.search('doc-i(.+).shtml',newsurl)

newsid=m.group(1)

comments=requests.get(commentURL.format(newsid))

jd=json.loads(comments.text.strip('var data='))return jd['result']['count']['total']for i in range(1,8):print('正在爬取第'+str(i)+'页......')

newsurl=url.format(i)

newsary=parseListLinks(newsurl)

news_total.extend(newsary)print('抓取结束')

df=pandas.DataFrame(news_total)

最新文章
网站排名优化对竞争对手的解剖
相信很多人都知道,SEO优化有利于推广企业的形象,但是在这其中就会涉及到与对手之间的竞争,为你介绍一下seo优化要从哪些方面分析竞争对手。一、从网站优化数据分析想要做好网站优化,就要学会借助第三方工具,这样不仅能够获得想要的数据
推荐6个好用的德语搜索引擎
给大家推荐几个可以流畅使用的德语搜索引擎,下回想要查找某些德语关键词的相关德语网页时,就试着用用这些吧,亲测可用哦!一起来看看吧!1. de.search.yahoo.com雅虎德国(yahoo.de)的搜索页,也是网校君平时最常用的一款,比较稳定,可
商家如何在搜索流量竞争中获胜的五大秘诀
在数字经济时代,搜索流量成为企业获取客户的重要渠道。不同类型的商家在这一领域中竞争激烈,如何获得更高的曝光率、改善搜索排名,直接关系到企业的生存与发展。本文将探讨特色餐饮、零售、服务、新兴行业及本地商家如何巧妙运用搜索优化
基于WordPress搭建个人网站(超详细图文系列)
写给曾经与自己一样想要拥有一个个人博客但没有资金成本的小白。文章目录    个人网站,一般也可以狭义的说是个人博客。有的人会说有个博客不是很简单吗?比如在新浪、网易、CSDN上注册个人博客。但它们是基于他人公司的服务器和网站模
网站方案策划
网站方案策划通用  为了确保事情或工作能无误进行,常常需要提前准备一份具体、详细、针对性强的方案,方案指的是为某一次行动所制定的计划类文书。你知道什么样的方案才能切实地帮助到我们吗?下面是小编收集整理的网站方案策划通用,仅
创新驱动发展:发展新引擎 动能更强劲
  【十年答卷】  光明日报记者 杨舒 刘坤  第11位!不久前,世界知识产权组织发布《全球创新指数2022》,这是我国在其中的最新国际排名。从2012年的第34位跃升至2022年的第11位,十年跨越,折射出中国创新能力持续攀升的勃勃态势。 
金圣青花瓷多少钱一包烟 金圣青花瓷烟价格及图片
金圣青花瓷多少钱一包烟,金圣青花瓷烟一般是指智圣出山产品,在市场上很受欢迎,市场价格也很高。一般很难买到。那么这款金圣青花瓷烟的价格是多少呢?具体价格下面跟着小编一起来了解下。1、金圣(智圣出山)参考价:100元/包金圣(智圣出山)
超逼真美女写真生成:AI工具评测与实用教程大全!
搜狐简单AI 是一款功能丰富、易于上手的AI生成工具,旨在为广大用户提供优质的AI画作体验。它具备多样的模板选择,用户可以选择不同的风格,非常适合初学者和普通用户。这款工具的最大优势就是完全免费,适用于大多数需要生成美女写真的人
SEO怎么实现页面加载速度优化
优化页面加载速度对于提升用户体验和搜索引擎排名至关重要。本文将从以下几个角度进行探讨:第一,技术优化,包括使用CDN和压缩文件;第二,图片优化,确保快速加载;第三,简化代码,减少冗余元素。我们将深入探讨技术优化这一主题。CDN可
相关文章
推荐文章
发表评论
0评