分享好友 最新动态首页 最新动态分类 切换频道
python爬虫学习笔记(1)
2024-11-03 05:46

本人使用了anaconda3中的python3环境,进行爬虫的环境为anaconda中的spyder,使用anaconda具体详细原因及安装教程可见
Anaconda3详细安装使用教程及问题总结

python爬虫学习笔记(1)

request就是请求的意思,主要用于url信息的请求

urlopen()

urllib.request.urlopen(“网址”)
实现向该网站发起访问请求,并获取响应结果。

urlopen()详细介绍可见python中urlopen()介绍
urlopen()方式所请求的网址访问不能设置用户代理,不支持重构User-Agent,初步认为代理是用于模仿浏览器访问网页所设置的,这个可以看作是爬虫与反爬虫作斗争的第一步。
关于网页的编码方式想了解更多可以参考网页编码方式

Request()

这个函数看着很奇怪,因为他就是之前urllib中request模块中首字母r进行大写后的名称。
通过Request()方式请求访问网址可用进行重构User-Agent,操作为

通过上面的直接使用urlopen()以及先用Request()构造新的User-Agent在使用urlopen()打开,可以看出来,url本身就可以作为urlopen的参数,也可以通过Request给url加了个headers后,再作为urlopen的参数。
更多的浏览器请求头可以参考浏览器User-Agent汇总

parse的意思是解析,这个模块主要就是用于encode转码操作。

urlencode()

按我的理解,urlencode()是的作用说白了就是将{key:value}构造成的key=encode(value)字符串格式,用于url的构造。举例

可见我们再爬取网页时首先就要对网页的url有充分的了解,关于百度网址的参数解析可以参考百度搜索网址参数解析

很奇怪的是,parse中虽然提供了{key:value}的urlencode方式,却没有对应的urldecode方式。下面介绍另一种编码方式。

quote

quote简单粗暴,它就是直接将value的值进行编码,转换为%e8…。
在拼接url的时候就可以直接

quote就有对应的反quote的函数,unquote,顾名思义,就是进行解码。

html打开出现乱码

在学习过程中,对代码还不是很理解,导致将他人代码敲入后,爬取了信息把并存入了一个html文件,结果打开出现乱码。
已解决
html文件打开出现乱码,但将其转换为txt格式打开确实有正常代码的,查明原因后知道了是由于编码解码方式等原因而导致的。
一开始我是直接将文件另存时,设置其编码方式,在新建文件打开时正常显示。后发现了原因,是在从网页爬取信息下来的时候解码方式是utf-8,然而在保存至html文件中时选择的是gb18030的方式,将其修改为utf-8后正常显示。但所参考的代码的作者意图就不得而知了。

进行百度搜索时,出现安全验证网页无法打开情况

<title>百度安全验证</title>
<div class=“timeout-title”>网络不给力,请稍后重试
(大部分省略)

查明原因可能时代理方面的问题,被服务器拒绝加入了,具体如何操作较为复杂,毕竟我是初学者,看也看不懂。

最新文章
鄭欽文奪冠“點燃”成都網球熱情
當地時間8月3日,鄭欽文在巴黎奧運會網球女單決賽中直落兩盤擊敗克羅地亞選手維基奇,拿到中國和亞洲首枚奧運會網球單打金牌,創造了歷史。鄭欽文奪冠后,不僅網球的討論熱度飆升,相關消費與產品的搜索也直線上漲。在某社交平台上,標注“
资本市场助力撬动循环经济,深企格林美“变废为宝”跃升创新优势企业,重金投向研发增强核心竞争力
开栏语:数据显示,深市公司2022年实现营业总收入20万亿元,同比增长7%,近六成公司收入正增长,其中研发投入超6600亿元,同比增长15%,近七成研发资金投向先进制造、数字经济、绿色低碳领域,成为企业保持长期增长的稳定动力。积极投入技
精灵SEO统计,网站优化利器,揭秘搜索引擎排名提升秘籍
精灵SEO统计,一款专为网站优化设计的高效工具,助您快速提升搜索引擎排名,成为网站优化的秘密武器。在互联网时代,搜索引擎优化(SEO)已经成为和不可或缺的一部分,为了帮助广大网站管理者更高效地进行SEO工作,众多SEO工具应运而生,我
推荐三款小说生成工具:一键生成故事与的软件,轻松创作独特作品
在如今这个信息爆炸的时代文学创作不再是少数人的专利。无论是小说家、家还是业余创作者都可借助科技的力量轻松打造出属于本人的独到作品。小说生成工具的出现为广大创作者提供了无限的可能性,只需一键操作,就能生成故事大纲、人物关系甚
ChatGPT中文版网页
ChatGPT中文版网页是一款十分好用的ai聊天软件,在ChatGPT中文版网页中,软件涵盖了多种智能聊天功能,多元化的服务,满足各用户不同需求,用户可以随意提问题,流畅回复,感受智能的对话服务。软件内存很小,不会占用手机太多的内存空间,
开服即被挤爆,AI新拐点来临!
昨日,OpenAI视频生成模型Sora正式版终于发布!此次发布的Sora Turbo,为原始Sora模型的全新高端加速版本,用户不仅可以通过文字提示生成视频,还能将静态图片转化为动态视频,甚至可以对现有视频进行创意改编。作为OpenAI“王炸”产品,So
【经验分享】含多酚多糖植物材料RNA的提取方法
观察与问题笔者在2023年10月至2024年6月跟随师兄对番茄中某转录因子进行研究,研究过程中笔者提取了模式番茄(Solanum lycopersicum)多个生长阶段中各器官RNA超60组。在使用TIANGEN公司RNAprep Pure多糖多酚植物总RNA提取试剂盒(离心柱型
生成式AI新时代:OpenAI、DeepMind与端侧智能的巨变
随着生成式AI技术的不断演进,我们见证了多个重量级产品和平台的重大进展。从OpenAI发布的新模型到DeepMind的视觉语言模型,再到国内端侧智能公司的融资动态,AI领域正迎来一场竞争与创新的热潮。OpenAI的猎户座模型泄露最新消息显示,Open
SEO网站关键词排名优化,提升网站流量与转化率的秘籍解析,揭秘SEO,关键词优化秘籍,助你网站流量与转化率双提升
SEO网站关键词排名优化秘籍解析:通过深入分析关键词策略、优化网站结构和内容质量,有效提升网站在搜索引擎中的排名,从而增加流量和转化率。 *** 包括合理布局关键词、优化页面加载速度、增强用户体验等。掌握这些技巧,助力网站在竞争中
成品网站1.1.719:全流程智能建站工具,让网站优化和流量提升一步到位!
网站制作总是让人望而却步?技术门槛、设计难度、时间成本,这些问题让许多人迟迟未能实现自己的建站计划。然而,一款名为成品网站1.1.719的工具正在悄然改变这一切。它通过简洁的设计和强大的功能,为用户带来了全新的建站体验。不同于传统
相关文章
推荐文章
发表评论
0评