个人在python爬虫一些常用的技巧（后期会持续更新） - 迅易阁资讯

分享好友最新资讯首页最新资讯分类切换频道

个人在python爬虫一些常用的技巧（后期会持续更新）

2024-12-30 04:24

get方法

个人在python爬虫一些常用的技巧（后期会持续更新）

发现使用content.decode()之后开始乱码，那就查看网页使用什么编码格式，然后在decode里面写上对应的格式

在urllib2包中有ProxyHandler类，通过此类可以设置代理访问网页，如下代码片段：

代码片段：

手动添加cookie

对有些 header 要特别留意，Server 端会针对这些 header 做检查

1.User-Agent 有些 Server 或 Proxy 会检查该值，用来判断是否是浏览器发起的 Request

2.Content-Type 在使用 REST 接口时，Server 会检查该值，用来确定 HTTP Body 中的内容该怎样解析。

这时可以通过修改http包中的header来实现，代码片段如下：

对于页面解析最强大的当然是正则表达式，这个对于不同网站不同的使用者都不一样，就不用过多的说明，附两个比较好的网址：

正则表达式入门：http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html

正则表达式在线测试：http://tool.oschina.net/regex/

其次就是解析库了，常用的有两个lxml和BeautifulSoup，对于这两个的使用介绍两个比较好的网站：

lxml：http://my.oschina.net/jhao104/blog/639448

BeautifulSoup：http://cuiqingcai.com/1319.html

对于这两个库，我的评价是，都是HTML/XML的处理库，Beautifulsoup纯python实现，效率低，但是功能实用，比如能用通过结果搜索获得某个HTML节点的源码；lxmlC语言编码，高效，支持Xpath

对于一些简单的验证码，可以进行简单的识别。本人也只进行过一些简单的验证码识别。但是有些反人类的验证码，比如12306，可以通过打码平台进行人工打码，当然这是要付费的。

但是一般服务器不会为你发送压缩数据，除非你告诉服务器你可以处理压缩数据。
于是需要这样修改代码：

这是关键:创建Request对象，添加一个 Accept-encoding 头信息告诉服务器你能接受 gzip 压缩数据
然后就是解压缩数据：

虽然说python的多线程很鸡肋，但是对于爬虫这种网络频繁型，还是能一定程度提高效率的。

最新文章

‎App Store 上的“클린베테랑”

Google Trends和Google Insights

Google Trends（谷歌趋势）发布过中文版，是Google推出的一款基于搜索日志分析的应用产品，通过这个工具可以知道某一搜索关键词

AI绘画工具MJ新功能有点东西，小白也能轻松一键换装

先看最终做出来的效果直接来干货吧。Midjourney，下面简称MJ1.局部重绘功能来袭就在前两天，MJ悄咪咪上线了这个被众人期待的新功

AI制冷，守护绿色未来

互联网发展至今，全球已有近44亿网民，我们通过不同的设备连接互联网，享受着在线购物，在线交友等一系列智能生活，而这背后，离

DDos攻击的防御方法

到目前为止，进行DDoS攻击的防御还是比较困难的。首先，这种攻击的特点是它利用了TCP/IP协议的漏洞，除非你不

AI音乐生成将导致音乐作品版权概念的消亡

在这个迅速变化的时代，科技的进步总是令人惊叹。最近AI音乐生成技术的兴起，开始掀起了关于音乐作品版权的讨论。或

ai语音功能是什么 ai语音功能详解？

2、可以帮用户完成生活当中的众多琐事，比如说翻译、打车、酒店、购物、百科百答等等；3、能够进行全场景实时图像搜索，让电视播

CLion和IDEA集成的ai代码助手——通义灵码的使用及其自动代码补全的禁用设置等使用优化

通义灵码，作为智能编码on助手，可以在进行编码工作时，为你提供行级/函数级实时续写、自然语言生

11、作为服务注册中心，Eureka比Zookeeper好在哪里？＊＊＊

目录 1、什么是微服务？ 2、微服务之间是如何通讯的？ 3、springcloud 与dubbo有哪些区别？ 4、springBoot

AI�˹��Ʒ��а��˹��δ��չ

�˹��ܣ�AI��ǵ��Ƽ��Ϊ��ֿ��ȵĻ��֮һ��ż��Ĳ��Ͻ��Ӧ�õ

推荐文章

超逼真美女写真生成工具推荐：用AI画出你的梦想女友！

居庸关长城3天2夜团建拓展活动去哪玩？居庸关长城3天2夜团建拓展有什么好的推荐？

1百度代做推广排名怎么弄出来,百度代做推广排名，揭秘其运作与应对之道

2024年智能家庭股票龙头股是什么？您了解多少？（11月22日）

乐青到安阳的汽车／大巴车班次查询表《顺带货物宠物小件快运》汽车班次

揭秘北京自驾游南京的最佳路线

相关文章

Facebook查看广告系列、广告组或广告投放状态

AI智能获客系统骗局，保持警惕，科学应对

AI换衣服软件(FacePlay)

excel表格怎样设置多行多列数据内容排序-英雄云拓展知识分享

ai+模型选择+过拟合和欠拟合

ai智能扩图怎么做出来的？AI绘图助手一键智能扩图

APA Citation Style(APA 论文引用规范).doc

1. 用第三方 Recovery 刷入 GApps

gmod开服多少钱

2024中国大学QS排名 2024年QS中国大学排名完整名单（中国大学排名qs）