分享好友 最新资讯首页 最新资讯分类 切换频道
python爬虫学习笔记(一)
2024-12-28 16:26

在进行python爬虫学习前,需要进行如下准备工作:

python爬虫学习笔记(一)

1.Anaconda(推荐,包括python和相关库)                                                                                            

【推荐地址:清华镜像】

  https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/

【安装过程中注意选择自动添加path到环境变量中,未选择需要自己添加

  红色提示的意思是:自动添加的环境变量会处于最前面,自动成为默认,可能会使原本使用默认的软件报错,未防止以上问题,可以打开环境变量后,调整顺序将Anaconda相关path移到最后。

 【环境变量设置成功】

2.官方安装

  官方安装指的是只安装python,需要的库通过手动安装,下文会涉及库的安装

python下载】

  官方地址: https://www.python.org/

【自行添加环境变量】

【注】【环境变量如何添加

  我的电脑(右键)---属性---高级系统设置---环境变量-----path----在后面加上分号添加python安装地址及下层scipt(对pip的配置),如上图

  PyCharm是一种Python IDE,带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。

  官方网址:http://www.jetbrains.com/pycharm/download/#section=windows

  【注】选择community下载(社区版的功能足够使用)

  MongoDB 是一个基于分布式文件存储的数据库。由 C++ 语言编写。旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。

  MongoDB 是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。

【下载链接(64位)直接点击下载】

   https://fastdl.mongodb.org/win32/mongodb-win32-x86_64-2008plus-ssl-4.0.5-signed.msi

  https://studio3t.com/

 

  REmote DIctionary Server(Redis) 是一个由Salvatore Sanfilippo写的key-value存储系统。

  Redis是一个开源的使用ANSI C语言编写、遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。

  它通常被称为数据结构服务器,因为值(value)可以是 字符串(String), 哈希(Map), 列表(list), 集合(sets) 和 有序集合(sorted sets)等类型。

【下载链接   

  https://github.com/MicrosoftArchive/redis/releases

   https://github.com/uglide/RedisDesktopManager/releases

  https://dev.mysql.com/downloads/file/?id=480824

  (8.0)

  https://dev.mysql.com/downloads/file/?id=481157

  (5.7)

  【最好选择镜像msi下载安装】

    安装包下载后的安装需要通过命令行执行命令,且root初始密码不能自己设置(惨痛的教训。。。没记住密码。。。8.0的改又特别麻烦,试了很多办法后卸载重装。

  【root密码请不要乱设置

    使用msi自行安装设置的root密码不要随便设置

  http://www.mysqlfront.de/

 

  在安装python时,会默认安装,一般不需要手动安装。

  在使用爬虫时,常用的两个内置库是urllib、re

   【如何检查库是否安装】在pycharm中import该库,一般不报错的就是库已经存在

  第三方库一般都需要手动安装,爬虫使用的第三方库有下面这几个:

requests】

  如图所示,打开命令行(开始-输入cmd-打开命令行),输入以下代码:

  

 selenium】

  打开命令行,输入以下代码:

  phantomjs】(无界面浏览器)

       http://phantomjs.org/download.html

  【注意】最新的selenium已经不再支持ph

  【替代】可使用Headless Chrome(需要安装chromedriver)

  【chromedriver】

     http://chromedriver.storage.googleapis.com/index.html

  【注意】

    驱动和chrome浏览器版本一定要匹配

    【版本配置查看】最新是2.45而不是2.9

      http://chromedriver.storage.googleapis.com/2.45/notes.txt

 

【lxml】


  打开命令行,输入以下代码:

  网速慢的请使用下面一个方法

  【whl文件安装】

    【前提】安装wheel库

    【下载whl文件】

       https://pypi.org/search/?q=lxml

    【安装whl文件参考】

      https://blog.csdn.net/weixin_41592575/article/details/78984585

【BeautifulSoup】

  网页解析库,依赖lxml(请先安装lxml),安装好lxml后,打开命令行,输入以下代码:

  使用示例:

 【pyquery】

  网页解析库。

  打开命令行,输入以下代码:

  使用示例:

【pymysql】

  打开命令行,输入以下代码: 

   使用示例:

【pymongo】

  打开命令行,输入以下代码:

  使用示例:

【redis】

  打开命令行,输入以下代码:

  使用示例:

  打开命令行,输入以下代码: 

【django——分布式开发】

  打开命令行,输入以下代码: 

 【jupyter——网页端notebook】

  打开命令行,输入以下代码: 

  若电脑存在多个版本的python,可以参考下面的文章安装包

   https://blog.csdn.net/qq_36148847/article/details/81189443

最新文章
Dopamine多巴胺越狱2.0最新版,支持iOS15.0-16.5.1越狱
opa334巨魔大神终于发布了Dopamine多巴胺越狱2.0!期待已久的好消息,终于有完整版的越狱了!注意是完整版越狱,而非完美越狱!
Chrome插件:Wappalyzer 展现网站背后用了哪些技术
我是鬼哥,10年+老程序员一枚。要说到在互联网世界里瞎逛,有时候咱们总会好奇那些炫酷的网站背后到底用了哪些黑科技。比如,有
AI 与人工同传首次正面交锋,翻译完整性成优势
现在的AI翻译真的比人好?AI会取代人工同传吗?为深入探讨这一问题,12月23日,科技媒体《差评》在中国传媒大学举办了行业首个“
css命名规则
页面制作最重要的就是CSS,定义合理的CSS命名规范,可以大幅提高页面制作的效率和方便开发及相关人员修改编写。1.通用命名规则:
Apo AI聊天助手
编辑点评:已接入GPT4接口提供每天的免费次数。这意味着,即使用户没有付费也可以免费地使用Apo AI,并且每天都可以享受一定数量
eBay刊登工具介绍:Title Builder
据介绍,Title Builder项目适用于eBay、亚马逊、Etsy和其他电商平台。可以帮助需要对店铺搜索引擎优化和网络营销活动的卖家。基
2022年新兴行业、2022新兴行业创业项目推荐十个!
一、未来10-20年,比较有前景的行业是什么?1.电商创业【淘宝客】——氧惠APP氧惠APP,2022全新模式,0投资,最快63天做到月入十
FL Studio21揭秘:AI编曲时代或将来临
【FL中文官网资讯】1997年是一个「古老」的年代,那时人们还在用「猫」上网,微信、QQ的江湖被ICQ统治,音乐编辑领域 Cool Edit
Facebook海外三不限和国内白名单三不限的区别体现在哪些方面?
Facebook海外三不限户和国内白名单三不限户同属于三不限企业户,但还是有很多人不是很清楚两者之间的区别。本期内容做一个具体介
Android笔试面试题AI答之Kotlin(9)
在Kotlin中, 和都是接口,它们都定义了对集合(即一系列元素)的基本操作,但它们在可变性ÿ