爬虫实战--- （6）链家房源数据爬取与分析可视化

爬虫实战--- （6）链家房源数据爬取与分析可视化

2024-12-25 11:56

数据分析实战项⽬--链家租房数据可视化分析导语：前⼏天舍友送了⼀本介绍的书籍，由此联想到，好久没有爬过⽹站了，但之前学的东西差不多全还给秦⽼板了（给我们上python的⽼师）。于是⽴马上⽹找了⼏篇博客，重温了⼀下⼏个包的知识点，动了⼀下⼩⼿，这不就有了等下要和你们讲的故事喽。（⼀）项⽬介绍（⼀）项⽬介绍 1. ⼯具⼯具 pycharm 2020.1.5 2. 内容内容本项⽬分为两部分： + 数据可视化分析（1）爬⾍：⽤包爬取链家租房⽹页内容——BeautifulSoup解析——re正则表达式匹配我们需要的内容——sqlite3保存数据（2）分析：pandas清洗分析数据——pyecharts进⾏可视化分析（⼆）爬⾍部分（⼆）爬⾍部分（（1）爬⾍第⼀步，了解我们将要爬取⽹页的信息）爬⾍第⼀步，了解我们将要爬取⽹页的信息如图所⽰：⼩框是链家⽹页租房的⽹址，⼤框是我们想要从⽹页中获取的内容。由于链家的限制，把页⾯往下拉到底部就可以看见，⼀次最多只能访问100页，⼀个页⾯有30套房，就是说，我们⼀次最多能看见 3000套房⼦的信息。但是实际上的租房房源远不3000。怎么办呢？我们可以通过增加限制条件来获取到尽量全的房源。现在问题⼜来了，按区域爬⾍，区域我们是确定知道的，因为北京统共就那么⼏个区，但是⽹址中还需要知道各个区域的页数，各个区域的页数⼜不相同，那么各个区域分别有多少页呢？这⾥我⽤了⼀个⽐较笨的⽅法，但⽅法虽笨，实现还是挺简单的，就是先爬取每个区域的第⼀页，页⾯的最后有显⽰最⼤⽹页数，由此我们就可以得到最⼤⽹页数。现在先Fn+F12⼀下来看看⽹页的html⽂件吧~ 从上图，我们可以看出页数的信息在div class="content__pg"下⾯的内容，由此我们可以据其写出正则匹配表达式，并在div class="content__pg"下⾯的内容找到最⼤页数。本次爬⾍⽤的是requests包，⾸先构造⼀个响应头部header，⽤于伪装，然后构造get请求并发起，将爬取下来的数据存于html中，详见代码ask_url函数。在get_page函数中调⽤ask_url函数，循环爬取每个区的第⼀页，⼀边爬⼀边⽤BeautifulSoup解析，并在解析过的数据中，⽤ re.findall()在div class="content__pg"下⾯的内容匹配找出最⼤页数。get_page函数中⽤了两个for循环，⼀个调⽤regions中的区，然后爬⾍，⼀个⽤来查找爬取内容的最⼤页数。（本次爬⾍的限制条件，即区域，只有13个，其他4个较为边缘的区没有计⼊）（（2）正式爬取⽹页信息并解析匹配）正式爬取⽹页信息并解析匹配从上⾯，我们得到了每个区的页数，并保存于pagelist⾥⾯，返回。接下来，就要正式爬取我们想要的内容了。⾸先，设置⼀个空列表来存放我们解析匹配后得到的数据。两个for循环，调⽤ask_url函数，才能得到regions⾥⾯所有区各⾃的页数的全部内容。爬取⼀页内容，解析⼀页。再⼀次Fn+F12，可以看见，我们想要获取的内容，都在div class_="content__list--item"，我们先print⼀个或者多个解析过后的 soup，观察其结构和内容，可根据其中内容⽤re.compile()构造出我们所需内容的正则表达式，在这⾥就不⼀⼀展开了，有兴趣的uu找找相关正则表达式的博客。之后就开始匹配我们需要的内容，⽤re包⾥⾯的findall⽅法找出和正则表达式匹配的内容，并先将内容暂时存在⼀个data列表⾥，等到所有想要得到的内容都匹配完成之后，再加⼊datalist列表中。这⼀步，我们会得到所有想要的信息。 1 import requests 2 from bs4 import BeautifulSoup 3 import re 4 import sqlite3 5 import pandas as pd 6 7 def main(): 8 baseurl = 'https://bj.lianjia.com/zufang/' 9 pagelist = get_page(baseurl) #得到每个区的页数 10 datalist = get_data(baseurl, pagelist) #得到所有数据 11 dbpath = "zufang.db" 12 savedata_2_db(datalist, dbpath) #存⼊数据库 13 14 findpage = re.compile(r'data-totalpage="(d*)" data-ur') #构建正则匹配，最⼤页数 15 16 17 def get_page(baseurl): #找出每个