JAVA爬虫抓取百度指数思路总结

   日期:2024-11-07     作者:caijiyuan       评论:0    移动:http://ljhr2012.riyuangf.com/mobile/news/1434.html
核心提示:做了一个多月的JAVA爬虫爬取百度指数的项目,发现出现了很多问题,总结如下: 抓取百度指数的整体思路:1、首先得模拟登陆百度账

JAVA爬虫抓取百度指数思路总结

 做了一个多月的JAVA爬虫爬取百度指数的项目,发现出现了很多问题,总结如下:

抓取百度指数的整体思路:

 

1、首先得模拟登陆百度账号(用selenium+PhantomJS模拟登陆百度,获取cookie) 

2、由于有该死的验证码,因此我们要绕过验证码,保存cookie模拟登陆(绕过万恶的验证码) 

3、然后模拟登陆以后,程序截取屏幕保存到本地图片。(屏幕截屏) 

4、读取本地图片。(读取图片) 

5、找到搜索指数所在区域,裁剪图片。(裁剪图片) 

6、下面就是进行图像识别,或者说验证码识别了。(去灰度化,二值化,图像识别)

 

问题一:百度指数具体的数字竟然是图片!!!每一个数字竟然都是一个图片!显然,常规的思路已经无法驾驭百度指数了

解决思路: 采用Python的图像识别包来识别并爬取百度指数

 

 
特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

举报收藏 0打赏 0评论 0
 
更多>同类最新资讯
0相关评论

相关文章
最新文章
推荐文章
推荐图文
最新资讯
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号