java爬虫系列(四)——动态网页爬虫升级版

   日期:2024-12-26    作者:aoshen518 移动:http://ljhr2012.riyuangf.com/mobile/quote/33434.html

我之前推荐过大家使用,但是经过我多次试验,在爬取任务过多,比如线程数超过几十的时候,会经常崩溃,当然这也和启动的服务器有关。
鉴于的性能不适合普通装备的爬虫爱好者,我重新写了一款的最简爬虫案例,供大家参考。

https://github.com/a252937166/quick-selenium.git

  • quick-spring
    便于在方法中使用和的相关语法,具体介绍详见:https://github.com/a252937166/quick-spring

  • selenium
    这就不用多介绍了吧,百度一搜就知道了,用来解析网页的框架。

比较重要的文件我都勾画出来了。

  • ComicCrawler.java
    控制每个网页的具体爬虫逻辑。

  • App.java
    爬虫启动类。

  • application.properties
    一些关键的配置信息,根据你自己的配置修改就行了。

  • chromedriver
    我这里上传的是环境的驱动器,如果是你是系统,请到http://npm.taobao.org/mirrors/chromedriver/自己下载。

  • config.ini
    网页驱动器的配置文件,比如你要选择哪一种驱动器,我这里选中的是,因为目前根据我的测试,它要比稳定一点。

  • quick-applicationContext.xml
    可以自己修改一些连接池的配置。

根据自己的配置,修改好、、的内容。
这些不用管,这是我把爬到的内容上传到七牛云的时候用到的。

找到

修改为自己的的路径。

修改

为自己的的路径,如果使用就不用了,的配置在里面声明。

填写自己的爬虫开始路径。

一定要注意使用,根据我多次的实验,长时间启动多个webDriver,不退出的话,也容易导致驱动器崩溃。

如果你们电脑配置过低,浏览器多次崩溃,不妨取消

这一段的注释,每解析50个网页就启动一个新的驱动器。

没有七牛云的同学,可以把这段代码注释,以免报错。

运行其中sql,初始化数据库,最后启动中的方法就可以了。


特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


举报收藏 0评论 0
0相关评论
相关最新动态
推荐最新动态
点击排行
{
网站首页  |  关于我们  |  联系方式  |  使用协议  |  隐私政策  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号