java爬虫系列（四）——动态网页爬虫升级版

我之前推荐过大家使用，但是经过我多次试验，在爬取任务过多，比如线程数超过几十的时候，会经常崩溃，当然这也和启动的服务器有关。
鉴于的性能不适合普通装备的爬虫爱好者，我重新写了一款的最简爬虫案例，供大家参考。

https://github.com/a252937166/quick-selenium.git

比较重要的文件我都勾画出来了。

ComicCrawler.java
控制每个网页的具体爬虫逻辑。
App.java
爬虫启动类。
application.properties
一些关键的配置信息，根据你自己的配置修改就行了。
chromedriver
我这里上传的是环境的驱动器，如果是你是系统，请到http://npm.taobao.org/mirrors/chromedriver/自己下载。
config.ini
网页驱动器的配置文件，比如你要选择哪一种驱动器，我这里选中的是，因为目前根据我的测试，它要比稳定一点。
quick-applicationContext.xml
可以自己修改一些连接池的配置。

根据自己的配置，修改好、、的内容。
这些不用管，这是我把爬到的内容上传到七牛云的时候用到的。

找到

修改为自己的的路径。

修改

为自己的的路径，如果使用就不用了，的配置在里面声明。

填写自己的爬虫开始路径。

一定要注意使用，根据我多次的实验，长时间启动多个webDriver，不退出的话，也容易导致驱动器崩溃。

如果你们电脑配置过低，浏览器多次崩溃，不妨取消

这一段的注释，每解析50个网页就启动一个新的驱动器。

没有七牛云的同学，可以把这段代码注释，以免报错。

运行其中sql，初始化数据库，最后启动中的方法就可以了。

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0评论 0

0 条相关评论

相关最新动态

推荐最新动态

点击排行