在当今互联网时代,数据已经成为推动业务发展的重要资产。对于企业和个人来说,如何高效地从网络上获取有价值的信息,成为了提升竞争力的关键因素之一。来看看这个免费开源蓝天采集器,云端部署采集器使用教程,作为一个成熟稳定的网页爬虫系统,正是为此而生。本文将为您详细介绍这款强大的数据采集工具。
关于蓝天采集器
蓝天采集器是一款采用PHP+MySQL技术栈开发的网页爬虫系统,经过六年的不断迭代优化,已经成长为一个既成熟又稳定的工具。它不仅能够部署在云端服务器上,也适用于各种虚拟主机环境,提供了可视化的操作界面,使得用户无需复杂的编程知识能够轻松完成数据采集任务。
数据采集功能
蓝天采集器的强大之处在于其高度灵活的数据采集能力。它支持无限制的多级、多页以及分页采集,并且能够通过RPA(Robotic Process Automation)流程来自动执行采集任务。用户可以自定义采集规则,利用正则表达式、XPath、JSON等多种方式精确匹配目标信息流。此外,该系统还具备模拟浏览器行为的功能,如点击、滚动等,从而能够捕获页面渲染后的动态内容。
这样的数据采集能力对于那些依赖大量训练数据的垂直领域大模型AIGC(Artificial Intelligence Generated Content)应用来说尤为重要,它可以帮助解决训练数据不足的问题,从而促进更高质量的内容生成。
内容发布与管理
采集到的数据如何有效地管理和利用也是关键所在。蓝天采集器提供了多种数据存储和发布选项,包括将数据保存为Excel文件、导入数据库或是发布到各种CMS(Content Management System)程序中。它还支持通过远程API发布数据,或者开发自定义的数据发布插件,甚至可以创建本地数据集对外提供数据接口服务。
这时候我还是要推荐一下API接口大全 在这个里面搜索采集 两个字,可以搜索到相关的采集接口,大家可以使用这个里面的采集接口来供使用,需要的来看看吧。
云部署与自动化
作为一款现代化的数据采集工具,蓝天采集器拥有良好的跨平台特性,可以在不同的操作系统环境中安装运行。无论是Windows、Linux还是Mac OS,都可以轻松部署。尤其值得一提的是,它能够在虚拟主机上运行良好,这对于资源有限的小型企业或个人用户而言是一大福音。
此外,蓝天采集器支持定时定量的自动化采集与发布,用户只需要简单的配置可以实现持续的数据采集工作,极大地提高了效率。
PHP5.4 至 PHP8.2
操作系统:Linux/Windows/MacOS
软件环境:IIS/Apache/Nginx + MySQL 5.5 及以上
当前版本:SkyCaiji V2.8
可直接在后台首页中检测更新后点击升级,或者将压缩包上传至服务器解压覆盖后登录后台首页点击升级数据库即可!
将下载的软件上传至您的服务器(支持本地和云端),如果根目录有站点建议放在子目录里,解压后打开浏览器输入您的服务器域名或ip地址(存放在子目录则加上子目录的名称),进入安装界面
点击“接受”,进入环境检测页面
必须确保所有参数都正确,否则使用中会出现错误,点击“下一步”进入数据安装界面
填写好数据库及创始人配置,点击“下一步”
最后安装完成,现在可以使用蓝天采集器了!
登录后台,左侧导航中点击“添加任务”
添加任务页面
点击任务底部进度条的“采集器设置”进入规则编辑界面
添加在起始页之前需要采集的页面,仅采集一次,可以用作模拟登录、获取全局数据等
添加需要采集的目标列表页作为抓取入口
点击“+”号可批量添加网址,勾选“起始页网址设置为内容页网址”可直接采集输入的网址,否则作为列表页需要进行分析提取出内容页网址
从多层次的网址中抓取内容页网址,例如内容页网址不是直接从起始页抓取的,都可以通过多级来获取,适用于小说、影视等连载形式的页面
编写提取内容页网址的规则,默认提取所有网址,如需精准可设置“提取网址规则”
适用于数据分散在多个页面中,如需抓取的字段不在内容页而在其他页面中,则可以使用该功能将其他页面也作为内容源
“添加默认”可以自动设置几个常见的“字段”,能满足大部分文章类型的站点采集
如果目标数据格式比较复杂,可点击“+”自行编写字段规则
数据来源:可选择前置页、起始页、多级页、内容页和关联页
获取方式:有规则匹配、xpath匹配、json提取、自动获取(标题、正文、keywords、description、页面网址、源码、头信息、cookie)、内容标签(调用页面规则中设置的提取内容标签)、数据生成(固定文字、随机数字、时间、随机抽取),还可以从已有字段中提取数据或将多个已有字段组合成新字段。
“数据处理”功能可将字段采集到的值进行加工,每个字段都可单独进行数据处理或者使用通用处理。
处理功能有:html标签过滤、截取字符串、插入内容、内容替换、批量替换、工具箱、翻译、关键词过滤、条件判断、使用函数、调用接口等。
“关键词过滤”和“条件判断”都可对字段进行筛选去除掉不需要的数据,“使用函数”和“调用接口”可以对字段扩展出更多的数据处理方法。
如需抓取分页,点击开启“内容分页”并编写规则,程序会自动抓取每个分页中的字段内容
采集器配置完成后需点击保存按钮,刷新后可在底部看到测试按钮
测试列表页中抓取网址
测试抓取字段
测试抓取分页
添加、编辑字段时使用规则匹配可精准获取目标页面的数据
“规则”支持:(*)(通配符)、正则表达式,使用[内容](通用匹配)或捕获组(正则捕获组)将匹配的数据保存为标签,在“拼接内容”中引用[内容N]标签组成结果
[内容]和捕获组的区别:[内容]会自动转换成固定格式捕获组:(?<nr>.*?)
而捕获组:(?<nr>[sS]*?),可以编写任意正则表达式
[内容]适用于精准度不高的通用匹配,捕获组适用于精准匹配
默认为单个匹配,多个匹配可勾选“允许匹配多个元素”
示例
以新闻为例,页面中有许多元素,而我们只需要标题和正文
鼠标右键,查看页面源代码,使用键盘 CTRL+F 搜索标题,找到标题的位置
即标题的规则为:<h1 class=”post_title”>[内容]</h1>
同理,找出正文所在位置
正文处于标记的红框html代码之间
即正文的规则为:<div class=”post_body”>[内容]</div>s+<!– 相关 –>
常见问题:
规则匹配需要一些正则技术且编写时需仔细反复推敲,一个小细节可能导致匹配错误或匹配的结果不同
如您不熟悉正则或觉得正则比较繁琐,可以使用XPATH匹配(简单易上手,匹配的结果精准度高)
可将字段的值进行处理得到最终结果
禁止补全网址:可以保留源码中的网址格式
网址真实地址:将网址替换成重定向后的真实地址
提取音视频网址:从html中提取出音视频网址
功能:将文本链接标记为图片、将文本链接标记为文件、不下载图片、下载文件
接口地址、发送数据、请求头信息中可调用字段
当抓取需要登录的页面时,简单的方法是在浏览器中真实登录后将cookie复制到“采集器设置»请求头信息»抓取页面»Cookie”中,由于cookie通常会有时间限制很容易失效,需要经常复制新的cookie字符串
为解决这个问题,可以通过添加“采集器设置»起始页网址»前置页”来模拟登录
以官网登录界面为例:https://www.skycaiji.com/login
使用谷歌浏览器“检查”功能测试,输入账号密码点击登录,获取到表单数据:
添加前置页,将“表单网址”复制到“前置页网址”中,开启“请求前置页网址”将请求方式设置为“post”,添加“发送数据”输入“表单数据”
勾选“全局抓取页面时使用当前页COOKIE”,保存后在底部看到“测试抓取前置页”,点击测试查看前置页抓取结果
以上示例比较简单,通常情况下会遇到动态参数、验证码等问题
动态参数:可以将动态参数所在页面添加为前置页,使用“提取内容标签”将动态参数抓取出来,然后在“登录”前置页的“发布数据”中添加参数,参数值调用刚才设置的内容标签
验证码:同理将验证码所在页面添加为前置页,使用“提取内容标签”将验证码的链接抓取出来,然后使用函数,在函数中进行识别操作(由于验证码识别技术非常复杂官方无法提供支持,建议在函数中调用第三方api接口来实现)
点击任务底部进度条的“发布设置”,选择发布方式
将采集到的数据导入到数据集中,数据集中的数据可以通过api接口方式访问
可自动检测出服务器中的CMS程序,实现蓝天采集器和cms无缝对接
简单绑定对应的数据,不用登录即可入库,你还可以自行开发cms插件,理论上可实现任何CMS的任意入库操作
直接将数据入库,配置好数据库参数点击“数据表”
数据表操作支持新增、更新和查询,绑定数据可调用采集字段、查询和自增主键
支持Excel表格(xlsx或xls格式)、txt文本
文件最大行数:达到行数自动创建新文件
隐藏采集字段:可设置不写入文件的字段
可直接调用采集到的数据
只要有相应cms的入库接口,可以将数据远程发布到网站中,不必将采集器和网站放在同一服务器
当数据发送至远程接口并入库后需要返回响应状态,这样采集器才能正确记录数据的状态并用来进行排重处理
你只需要在接口代码最后或者数据入库后插入代码
exit(json_encode(数组));//数组必须是键值对形式,在调用接口»响应状态中绑定数组中的键名即可
查看发布调用接口详细说明
适用于任何网站程序,按要求创建插件文件并编写代码即可
数据集:在本地数据库中创建表用来存储多种类型的数据(数字、小数、字符串、文本、时间等),多个任务可将采集的数据发布至同一个数据集中
添加字段,字段名称可输入中文或英文
添加后点击保存,在底部可以设置索引
合理设置索引可以提升数据查询的速度,可以添加多个字段为联合索引
在“任务»发布设置”中选择数据集,可选择已有数据集或者自动生成数据集
可绑定数据集生成api接口供第三方调用
输入一个名称,状态设为开启,接口配置可默认
选择一个数据集后添加数据查询条件,可以添加多个条件或条件组(条件中添加子条件)
保存后在底部可看到接口使用方法
发送数据只要满足其中一组条件可以执行数据查询,like条件和数据库操作一样“%字符串%”,图中条件如下:
或者
或者