蓝天采集器(SkyCaiji)网页爬虫系统,采用PHP+Mysql开发已经过7年迭代更新,成熟稳定可部署在云端服务器和虚拟主机中,可视化操作使用浏览器即可采集数据,功能包括数据挖掘、分析、清洗、处理、发布等。软件免费无限制使用,可二次开发,自定义规则和插件自由度高,简单易操作。
支持无限制多级、多页、分页采集,自定义采集规则(支持正则、XPATH、JSON等)精准匹配任意信息流,几乎能采集所有类型的网页,支持模拟浏览器点击、滚动等操作抓取页面渲染后的内容。数据采集助力垂直大模型AIGC内容创作,可解决大模型应用缺少训练数据的问题!
可将数据存储为Excel文件、导入数据库、发布到各类cms程序,支持远程api发布或自定义数据发布插件,还可以将采集到的数据存入本地数据集为他人提供数据接口服务!
该软件类似CMS程序,完全跨平台,任何系统中都能安装,在虚拟主机中也能良好运行。实现定时定量全自动采集发布,简单操作即可持续采集!
开源免费无限制使用
本地或云端私有化部署
可视化点选操作
支持浏览器渲染页面
无限制多级/多页/分页采集
正则/xpath/json提取数据
文章/分类信息皆可采
IP代理池切换
文本翻译为其他语言
对接AI大模型处理文本
图片和文件本地化
丰富的数据处理功能
二次开发插件处理数据
全自动定时定量采集
多个任务同时运行采集
数据发布到cms程序
导出为文件/导入数据库
通过远程接口导出数据
存入数据集提供api服务
云平台分享下载插件