火车采集器是一款功能非常强大的数据采集器,它完美支持采集所有编码格式的网页,程序还可以自动识别网页编码,还支持目前所有主流和非主流的CMS,BBS等网站程序,通过系统的发布模块能实现采集器和网站程序间的完美结合。
功能介绍
1、通用性强
无论新闻、论坛、视频、黄页、图片、下载类网站,只要通过浏览器能看到的结构化的内容,通过指定匹配规则,都能采集到您所需要的内容。
2、稳定、高效
五年磨一剑,软件不断更新进步,采集速度快,性能稳定,占用资源少。
3、扩展性强、适用范围广
自定义web发布,自定义主流的数据库的保存和发布,自定义本地php及。net外部编程接口处理数据,让数据都能为你所用。
4、支持所有网站编码
完美支持采集所有编码格式的网页,程序还可以自动识别网页编码。
5、多种发布方式
支持目前所有主流和非主流的CMS,BBS等网站程序,通过系统的发布模块能实现采集器和网站程序间的完美结合。
6、全自动
无人值守工作,配置好程序后,程序将依据您的设置自动运行,完全无需人工干预。
7、本地编辑
本地可视化编辑已采集的数据。
8、采集测试
这是其它任何同类采集软件所不能比的,程序支持直接查看采集结果并测试发布。
9、管理方便
使用站点+任务方式管理采集节点,任务支持批量操作,再多的数据管理也很轻松。
软件特色
1、规则自定义
通过采集规则的定义,可以搜索所有网站采集几乎任何类型的信息。
2、多任务,多线程
可以同时进行多个信息采集任务,每个任务可以使用多个线程。
3、所见即所得
任务采集过程所见即所得,过程中遍历的链接信息、采集信息、错误信息等都会及时的反映在软件界面中。
4、数据保存
数据边采集边自动保存到关系数据库中,并且数据结构能够自动适应,软件可以根据采集规则自动创建数据库,以及其中的表和字段,也可以通过导库方式灵活的将数据保存到客户已有的数据库结构中。
5、断点续采
信息采集任务可以在停止后从断点开始继续采集,从此你用不再担心你的采集任务意外中断了。
6、网站登录
支持网站Cookie,支持网站可视化登录,即使登录时需要验证码的网站也能采集。
7、计划任务
通过这个功能可以让你的采集任务定时、定量或者一直循环执行。
8、采集范围限制
可以根据采集的深度和网址的标识来限制采集的范围。
9、文件下载
可以将采集到的二进制文件(诸如:图片、音乐、软件、文档等等)下载到本地磁盘或者采集结果数据库中。
10、结果替换
可以将采集的结果根据规则替换成你定义的内容。
11、条件保存
可以根据某个条件来决定那些信息保存,那些信息过滤。
12、过滤重复内容
软件可根据用户设置和实际情况对重复内容和重复网址自动删除重复内容。
13、特殊链接识别
运用此功能可以将用Javascript动态生成的链接或其他更古怪的连接识别出来。
14、数据发布
可以通过自定义接口,将已采集的结果数据发布到任意的内容管理系统和指定数据库中。现在已支持的目标发布媒体包括:数据库(access, sql server,my sql,oracle) ,静态htm文件。
15、预留编程接口
定义多个编程接口,用户可以在事件中利用PHP,C#语言进行编程,扩充采集功能。
更新日志
1、★ 列表页新增“地址处理”功能。
内容替换/排重
可以对网址中内容进行替换,且替换完成后,重复的网址会自动去重。
纯正则替换
可以使用正则表达式进行匹配,和内容替换功能类似。
字符编码处理
网址中有需要转码的内容,比如采到的链接里有 & 可以进行解码。
2、★新增“请求失败数”的预警条件设置。
3、★下载图片命名,新增[记录自增Id]格式。
记录自增ID:同一个内容页中,多个标签设置记录自增ID,那么多个标签都是从1开始自增,再次测试运行又会重新开始从1自增,更换个内容页测试运行,也是从1开始自增。
自增ID:设置自增ID是采集器启动后运行,开始一个自增ID,从1开始自增,之后就是自增。重启采集器后,又会重新开始自增ID,从1开始自增。
4、★修复图片下载误判断问题★。
5、★修复计划任务中“每天调度”,起始运行时间配置未生效的问题。
6、★ 修复PHP插件,对于循环记录的处理报错的问题。
7、★修复拼音首字母对于一些错误字符的判断问题。
8、★任务批量编辑,修复“发布”中“多网站乱序发布”未能复制的问题。
9、★修改“循环添加新记录”配置后,修复数据格式选择错误的问题。
10、★修复循环记录中列表页标签被多次处理的问题。
11、★修复对于一些302跳转地址,无法正确跳转的问题。
12、★修复一些网址无法正确请求的问题。