批量完成实时监控与增量采集一般方法

文档创建者:mutou
浏览次数:5882
最后更新:2021-08-06
        如果你需要监控采集招标采购信息;或者需要监控采集财经新闻;或者需要监控采集招聘招生内容;或者需要监控采集舆情内容。请继续往下看,目标是为了及时发现网站更新内容,并在极短时间内完成数据自动采集。
        由于每个网站内容格式都不一样,需要有针对性的定制数据采集方案。
1、实时监控更新和采集内容原理:首先在一台监控主机上运行网站资讯监控软件,添加需要监控的网址,以监控网站首页或栏目列表页为主。当发现更新后,立即将更新的新闻标题和链接发送到采集主机。当采集主机收到新闻链接后,自动使用木头浏览器打开网页,采集新闻标题和正文内容,然后保存到数据库或导出Excel表格文件,也可以再填表提交到其它系统。其中监控主机和采集主机可以分别部署在不同电脑上,也可以部署在同一台电脑上,它们通过网络接口实现数据传递。

1、监控采集原理

1、监控采集原理

2、首先部署在监控主机的网站资讯监控软件,添加需要监控的网址,可以选择监控网站首页或栏目页面。只要是超链接列表格式的网页都可以直接监控,其它特殊格式页面则需增加对应的监控方案。每个监控网站可以设置不同的监控频率,对于实时性要求高的网站设置高频率监控。多个网址独立线程按自有频率同时监控。还可以按关键词过滤无效内容,具体参数设置请参见软件说明书及案例教程。

2、添加监控网址

2、添加监控网址


3、在监控报警选项卡中,勾选“发送链接到外部网络接口”,并设置接收端的ip地址和端口号,此处为采集主机的ip地址127.0.0.1,和正在监听的端口8888。当监控到任意网站更新后,会将更新的内容和链接一并发送出去。

3、发送更新监控结果

3、发送更新监控结果


4、在采集主机上打开一个木头浏览器,选择“自动控制”菜单,打开“外部接口”,在弹出的外部接口窗口中,设置监听端口号为8888。设置接收到数据时执行指定的自动控制项目文件。如果同时收到多条数据,软件还可以按设定的时间间隔依次处理每条数据。勾选“程序启动时自动开始监听”,这样只要启动浏览器,无需打开外部接口窗体就可以接收数据了。

4、开启接收数据端口

4、开启接收数据端口

5、打开浏览器的项目管理器,创建自动控制项目。首先新建一个打开网页的步骤,在输入网址的控件中点击鼠标右键,选择外部变量@link,也就是从监控主机上接收数据中的链接参数。项目执行时自动打开这个内容网址。

5、打开内容网页

5、打开内容网页


6、创建一个元素监控步骤,监控内容页标题,通过标题内容就可以判读内容来自哪个网站,然后跳转执行对应的数据采集步骤。这里相当于编程中的多条件语句。其中选择跳转步骤需要先完成本文第7步,然后返回修改。

6、判断来源网站

6、判断来源网站


7、创建一个信息抓取步骤,从网页中抓取标题和正文内容。将以变量的形式保存在软件中。按同样的方法创建每个网站的数据抓取步骤以及抓取内容参数。在这里,也可以增加分析过滤信息内容,判断不需要的无关内容,终止采集和保存。

7、抓取文章内容

7、抓取文章内容


8、如果要把采集到的内容保存到数据库,可以新建“执行SQL”步骤,设定数据库连接参数,支持mssql,mysql,oracle,sqlite等数据库。输入insert拼接sql语句,通过鼠标右键菜单,把标题和正文变量插入到sql语句中。项目执行时替换变量,就将内容直接保存到数据库了。

8、采集后保存到数据库

8、采集后保存到数据库


9、如何把采集的数据保存到Excel表格文件,创建“保存数据”步骤,选择保存为Excel格式,输入保存路径和文件名,点击设置内容按钮,可以选择需要保存的变量,这里选择标题和正文即可。

9、采集后保存Excel

9、采集后保存Excel


10、如果需要把采集的内容,再填表添加到其它系统中,新建打开网页步骤,添加这个系统的网址(这里省去登录步骤),打开系统添加数据的表单。

10、填写提交网址

10、填写提交网址

11、创建填写内容步骤,在表单对应的输入框中填写内容。首先获取输入框元素,填写内容框中点击鼠标右键,选择需要输入的变量。

11、自动填表

11、自动填表


12、填写完表单,再增加一个点击提交按钮的步骤,这样采集到的内容就添加到新系统中了。

12、填完后自动提交

12、填完后自动提交


        从监控数据更新,到采集数据,保存到数据库或添加到其它系统中,整个过程可以在无人值守状态下,在极短时间内全自动快速完成。并且可以将监控和采集软件置于后台运行,不影响正常使用电脑做其它工作。



发表评论已发布 1

mutou

发表于 2021-8-6 13:51:57 | 显示全部楼层

如果监控体量大,还可以部署多台监控主机和采集主机同时并行工作。
您需要登录后才可以回帖 登录 | 现在注册

本版积分规则

返回顶部 返回列表