微信公众号最新文章监控与采集

文档创建者:自动控制
浏览次数:6836
最后更新:2021-01-27
      最近单位需要收集多个微信公众号的文章内容,手机上关注无法批量保存和导出文章。找了很久才发现搜狗可以搜索公众号,但每个公众号只显示一条最新的内容。于是就想到了使用软件不断循环监测采集的办法,每次出现新的文章都采集和保存,累积下来就形成完整数据了。没有现成的专用搜索采集软件怎么办,那就找个通用的页面采集软件,于是又找到了木头浏览器,经过不断摸索发现木头浏览器可以自动完成从搜索查询到采集文章标题和内容的全过程,特别整理了操作步骤。
1、先创建一个Excel表格“微信公众号.xlsx”,用来保存所有公众号及其名称,后面让软件自动读取这个文件,如果要增加公众号,也直接添加到这个文件即可。

1、创建公众号表格

1、创建公众号表格

2、打开木头浏览器,找到【自动控制】菜单,打开【项目管理器】,将弹出项目管理窗口;

2、打开木头浏览器项目管理器

2、打开木头浏览器项目管理器

3、在项目管理器中,软件已经自动创建了一个“‘默认项目”,在该项目上点击鼠标右键打开快捷菜单,依次选择【新建步骤】、【打开网页】菜单项,新建一个打开网页的步骤,再添加搜狗的网址;

3、添加公众号查询网址

3、添加公众号查询网址

4、新建一个填写内容的步骤,点击【添加】按钮,弹出【添加自动填写项目】对话框,在此对话框中点击【自动获取】按钮,弹出木头浏览器主窗口,将鼠标移到搜索关键词输入框处点击鼠标右键,在弹出的快捷菜单中选择【获取元素并返回】,成功获取关键词输入框的参数,并返回到填写项目设置对话框。

4、获取公众号搜索输入框

4、获取公众号搜索输入框

5、获取输入框元素后,设置填写属性为”value",填写内容选择“填写Excel文件内容”,并设置"微信公众号.xlsx"的文件路径,选择该文件的第一个工作表,填写该表“公众号”字段下的内容,最后点击确定关闭对话框。

5、填写excel中的公众号

5、填写excel中的公众号

6、新建一个自动点击步骤,点击【添加】按钮,弹出【添加点击目标】对话框,点击【自动获取】按钮,弹出木头浏览器主窗口,把鼠标移到网页内“搜公众号”的按钮上,点击鼠标右键,选择【获取元素并返回】,成功获取搜索按钮。

6、点击搜公众号

6、点击搜公众号

7、在网页上手工搜索一个公众号,进入搜索结果页面。然后新建一个监控元素步骤,点击【添加】按钮,打开【添加监控元素】对话框,元素别名改为”最新文章“,点击【自动获取】按钮,弹出木头浏览器主窗口,把鼠标移到网页上的最新文章处点击右键,选择【获取元素并返回】,成功获取最新文章元素。修改监控元素属性为”text",类型为“字符串”,数据比较方式“Change"。意思是网页最新文章文本内容发生变化时报警提醒,并选择该节点下的Yes分支继续执行。

7、公众号最新文章监控

7、公众号最新文章监控

8、选择”Yes"节点修改报警设置,勾选“重复内容不提醒”和“弹出窗口提醒”,在弹窗显示内容输入框中,点击右键可添加监控元素“最新文章”,即直接提醒文章标题。

8、最新文章弹窗提醒

8、最新文章弹窗提醒

9、在“Yes"节点下新建”抓取内容“步骤,然后点击【添加】按钮,弹出【动态元素设置】对话框,修改别名为”公众号名称“,点击【自动获取】按钮,在木头浏览器主窗口网页上,找到公众号标题点击右键,选择【获取元素并返回】,获取元素属性名称输入“Text"。

9、抓取公众号名称

9、抓取公众号名称

10、以同样的方式,添加抓取最新文章的链接,修改别名为”文章链接“,获取元素属性名称填写”href“。

10、获取最新文章链接

10、获取最新文章链接

11、在”Yes"节点下新建一个保存内容的步骤,勾选“保存变量文件”,保存格式选择“Excel文档”,并设定保存文件路径。点击【设置内容】按钮,弹出【查看变量】对话框,选择需要保存到Excel的变量,包括监控元素变量和抓取变量内容。

11、保存公众号文章

11、保存公众号文章

12、在第一步打开网页后,插入一个定时控制步骤,设置间隔周期30秒运行一次,且不设置停止条件。只要不人工干预停止,将无限循环操作。

12、定时控制采集

12、定时控制采集

13、选择默认项目要节点,点击【开始】按钮,执行项目测试一下。

13、开始监控公众号

13、开始监控公众号

14、软件自动打开搜狗网页,自动输入公众号名称和点击搜索按钮了,并按设定周期继续查找下一个公众号。遇到最新文章会在屏幕右下角弹出提示窗口,显示最新文章标题及公众号名称。

14、最新公众号文章报警提醒

14、最新公众号文章报警提醒

15、在弹窗报警提醒的同时,木头浏览器已自动将内容保存到excel文档中。如有必要,还可以直接采集文章内容保存到表格中,限于篇幅,此问题留给大家探讨。

15、公众号文章采集结果

15、公众号文章采集结果


注意:软件工作时请勿打开相关Excel文档,防止软件读写文件失败。如果需要随时打开监控结果,可选择保存为csv或txt格式输出。
您需要登录后才可以回帖 登录 | 现在注册

本版积分规则

返回顶部 返回列表