批量查询网站标题 自动保存网址和标题

文档创建者:网页监控
浏览次数:4129
最后更新:2022-08-14
功能分类
数据监测: 网站数据采集
数据录入: 自动查询数据 
自动控制:  
人工智能:  
数据接口:  
数据分析:  
      有一批网址,不知道是什么网站,怎样才能快速获得网站标题呢?方法很简单,就是使用浏览器一个个地打开,记录下网站标题就可以了,关键是找一个具有自动完成功能的浏览器。具体步骤如下:
1、先把网址整理一下,保存在一个记事本文件中,一行一个网址就可以了,保存文件名为“网址.txt”。

1、创建网址列表文件

1、创建网址列表文件



2、定时循环控制,从木头浏览器工具菜单中,打开项目管理器窗口,新建一个定时控制步骤,设置运行周期为3秒,意思是每3秒查询一个网站。这里不用考虑网速问题,因为页面一般首先加载标题。
2、定时循环执行项目.png
3、从文件读取网址,创建一个自定义变量的步骤,添加名为网址的变量,来自文本文件,选择刚才创建的“网址.txt”文件。这一步的作用是,每次从文件中读取一行,然后保存到一个名为“网址”的变量中。
3、读取网址.png
4、打开网址,再新建一个打开网址的步骤,添加网址时不直接输入真实网址,而是在网址输入框中点击鼠标右键,在弹出的菜单中选择“网址”变量。项目执行时自动把变量替换为值,也就是实际网址。
4、打开网页.png
5、抓取标题内容,打开页面后需要抓取标题内容,新建抓取内容步骤,变量名称就命名为“标题”,设置抓取第一个title元素,获取它的text文本值。成功抓取后,内容保存在“标题”变量中。

5、抓取网页标题

5、抓取网页标题

6、保存网址和标题,新建保存内容步骤,勾选保存变量内容,设置保存为Excel格式以及文件路径,在设置内容窗口中选择“网址”和“标题”两个变量,即把这两个变量的值保存到“网页标题查询结果.xlsx”表格文件中。
6、保存标题和网址.png
7、执行项目测试,选择本项目步骤树的根节点,点击开始按钮即开始执行。软件间隔3秒自动打开一个网址,抓取标题后保存在设定的excel表格中。注意保存项目文件为“D:\网页标题批量查询.mot”,下次使用时直接打开这个项目文件直接运行。

7、运行自动查询标题项目

7、运行自动查询标题项目

8、查看采集数据表,最后打开excel文档看看保存结果,共有网址和标题两列,对应上面设置的两个变量。
8、保存页面标题.png


您需要登录后才可以回帖 登录 | 现在注册

本版积分规则

返回顶部 返回列表