采集网页信息 如何保存图片内容

文档创建者:自动控制
浏览次数:3269
最后更新:2023-01-14
功能分类
数据监测: -
数据录入:  
自动控制:  
人工智能: 图像语音处理 
数据接口: 访问数据库 文件读写 
数据分析:  
保存网页图片

        大多数文章页面不但有文字,还会配上几幅图片,以图文并茂的形式展示出来。实际上网页的图片和文字是分开的,文字内容在html源码里,图片则是单独存放在图片文件夹。在我们采集文章内容的时候,往往只能获取到文字内容,如何自动下载图片,并保持图片原有的位置呢?

1、采集带图片的网页内容

1、采集带图片的网页内容

         如上图所示,需要采集文章标题和内容,其中内容包含若干图片。具体步骤如下:
1、打开网址
        在木头浏览器项目管理器中新建打开网址步骤,可以添加一个网址,也可以批量添加网址,或者从文件读取网址或从网页获取网址。为测试方便,这里只添加一个网址。        

2、打开待采集网址

2、打开待采集网址


2、采集文章标题
        新建抓取内容步骤,添加抓取内容,定位页面上的标题元素,获取元素的text文本内容,并自动去除标题前后的空白。

3、获取文章标题

3、获取文章标题


3、采集正文内容
        继续在抓取内容步骤中添加抓取正文,定位包含整个正文内容的窗口元素,获取该元素的“ImgTextToHtml"内容,意思是把图片和文字内容转换为Html代码。木头浏览器自动将图片链接地址转换为该图片的Base64编码,并保持图片原有位置不变。同样去除Html中多余的空白,有助于减少内容长度。

4、获取文章正文图文

4、获取文章正文图文


4、添加数据库记录
        通常采集页面数据后,可以添加到数据库保存。在项目管理器中添加”执行SQL“步骤,设置数据库类型为SqlServer、数据库服务器地址、数据库名称、登录账号和密码。采集内容中可能包含特殊字符,所以不能使用Sql语句拼接,添加两个SQL变量,并分别赋值为标题和正文内容。然后输入添加记录的SQL语句。

5、保存到数据库

5、保存到数据库


5、保存为文件
        采集到图文内容后,除了可以添加到数据库,还能直接保存为单个html文件(包含图片和文字),使用任意浏览器都可以打开,方便文件存档和传输。在项目管理器在添加保存内容步骤,勾选保存变量文件,设置保存文件格式为html,取文章标题作为文件名称,添加正文变量做为文件内容。

6、保存到文件

6、保存到文件

测试一下文件保存效果,在文件夹中只有一个以文章标题命名的html文档,打开这个文件可以看到文章正文和图片,所有图片都是本地保存,且正文格式与原页面保持一致。

7、采集结果文件

7、采集结果文件



您需要登录后才可以回帖 登录 | 现在注册

本版积分规则

返回顶部 返回列表