采集网页信息如何保存图片内容

自动控制

保存网页图片

大多数文章页面不但有文字，还会配上几幅图片，以图文并茂的形式展示出来。实际上网页的图片和文字是分开的，文字内容在html源码里，图片则是单独存放在图片文件夹。在我们采集文章内容的时候，往往只能获取到文字内容，如何自动下载图片，并保持图片原有的位置呢？

1、采集带图片的网页内容

如上图所示，需要采集文章标题和内容，其中内容包含若干图片。具体步骤如下：
1、打开网址
在木头浏览器项目管理器中新建打开网址步骤，可以添加一个网址，也可以批量添加网址，或者从文件读取网址或从网页获取网址。为测试方便，这里只添加一个网址。

2、打开待采集网址

2、采集文章标题
新建抓取内容步骤，添加抓取内容，定位页面上的标题元素，获取元素的text文本内容，并自动去除标题前后的空白。

3、获取文章标题

3、采集正文内容
继续在抓取内容步骤中添加抓取正文，定位包含整个正文内容的窗口元素，获取该元素的“ImgTextToHtml"内容，意思是把图片和文字内容转换为Html代码。木头浏览器自动将图片链接地址转换为该图片的Base64编码，并保持图片原有位置不变。同样去除Html中多余的空白，有助于减少内容长度。

4、获取文章正文图文

4、添加数据库记录
通常采集页面数据后，可以添加到数据库保存。在项目管理器中添加”执行SQL“步骤，设置数据库类型为SqlServer、数据库服务器地址、数据库名称、登录账号和密码。采集内容中可能包含特殊字符，所以不能使用Sql语句拼接，添加两个SQL变量，并分别赋值为标题和正文内容。然后输入添加记录的SQL语句。

5、保存到数据库

5、保存为文件
采集到图文内容后，除了可以添加到数据库，还能直接保存为单个html文件（包含图片和文字），使用任意浏览器都可以打开，方便文件存档和传输。在项目管理器在添加保存内容步骤，勾选保存变量文件，设置保存文件格式为html，取文章标题作为文件名称，添加正文变量做为文件内容。

6、保存到文件

测试一下文件保存效果，在文件夹中只有一个以文章标题命名的html文档，打开这个文件可以看到文章正文和图片，所有图片都是本地保存，且正文格式与原页面保持一致。

7、采集结果文件

您还未登录

登录后即可体验更多功能

浏览过的版块