采集网页信息如何保存图片内容木头浏览器 MutouBrowser木头软件站

自动控制 发表于 2023-1-14 16:57:23

采集网页信息如何保存图片内容

保存网页图片

   大多数文章页面不但有文字，还会配上几幅图片，以图文并茂的形式展示出来。实际上网页的图片和文字是分开的，文字内容在html源码里，图片则是单独存放在图片文件夹。在我们采集文章内容的时候，往往只能获取到文字内容，如何自动下载图片，并保持图片原有的位置呢？

      如上图所示，需要采集文章标题和内容，其中内容包含若干图片。具体步骤如下：
1、打开网址
   在木头浏览器项目管理器中新建打开网址步骤，可以添加一个网址，也可以批量添加网址，或者从文件读取网址或从网页获取网址。为测试方便，这里只添加一个网址。

2、采集文章标题
   新建抓取内容步骤，添加抓取内容，定位页面上的标题元素，获取元素的text文本内容，并自动去除标题前后的空白。

3、采集正文内容
   继续在抓取内容步骤中添加抓取正文，定位包含整个正文内容的窗口元素，获取该元素的“ImgTextToHtml"内容，意思是把图片和文字内容转换为Html代码。木头浏览器自动将图片链接地址转换为该图片的Base64编码，并保持图片原有位置不变。同样去除Html中多余的空白，有助于减少内容长度。

4、添加数据库记录
   通常采集页面数据后，可以添加到数据库保存。在项目管理器中添加”执行SQL“步骤，设置数据库类型为SqlServer、数据库服务器地址、数据库名称、登录账号和密码。采集内容中可能包含特殊字符，所以不能使用Sql语句拼接，添加两个SQL变量，并分别赋值为标题和正文内容。然后输入添加记录的SQL语句。

5、保存为文件
   采集到图文内容后，除了可以添加到数据库，还能直接保存为单个html文件（包含图片和文字），使用任意浏览器都可以打开，方便文件存档和传输。在项目管理器在添加保存内容步骤，勾选保存变量文件，设置保存文件格式为html，取文章标题作为文件名称，添加正文变量做为文件内容。

测试一下文件保存效果，在文件夹中只有一个以文章标题命名的html文档，打开这个文件可以看到文章正文和图片，所有图片都是本地保存，且正文格式与原页面保持一致。

页: [1]

木头软件站's Archiver

采集网页信息 如何保存图片内容

采集网页信息如何保存图片内容