自动控制 发表于 2023-1-14 16:57:23

采集网页信息 如何保存图片内容

保存网页图片

      大多数文章页面不但有文字,还会配上几幅图片,以图文并茂的形式展示出来。实际上网页的图片和文字是分开的,文字内容在html源码里,图片则是单独存放在图片文件夹。在我们采集文章内容的时候,往往只能获取到文字内容,如何自动下载图片,并保持图片原有的位置呢?

         如上图所示,需要采集文章标题和内容,其中内容包含若干图片。具体步骤如下:
1、打开网址
      在木头浏览器项目管理器中新建打开网址步骤,可以添加一个网址,也可以批量添加网址,或者从文件读取网址或从网页获取网址。为测试方便,这里只添加一个网址。      


2、采集文章标题
      新建抓取内容步骤,添加抓取内容,定位页面上的标题元素,获取元素的text文本内容,并自动去除标题前后的空白。


3、采集正文内容
      继续在抓取内容步骤中添加抓取正文,定位包含整个正文内容的窗口元素,获取该元素的“ImgTextToHtml"内容,意思是把图片和文字内容转换为Html代码。木头浏览器自动将图片链接地址转换为该图片的Base64编码,并保持图片原有位置不变。同样去除Html中多余的空白,有助于减少内容长度。


4、添加数据库记录
      通常采集页面数据后,可以添加到数据库保存。在项目管理器中添加”执行SQL“步骤,设置数据库类型为SqlServer、数据库服务器地址、数据库名称、登录账号和密码。采集内容中可能包含特殊字符,所以不能使用Sql语句拼接,添加两个SQL变量,并分别赋值为标题和正文内容。然后输入添加记录的SQL语句。


5、保存为文件
      采集到图文内容后,除了可以添加到数据库,还能直接保存为单个html文件(包含图片和文字),使用任意浏览器都可以打开,方便文件存档和传输。在项目管理器在添加保存内容步骤,勾选保存变量文件,设置保存文件格式为html,取文章标题作为文件名称,添加正文变量做为文件内容。

测试一下文件保存效果,在文件夹中只有一个以文章标题命名的html文档,打开这个文件可以看到文章正文和图片,所有图片都是本地保存,且正文格式与原页面保持一致。



页: [1]
查看完整版本: 采集网页信息 如何保存图片内容