基础教程

推荐文档

基础教程


新手入门1:采集单个网页


时间:2017-1-5 访问:2424

首次接触VG浏览器的用户,先看一下这几个教学向导吧,您可以根据教学向导自动创建几个常用的采集脚本,体验一下VG浏览器超爽的可视化脚本设计吧

blob.png

点击第一个图标试试,向导出来啦

blob.png

跟着向导的指示你就可以完成这个脚本的创建,这里我就不跟着向导走了。

下面我们不要向导,直接创建一个单网页采集试试


blob.png

在一个分组上点右键,选择新建脚本,输入脚本名称,分组默认选好了之前选定那个,当然你也可以更改。浏览器内核默认选第一项就行,因为我们要做的是浏览器模拟操作,选第二项的话就不能用浏览器相关功能了,密码是用来保护脚本的,设置了之后修改脚本时要密码才行哦。备注那栏不想写点什么的话就留空好了。点击下一步进入脚本编辑区。


在流程设计器里的空白区内点右键,创建一个“打开网页”的步骤

blob.png

blob.png

粘贴一下访问地址并保存,这时该网址会在浏览器内自动打开

http://visualget.com:2016/html/news/2016-3-7/193.html


我们再按点右键提示创建一个“提取数据”的步骤

blob.png


新增一个字段

blob.png


依次点击下图箭头位置,自动生成文章标题的xpath,并可实时预览提取到的数据。字段名称自行修改,提取类型默认“文本(TextContent)”

blob.png


再新增一个字段,用同样的方法提取文章正文

blob.png


如果文章内容要保持原文的段落格式,可以选择InnerHtml提取类型,如果要过滤一些图片、链接等信息,或者要保存该字段内容到指定的变量,可以点击数据处理按钮,对采集到的数据进一步处理。


完成后点保存按钮就可以运行脚本测试啦,提取数据就是这么简单,没有复杂的规则,一切都是可视化操作,点点鼠标就可以完成。