常见数据加工处理方法
采集精灵具有强大的数据加工功能,并且这些功能也正在不断强化。
目前
采集精灵(Visualget)支持的数据加工方式有:
1,数据过滤,比如过滤掉自己不关注的,或是无效的数据
2,数据合并
3,数据截取
4,数据替换
5,数据转大写格式
6,数据转小写格式
7,数据自动翻译(计划2.0中支持,目前暂不支持)
8,数据抽取关键字(计划2.0中支持,目前暂不支持)
下面我们一个一个来说明
采集精灵(Viusualget)是如何处理的?
1,数据过滤
由于采集的数据不一定完全都是我们所期望的样子,很多时候我们需要对采集的数据首先进行一次筛选,过滤掉不需要的数据,比如下面的新闻采集,我们将新闻内容为空的信息都过滤掉,不采集到我们的采集结果中,就可以使用过滤表达式:
包含
不包含
为空
不为空

附件:
您所在的用户组无法下载或查看附件2,数据合并
我们有时间需要给采集的结果追加一些信息,比如采集了作者姓名,在使用时可能希望在作者姓名前面加上一个“作者:”的字符串,这个时候就可以使用
采集精灵的公式编辑功能,进入采集结果字段编辑窗体,点击“插入公式”,如下:

附件:
您所在的用户组无法下载或查看附件选择第3项公式。
这个时候可以根据公式的定义,可以将两个采集的元素进行合并,或是将固定的信息和采集的元素进行合并。这里假设采集的元素是“作者姓名”,我们希望在作者姓名前加上“作者:”,则公式如下:
[合并](作者:,
{作者姓名})
3,数据截取
选择第2项公式,可以进行字符串截取。截取字符串的时候我们需要知道被截取的字段名称,及开始的位置索引,位置从0开始,第一个字符位置是0,后面字符一次类推。然后还需要知道截取的长度,则系统会自动获取从指定位置开始的指定长度的字符作为处理结果。
4,数据替换
选择第1项公式,可以将采集元素中的某一段信息,替换成另一段信息,然后保留替换后的字符串。
5,数据转大写格式
选择第4项公式,将英文字符转换成大写格式
6,数据转小写格式
选择第5项公式,将英文字符转换成小写格式