简数采集器正则表达式功能:用户可使用正则表达式提取或者替换匹配内容;
简数采集器将一些常用的正则表达式列出,方便用户使用:日期,中文日期,正整数,负整数,正浮点数,负浮点数,网址URL,Email,IP和身份证号。
基本流程:
一、正则功能界面
双击采集的字段或者字段右边的绿色设置按钮进入数据处理==》转到 “日期等正则提取” 栏目;
二、功能描述
1. 字段原值:采集内容显示区,可与最下方的 “字段处理后值” 作对比;
2. 常用表达式:点击该处的按钮,会出现相应的正则表达式;
3. 将匹配的内容:可填写要替换的字符串或正则表达式;(该处会匹配原值中符合条件的所有内容)
4. 替换为:如果不填,匹配的内容会替换原值;
如果填写了,匹配的内容会被填写的值替换,原值其他内容保持不变;(例子见下方结果)
5. 正则捕获组:使用捕获语法提取匹配内容,该处只能提取不能替换;(该处正则只会匹配原值中符合的第一个内容)
6. 多组值分隔符:如果正则捕获组有多个,填写的值会作为多个捕获组间的分隔符;(例子见下方中文日期)
PS:如果不填,则无分隔符;
7. 字段处理后值:该处为正则匹配内容处理后的结果值,根据配置可分三种情况:
——显示提取匹配的内容;
——显示原值替换匹配内容后的结果值;
——无匹配到任何内容,为空;
三、常用正则表达式例子
1. 日期
2. 中文日期
3. 网址URL
4. Email
5. 正则替换