采集数据处理：HTML标签过滤

主题：数据处理采集处理 html标签保留 html标签过滤

HTML标签具有其语义和默认样式，例如a标签代表超链接（可点击跳转设置的url），p标签代表文本段落（默认换行显示）等，所以HTML标签在页面显示的效果就各有不同，有些会影响排版布局（分行，表格等），有些是媒体展示（图片，视频等）。

简数采集器的 “HTML标签过滤” 功能可指定只保留哪些HTML标签，根据HTML标签类型会出现两种情况：

1. 标签中有文本的默认会保留，把标签和排版格式去除，例如p标签，a标签等；

2. 标签是资源标签，即类似img标签，video标签等，会把这些媒体资源内容删除；

操作方法

在简数采集器某个任务的详情提取器里，点击进入content字段的字段数据处理页面 --》点击切换到 “HTML标签过滤” 设置，勾上的是保留的标签。

简数采集器已默认过滤不需要不常用的标签，只保留常用的html标签，若无特殊需求用户一般不需要修改了。

“HTML标签过滤” 功能生效的前提是，“获取Html” 和 “过滤部分html标签” 选项都勾上，然后下方的标签配置区域：勾选上的是保留，没勾选的是要过滤不保留。

2-1）例如采集的文章没排版时，可以尝试保留div标签解决。

2-2）例如不需要表格形式的显示，只需要其文本内容，请把table系列标签勾选掉后保存；