首页产品介绍会员套餐文档中心

控制台登录 | 注册

采集技巧：如何不采集非文章页面的数据

主题：过滤抓取采集技巧

在列表页提取器选择要采集的网址链接时，中间夹杂着一些多余的页面链接，例如栏目链接、广告链接和标签链接等，要怎么解决？

可通过手写Xpath值来精确选择链接区域来解决。

但有个更简单的技巧，就是在详情页提取器使用 “采集结果不得为空” 功能，因为这些多余的页面结构排版和常规的文章页面都不一样，采集时就会过滤掉这些不符合采集规则的页面。

在简数采集器某个任务的详情页提取器，选择或输入正确的文章页面配置采集规则，title 字段和 content 字段处都勾上 “采集结果不得为空”即可。

1）采集文章页面时

title和content字段采集时都获取到对应的信息，系统就正常采集入库这条数据。

2）采集非文章页面时（例如广告，列表页面）

title或者content字段采集时没有获取到信息，系统就会过滤不入库这条数据。

推荐采集经验知识

最新经验知识