内容分页或下级页面(跳转子页面)采集教程

如果需要采集的内容不都在详情页,部分在详情页的分页或下级页面(跳转子页面)中,例如内容分页,下载页,多选项卡页等,可使用简数采集器的分页采集功能来解决,具体使用方法如下:

1. 采集内容分页

简数采集器实现内容分页采集,只需简单几步配置采集分页区域即可,操作步骤如下:

1)在详情页提取器,先完成正文内容(content字段)的基础采集配置;

2)勾选content字段的【该字段内容有多分页】选项;

3)启用【分页点选开关】 (显示 √ 标志),然后点选分页所在区域,保存完成配置;

采集内容分页配置



2. 采集下级页面(跳转子页面)

当采集内容在详情页内的链接指向页面时(即下级页面,例如下载页、多选项卡页等),可按以下操作获取:

1)选择链接区域

在详情页提取器中,勾选对应字段的【该字段内容有多分页】选项 -》启用【分页点选开关】 (显示 √ 标志),然后选择包含下级页面跳转链接的区域。

比如下图,课程介绍是详情页,还需要采集章节目录页里的内容,对应字段分页区域则应选择包含章节目录跳转链接的区域。

采集多页内容配置


2)获取跳转页面内容的Xpath值

在浏览器访问跳转页面链接(如章节目录页面),获取要采集的目录内容区域的xpath值:

//*[@class="chapter-ul"]

备注:如何获取xpath值可查看《Xpath常见语法使用详细教程》。

获取多页内容Xpath值


3)填写Xpath值到提取器

简数采集器详情页提取器对应字段的当前字段Xpath处,填写下级页面内容的xpath值://*[@class="chapter-ul"],保存后测试采集,检查效果。

多页xpath值填写到当前字段xpath值