数据采集中快速获取列表页数据方法

简数采集平台中,可通过列表提取器快速提取多个详情页链接,配置主要有3个步骤:

1、点击“重置当前字段”按钮,重新开始配置;

2、用鼠标点击要采集的链接(标题),只需点击两个不同链接,系统便会自动选中其它相似的链接;

3、检查页面左下角“数据预览” 下方是否列出了文章链接地址,如果有,则配置正确,如果没有,需要再点选,直到出现链接。

网址采集配置结果示例:

详细使用步骤:

1. 清除旧配置

  智能向导创建任务过程中或者任务创建完成后,如果网址采集规则不正确,那么可以打开“列表提取器”进行修改。

  在列表提取器右上方点击 【重置当前字段配置】按钮,点击 【OK】,清除已有的配置:

2. 在页面上点选要采集的链接

  用鼠标点击要采集的链接(标题),只需点击两个不同链接,系统便会自动选中其它相似的链接。

点选两个后,检查页面左下角“数据预览” 下方是否列出了文章链接地址,如果有,则配置正确,如果没有,需要再点选,直到出现链接。(若无链接出现,请查看列表页配置常见问题及解决

(可选)网址采集规则通用性测试:如果任务配置了采集多个列表页面(如翻页),那么可点击‘典型列表页网址’ 的输入框,就会出现其它列表页网址的下拉列表,随便选择一两个不同的链接,即可进行。

高级配置说明:列表提取器只能配置一个url字段,并默认勾选上 ‘只获取网址’ 和 ‘自动选中类似元素’ 功能。

列表页配置常见问题及解决

I、点选不出来链接,怎么办?

  解决方法主要分四种情况:

重新选择,移动变化点选的区域,缩小或者放大。或者注意变通,选择其它位置达到相同的目的。如列表中有“阅读全文”链接;

手动修改“当前字段xpath”:列表详情链接xpath一般最后都是/a,或者a/kds 。如果看到不是这样的,可以把最后其它的删除。(/kds这个删除或保留都不影响);

如果需要的区域内容为空,那么可以试试勾选“使用JS动态数据”来动态加载页面;

列表提取器获取特殊链接网址(如在onclick属性),点击查看详细教程

 

II、列表提取器的入口?

  列表提取器的入口主要有两个:

任务列表的快速入口;

任务基本信息页面的入口;