网页采集过程中如何屏蔽广告
在采集网页内容过程中,有些网页中会很多广告,甚至会弹出广告框。一是影响规则的制作,二是影响采集速度。为了改善这些情况,采集器中会有一个功能点:屏蔽网页广告。
操作方法
- 01
在采集网页内容过程中,有些网页中会很多广告,甚至会弹出广告框。一是影响规则的制作,二是影响采集速度。为了改善这些情况,采集器中会有一个功能点:屏蔽网页广告。 主要目的: 1、为了加快页面加载(广告会拖慢页面加载速度) 2、为了减少资源请求(节省带宽资源) 界面位置:
- 02
基本操作:
- 03
相同的任务开启不开启广告屏蔽和广告屏蔽,可以看到如下图采集速度有明显的不同。没有屏蔽广告的相同时间内只采集了12条,而屏蔽广告的相同时间内采集了100条 屏蔽广告示例:
- 04
不屏蔽广告示例:
- 05
开启广告屏蔽可能存在的不利影响: 部分页面可能会因为屏蔽广告,导致页面结构发生变化,采集器的任务中原本生成的xpath需要调整。这时候最简单的做法就是在做规则之前就需要考虑清楚是否要勾屏蔽广告,然后再做规则。确保规则的准确性。 如果之前不勾选屏蔽广告,可以看到循环列表的xpath是这样的,而且循环列表也是正常的。如下图:
- 06
这时候返回勾选屏蔽广告,再看循环列表,可以看到勾上之后循环列表为空了。这样规则找不到循环列表就不会正常采集。
- 07
这就是部分页面因为屏蔽了广告,页面结构发生了变化。所以需要先确定是否勾屏蔽广告再做规则了。 同时,还存在部分网站,屏蔽广告后,网页一直在加载的情况,采集无法进行。这时返回“编辑规则”,将“屏蔽广告功能”的勾选去掉就可以了。请谨慎使用该功能。
赞 (0)