本篇文章和大家分享一下火车头采集器网址获取选项的设置;在一开始学的时候这里就很容易被搞懵圈,我遇到的被懵圈的事情就是“链接过滤”的设置。
比如使用“自动获取地址链接”搭配“链接过滤”就可以获取到网址;使用“手工设置规则获取”搭配“链接过滤”就获取不到网址,这个困扰了我很长时间,最终还是在多次摸索后找到了原因。下面以www.dyxtw.com/guandian/为例,给大家说明一下。
我使用的是V9版本的火车头采集器,在“起始网址”中输入http://www.dyxtw.com/guandian/后,点击“网址采集测试”,采集的网址如下图所示。我要采集的网址是下图中红框标出的网址。
在“链接过滤”的“必须包含”中输入“news”,然后再次采集,就基本上可以满足需求了!
采集的网址如下图所示:
我们在换“手工设置规则获取”搭配“链接过滤”,如下图所示;
我们再次单击“网址采集测试”,得到的结果如下:
没有获取到我想要的采集网址,这是什么原因呢?经过我多次摸索,终于被我找到原因了。
下图中的“设置区域”和“链接过滤”是给“自动获取地址链接”用的,不是给“手工设置规则获取”的。所以当你单击“手工设置规则获取”之后,然后再“链接过滤”中设置条件时,不会有任何效果,因为“手工设置规则获取”你没有设置提取规则。
“手工设置规则获取”只能在下图的红色框中设置提取采集网址的规则!