会声会影,Camtasia,火车头采集器知识

会声会影,Camtasia,火车头采集器知识

火车头采集器在链接过滤中设置后采集不到网址

本篇文章和大家分享一下火车头采集器网址获取选项的设置;在一开始学的时候这里就很容易被搞懵圈,我遇到的被懵圈的事情就是“链接过滤”的设置。

比如使用“自动获取地址链接”搭配“链接过滤”就可以获取到网址;使用“手工设置规则获取”搭配“链接过滤”就获取不到网址,这个困扰了我很长时间,最终还是在多次摸索后找到了原因。下面以www.dyxtw.com/guandian/为例,给大家说明一下。

我使用的是V9版本的火车头采集器,在“起始网址”中输入http://www.dyxtw.com/guandian/后,点击“网址采集测试”,采集的网址如下图所示。我要采集的网址是下图中红框标出的网址。

自动获取网址

在“链接过滤”的“必须包含”中输入“news”,然后再次采集,就基本上可以满足需求了!

链接过滤

采集的网址如下图所示:

列表页

我们在换“手工设置规则获取”搭配“链接过滤”,如下图所示;

手工设置规则获取

我们再次单击“网址采集测试”,得到的结果如下:

未获取到合适的采集网址

没有获取到我想要的采集网址,这是什么原因呢?经过我多次摸索,终于被我找到原因了。

下图中的“设置区域”和“链接过滤”是给“自动获取地址链接”用的,不是给“手工设置规则获取”的。所以当你单击“手工设置规则获取”之后,然后再“链接过滤”中设置条件时,不会有任何效果,因为“手工设置规则获取”你没有设置提取规则。

设置区域

“手工设置规则获取”只能在下图的红色框中设置提取采集网址的规则!



cache
Processed in 0.185846 Second.