现在的位置: 首页 > 小技巧 > 正文

火车头采集百度302后的url链接

2013年10月20日 小技巧 ⁄ 共 1413字 ⁄ 字号 暂无评论 ⁄ 阅读 1 次

火车头采集百度302后的url链接?因为百度搜索后结果都是302跳转,所以如果要采集排名,都不好采集,今天跟大家分享火车头采集百度302后的url链接,感觉没什么大用,干嘛要采集排名呢?不过还是发布一下,自己也留个记录。

前边基础性东西跳过,在此重点讲思路。此方法用的是火车头正则提取,大家也许对正则提取比较模糊,其实也比较简单,正则提取是提取一段代码之内的数据,把要提取的东西改成参数,把变量用*来代替,具体去看火车头官网视频教程。用正则提取的好处是可以自由组合采集结果。

火车头采集百度302跳转后的完整链接

此组合不单单这一种形式,还可以组合各参数一起展示。

思路分享完了,现在进入正题操作。

1.打开火车头。

2.输入采集网址规则

3.写采集规则,这里采集要分三项,标题、排名、URL。

标题不用我多说,都会采集

排名的规则,有些人采集排名的规则会用id= ,我比较喜欢用p1= ,两种形式都供大家参考使用。如果不会寻找,可以用ctrl+f查找。

重点来了,URL规则这个是怎么直接采集到302跳转后的正确网址呢???这也许是很多朋友的疑问,其实这里也很简单,我们以前不会是因为对火车头接触太少了,这里用的就是上边思路介绍的正则提取参数组合
采集百度302跳转后的完整链接

那么为什么会采集到呢?因为<http://tool.chinaz.com/pagestatus/> 站长工具页面HTTP状态查询302跳转链接是可以显示到结果页面的。细心的puke哥发现了。

  那么还会有朋友会问,就算这样,采集到的也只是http://tool.chinaz.com/pagestatus?url=[参数]而已 ,不可能直接显示啊,还要再写采集才能让我们采集到完整的URL?

别急,这也是正则提取的魅力所在,请大家看下图。

大家可以清楚的看到,在数据处理这块,我们又会做两项处理:

5

  1.Http请求,这个是在添加--高级功能-Http请求 ,这样添加的。添加这个的作用是为了把当前内容作为一个网址,一个整体来参与请求运算,才能得到结果,为第二步做铺垫,很重要的一点,大家千万不要忘记了。

采集百度302跳转后的完整链接

  2.内容截取,这个不用我多说,跟前后截取一个道理,用来进一步采集。这里有一点要注意的,就是需要先保存小的确定,才可以点大的。如果顺序搞错,那么会保存为空,等于没限制,是无效的操作。

用如上操作,我写出来最新的采集规则。

采集百度302跳转后的完整链接

这里还要说几点使用火车头常出现的问题和错误

1.网页编码网页编码是一定要跟第三步发布内容设置里的编码统一的,而且还是你所采集网站的网页编码,不统一会造成采集加过出现乱码。

2.在标签循环处理里,大家一定要记得添加为新纪录,不然采集的结果会挤在一块。

3.采集前测试:在正式采集之前,大家一定要先进行测试,如果测试失败还可以继续修改规则,不测试就采集,有可能会费工费力,浪费大家时间,同时分清先后事情重要性和先后性也是提高工作效率的方法之一。

采集百度302跳转后的完整链接

4.采集结果为空:采集结果为空有两方面原因,我曾经干过最挫的就是在运行采集规则之前没有勾选发布,我采集了八次都没得到结果,伤心欲绝,以为火车头出轨了。第二个可能性就是如果测试正常,采集不到东西,那么很有可能是保存的时候,没有保存对的格式,遇到这种情况,大家可以重启软件,重新保存格式。5.采集结束,采集结束的时候一定要清理之前的采集结果、清空任务所有采集数据、清空该任务网址库,不能让百度盯着你,不然你采集的结果都是不全。6.采集规则大家记得分类保存哦,这样以后遇到了就不需要再写了。
猜你喜欢

给我留言

留言无头像?