1. 主页 > 站长随笔 > 心得日志 >

火车头采集链接被自动加上一段域名,链接出错怎么办!

  今天在采集一个网站的时候,规则和数据库等信息都设置好后,放着让他自动采集,以前都是正常的,但是今天回来看采集的进度,才看到采集的数据都是错误的,标题都是很抱歉,您浏览的页面暂时不能访问哦!点对应的链接进去看,才知道,采集到的链接都是404链接,链接被自动加上了一段域名,这个还是第一次看到。于是重新修改了列表采集规则。
 
   出错的标签:
 
   常规的文章列表文章URL应该是  <a  href="https://www.987studio.com/123.html">才对,而该站处理成了<a href="//987studio.com/123/456.html" target="_blank">你是不是饿的慌</a>,就是把协议头https或者http给取消了,这个 在一定程度上是可以防范很多采集程序,软件,爬虫的。采集后的地址列表会多一层网址,就成了https://987studio.com//987studio.com/123/456.html",这样的话就无法正确采集内容了。

火车头采集链接被自动加上一段域名,链接出错怎么办!
 
 
   解决方法
 
   在网址获取选项里点选“手动填写链接地址规则”,
 
   原来链接方式:<a href="//987studio.com/123/456.html" target="_blank">你是不是饿的慌</a>  那么我们规则可以这么写
 
 
   右侧脚本规则填写 <a href="[参数]" target="_blank"> 这里的参数就是原始网址不带协议头的网址。
 
    实际连接:填写 http:[参数1] 
 
   如果该网站是https的这里就填写 https:[参数1]
 
 
 
   结果
 
   这样会抓取到其他一些无关的内容,将选定区域设置下,再测试下网址采集就可以正确采集到网址了,保存任务,一切就都正常了!如果有遇到同样问题的可以试下这个方法哦!

本文仅代表作者观点,不代表本站立场。 如需转载请注明原网址:http://www.987studio.com/xinderizhi/430.html

联系我们

在线咨询:点击这里给我发消息

微信号:

工作日:9:30-18:30,节假日休息