火车头采集链接被自动加上一段域名,链接出错怎么办!

987seo/2020-06-05/ 分类:心得日志/阅读:
今天在采集一个网站的时候,规则和数据库等信息都设置好后,放着让他自动采集,以前都是正常的,但是今天回来看采集的进度,才看到采集的数据都是错误的,标题都是很抱歉,您浏览的页面暂时不能访问哦!点对应的链接进去看,才知道,采集到的链接都是404链接 ...
  今天在采集一个网站的时候,规则和数据库等信息都设置好后,放着让他自动采集,以前都是正常的,但是今天回来看采集的进度,才看到采集的数据都是错误的,标题都是很抱歉,您浏览的页面暂时不能访问哦!点对应的链接进去看,才知道,采集到的链接都是404链接,链接被自动加上了一段域名,这个还是第一次看到。于是重新修改了列表采集规则。
 
   出错的标签:
 
   常规的文章列表文章URL应该是  <a  href="https://www.987studio.com/123.html">才对,而该站处理成了<a href="//987studio.com/123/456.html" target="_blank">你是不是饿的慌</a>,就是把协议头https或者http给取消了,这个 在一定程度上是可以防范很多采集程序,软件,爬虫的。采集后的地址列表会多一层网址,就成了https://987studio.com//987studio.com/123/456.html",这样的话就无法正确采集内容了。

火车头采集链接被自动加上一段域名,链接出错怎么办!
 
 
   解决方法
 
   在网址获取选项里点选“手动填写链接地址规则”,
 
   原来链接方式:<a href="//987studio.com/123/456.html" target="_blank">你是不是饿的慌</a>  那么我们规则可以这么写
 
 
   右侧脚本规则填写 <a href="[参数]" target="_blank"> 这里的参数就是原始网址不带协议头的网址。
 
    实际连接:填写 http:[参数1] 
 
   如果该网站是https的这里就填写 https:[参数1]
 
 
 
   结果
 
   这样会抓取到其他一些无关的内容,将选定区域设置下,再测试下网址采集就可以正确采集到网址了,保存任务,一切就都正常了!如果有遇到同样问题的可以试下这个方法哦!
阅读:
扩展阅读:
精彩评论:
  • 全部评论(0
    还没有评论,快来抢沙发吧!
腾讯云服务器优惠

热搜关键词

Hot search
 seo  网站  织梦  robots  搜索  地图  robotx  白帽  降权  死链
腾讯云服务器-全球
阿里云服务器优惠券
987seo网络工作室 - 关注SEOer,站长和创业者的网站
微信二维码扫一扫
关注微信公众号
987studio.com 联系QQ:256707691 邮箱:256707691@qq.com Copyright © 20120-2029 987seo网络工作室 版权所有 闽ICP备18029221号-1
987SEO工作室专注seo教程分享,seo技术,网站关键词排名优化,dedecms织梦模板建站教程,技术分享等知识资讯,关键词上百度首页的方法及网站建设相关软件资源下载!一个关注SEOer、站长和创业者的网站
二维码
意见反馈 扫码关注987seo网络工作室官方公众号