【SEO】如何通过 robots.txt 屏蔽 Sogou Spider 和 Bytespider

本文由花朝网原创首发,授权转载请以链接形式注明出处,本文唯一永久链接:http://www.huazhaox.com/article/30

以下 robots.txt 文件告诉 Baiduspider(baidu.com)、360Spider(so.com)、Yisouspider(sm.cn)、PetalBot(华为花瓣)、Bytespider(toutiao.com)、Sougou Spider(sogou.com)不要爬整个网站:

User-agent: Baiduspider
User-agent: 360Spider
User-agent: Yisouspider
User-agent: PetalBot
User-agent: Bytespider
User-agent: Sogou web spider
User-agent: Sogou inst spider
Disallow: /

但是,我还是从 nginx 访问日志中看到了 Bytespider 和 Sogou web spider/4.0。

看来 Bytespider 和 Sogou Spider 不完全兼容 robots.txt 排除标准,在我为 robots.txt 中的每个 UA 创建单独的块几天后,这俩爬虫就消失不见了。

User-agent: Baiduspider
User-agent: 360Spider
User-agent: Yisouspider
User-agent: PetalBot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: Sogou web spider
Disallow: /

User-agent: Sogou inst spider
Disallow: /
0 条评论
请不要发布违法违规有害信息,如发现请及时举报或反馈
还没有人评论呢,速度抢占沙发!
相关文章
  • 搜索引擎蜘蛛爬虫,又称网络爬虫、网页蜘蛛、网络机器人、web crawler、spider等,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。本文主要列出目前常见的一些网络爬虫,如下。Goo...

  • 安装pip install requestsget请求import requests res = requests.get(url="https://baidu.com") print(res) ...

  • 我国目前并未出台专门针对网络爬虫技术的法律规范,但在司法实践中,相关判决已屡见不鲜,K 哥特设了“K哥爬虫普法”专栏,本栏目通过对真实案例的分析,旨在提高广大爬虫工程师的法律意识,知晓如何合法合规利用...

  • Deep Net爬虫 Deep Web是相对于Surface Web和Dark Web而言的,是互联网页面的几种形态。 DeepWeb指存储在网络数据库里,不能通过超链接访问而需要动态网页技术访问的资...

  • 当我们爬到了网页的源代码之后,我们就需要对指定的数据进行获取,比如上一篇中只获取电影名称和上映时间,这里我们需要对获取的数据进行解析,以下提供四种解析方式: 1.re解析 2.bs4解析 3.xpat...

  • 我国目前并未出台专门针对网络爬虫技术的法律规范,但在司法实践中,相关判决已屡见不鲜,K 哥特设了“K哥爬虫普法”专栏,本栏目通过对真实案例的分析,旨在提高广大爬虫工程师的法律意识,知晓如何合法合规利用...

  • 目录 简介: 下载xpath文件 打开chrome浏览器 点击右上角小圆点 更多工具、阔展程序 拖拽xpath插件放到阔展程序 如果失效,再次拖拽 关闭浏览器重新打开 按ctrl+shift+x 出...

  • 今天我们继续通过正则表达式解析页面源代码,获取的网页为豆瓣TOP250,具体网址为:https://movie.douban.com/top250 今天的主要思路: 1、获取网页源代码; 2、通过正则...

  • 今天还是继续用正则表达式提取电影天堂电影的下载地址,这里有一点不同的是需要先获取主页面的源代码,然后通过解析主页源代码再获取子页面的源代码,最后通过解析子页面的源代码获取电影的下载地址。 还是按照思路...

  • 百度网站收录提交地址:https://ziyuan.baidu.com/site/index谷歌网站收录提交地址:https://search.google.com/search-console/ab...

  • 需要做分批导入数据库! 需要做分批导入数据库! 需要做分批导入数据库! package com.mock.utils; import java.io.IOException; impor...

  • 安装pip install requestsget请求import requests res = requests.get(url="https://baidu.com") print(res) ...

  • 众所周知,某度本身就是最大的爬虫脚本,那么纯纯的去某个网站找壁纸,还不如去某度图片直接找,瞬间格局打开! 话不多说,直接用Python来开发一下此处资源! 开发环境 & 第三方模块 环境 ...

  • python网络爬虫和信息提取    《python网络爬虫和信息提取》是北京理工大学的一门网络课程(中国大学MOOC(慕课))。     偶然机会我在网上学习了这门课程,中国大学排名是老师在课...

  • 异步协程不太了解的话可以去看我上篇博客:https://www.cnblogs.com/Red-Sun/p/16934843.html PS:本博客是个人笔记分享,不需要扫码加群或必须关注什么的(如果...

  • 一、爬虫的步骤 1、 需求分析(人做) 2、寻找网站(人)3、下载网站的返回内容(requests)4、通过返回的信息找到需要爬取的数据内容(正则表达式-re,xpath-lxml)5、存储找到的...

  • 函数介绍   函数功能简单介绍   库函数介绍  import requests#请求网页 from lxml import etree#对网页进行解析 函数功能介绍    函数1  def get...

  • 一、爬取目标 大家好,我是 @马哥python说 ,一名10年程序猿。 今天分享一期爬虫的案例,用python爬哔哩哔哩的搜索结果,也就是这个页面: 爬取字段,包含: 页码, 视频标题, 视频作者, ...

  • 经常或偶尔使用必应搜索的小伙伴都知道,必应搜索每天都会更新一张背景壁纸,有时候是一段视频,据了解必应搜索的每日壁纸十年如一日,从未间断,最早可以追溯到2010年1月。。。我经常使用必应查找资料,所以经...

  • 一、 前言 先说结论,目前无法下载无损音乐,也无法下载vip音乐。 此代码模拟web网页js加密的过程,向api接口发送参数并获取数据,仅供参考学习,如果需要下载网易云音乐,不如直接在客户端下载,客户...