通过IP反查(nslookup)判断百度蜘蛛IP真假

云墨
云墨
云墨
692
文章
0
评论
2021年12月4日 评论 19,928

我们经常会碰到黑客利用伪装蜘蛛扫描网站,今天我们介绍下如何利用IP反查方法,判断蜘蛛是否为百度搜索引擎蜘蛛。

以百度为例,通常我们判断是否是百度蜘蛛抓取看用户代理字符串也就是User-Agent,但是User-Agent是可以模拟的,所以很多时候也会有虚假的模拟伪装成百度蜘蛛来抓取,这时候我们就需要学会分辨真伪。

通过IP反查(nslookup)判断百度蜘蛛IP真假

首先是百度User-Agent代理字符串,百度官方公布的有如下User-Agent:

移动UA:Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,likeGecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

PC UA:Mozilla/5.0 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

新增渲染UA:

移动UA:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 likeMac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

PC UA:Mozilla/5.0 (compatible;Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

需要注意的是百度新增了一个移动的User-Agent,和一个PC的User-Agent。我们知道了百度蜘蛛的User-Agent,如何正确识别和判断某条抓取是否是真实的百度蜘蛛。

如何识别百度蜘蛛

1、首选我们需要通过关键词找User-Agent中是否包含Baiduspider;

2、如果想区分移动和PC的蜘蛛的话,我们还需要在结果中再进行关键词过滤,移动端的User-Agent包含:Android 、iPhone、Mobile等三个中至少一个。

3、通过上述操作我们可以分辨出哪些抓取是百度蜘蛛抓取,但并不能分辨真伪。

判断百度蜘蛛真伪

1、验证百度蜘蛛真伪我们一般使用的是DNS反查IP的方式来进行判断,首选我们需要找到上述抓取记录中蜘蛛的IP。

通过IP反查(nslookup)判断百度蜘蛛IP真假

通过IP反查(nslookup)判断百度蜘蛛IP真假

2、以windows操作系统为例,开始运行中输入cmd 弹出窗口中输入 nslookup (上述IP地址),判断百度蜘蛛的真伪,真是百度蜘蛛结果中会返回以*.baidu.com 或*.baidu.jp 的格式命名hostname,如不包含则为假百度蜘蛛。

常见HTTP状态码解读:

1、200代码,表示蜘蛛爬取正常

2、404代码,访问的这个链接是错误链接

3、301代码,永久重定向

4、302代码,表示临时重定向

5、304代码,客户端已经执行了GET,但文件未变化。

6、500代码,表示网站内部程序或服务器有错

1. 如有链接无法下载、失效或广告,请联系QQ:181289218 处理!
2. 本站的所有资源为购买、网络收集,或者用户投稿的资源,版权归原作者及网站所有!
3. 如若侵犯了您的权利,请及时联系站长删除!
4. 本站提供的资源,都不包含技术服务请大家谅解!
5. 此软件“仅限学习交流,不能用于商业用途”!
6. 如用于商业用途,请到官方购买正版软件,追究法律责任与“云墨SEO”站点无关!
  • 我的微信
  • 这是我的微信扫一扫
  • weinxin
  • 站长技术资源群
  • QQ群:431710796
  • weinxin
云墨
  • 本文由 发表于 2021年12月4日
  • 转载请务必保留本文链接:https://www.yunmoseo.com/4069.html
教你如何权重词筛选与重组(权重站) SEO基础百科

教你如何权重词筛选与重组(权重站)

权重词筛选与重组(权重站) 首先我们去518查询期货这两个字啊,可以发现一个标记叫做436,这个436意味着整个 期货的词包当中有436个,他是有指数的,因为我们要做权重的话,就比如说癌症癌战绩 露出...
老域名筛选与秒收实战技术 SEO基础百科

老域名筛选与秒收实战技术

1、老域名筛选与秒收实战技术 教你怎么去获取一个大量的一个老域名。 https://domain.aizhan.com/ 首先你要把这三个选项选项选择好,第一个删除类型,第二个删除时间,第三个排序的 ...
robots协议禁止收录网站某一篇文章地址 SEO基础百科

robots协议禁止收录网站某一篇文章地址

网站 robots.txt 文件配置方法,如何禁止搜索引擎收录指定网站某一篇超链接地址呢,今天跟着麦站一起学学吧。 搜索引擎通过网络蜘蛛抓取网页的内容,并展示在相关的搜索结果中。但是有些网页内容我们可...
【致新手】 SEO优化技巧分享 SEO基础百科

【致新手】 SEO优化技巧分享

【致新手】 SEO优化技巧分享 仔细阅读, 让你受益匪浅 定义:SEO指通过站内优化使网站满足搜索引擎收录排名需求,在搜索引擎中提高关键词排名,从而吸引精准用户进入网站,获得免费流量 一. 明确网站定...
匿名

发表评论

匿名网友