【Tips篇】爬虫

发布时间:2020-07-31 02:19:17 作者:menke007
来源:网络 阅读:649

配图本来计划选择一种爬虫的,可是看到百度搜到的图片好恶心,所以作罢,还是还原网络世界真实的爬虫。

爬虫应该是随着搜索引擎技术出现的。爬虫技术主要是用来抓取万维网网页内容的主要技术,被爬到的网页会被收录进入搜索引擎。一般情况下,企业作为门户网站的话是非常希望爬虫爬到,然后收录进去,这样用户搜索的时候就会被显示出来,一方面随着搜索技术飞速发展,www业务飞速发展,各种各样的爬虫,***到互联网中,爬虫对于某些网站来说是一种流量的浪费。比如某宝是坚决不让某度来爬取的,一方面是要保障流量来源,另一方面要保障流量正常,因为www网站中恶意爬虫会影响正常流量访问。


于是robots协议应运而生。

“引用”Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。


防止spider任意抓取:(禁止任何爬虫进行抓取网站的任何目录)

spider user-agent:*

disallow:/

这些规则是支持正则的,所以会非常灵活。对于业务型的页面可以设置为不可被抓取。

还有一点最重要的:就是要相识的robots协议生效,就必须web访问的时候可以访问到robots.txt,并且robots位于网站的根目录下。例如:

www.taobao.com/robots.txt就可以看到淘宝的robots协议。


最后一点,如果你不想要在实名网站留下一些huai的证据,那么也不要寄希望于网站禁止爬虫,那么请注意保持良好的上网行为。

支付宝-打赏:

【Tips篇】爬虫

微信-打赏:

【Tips篇】爬虫


推荐阅读:
  1. MongoDB Tips
  2. ActiveMQ Tips

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

搜索引擎 互联网 机器人

上一篇:Linux 查看硬件信息的一些命令

下一篇:注解+反射+递归动态生成多层XML

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》