【Tips篇】爬虫

发布时间：2020-07-31 02:19:17 作者：menke007
来源：网络阅读：691

配图本来计划选择一种爬虫的，可是看到百度搜到的图片好恶心，所以作罢，还是还原网络世界真实的爬虫。

爬虫应该是随着搜索引擎技术出现的。爬虫技术主要是用来抓取万维网网页内容的主要技术，被爬到的网页会被收录进入搜索引擎。一般情况下，企业作为门户网站的话是非常希望爬虫爬到，然后收录进去，这样用户搜索的时候就会被显示出来，一方面随着搜索技术飞速发展，www业务飞速发展，各种各样的爬虫，***到互联网中，爬虫对于某些网站来说是一种流量的浪费。比如某宝是坚决不让某度来爬取的，一方面是要保障流量来源，另一方面要保障流量正常，因为www网站中恶意爬虫会影响正常流量访问。

于是robots协议应运而生。

“引用”Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

防止spider任意抓取：（禁止任何爬虫进行抓取网站的任何目录）

spider user-agent：*

disallow：/

这些规则是支持正则的，所以会非常灵活。对于业务型的页面可以设置为不可被抓取。

还有一点最重要的：就是要相识的robots协议生效，就必须web访问的时候可以访问到robots.txt，并且robots位于网站的根目录下。例如：

www.taobao.com/robots.txt就可以看到淘宝的robots协议。

最后一点，如果你不想要在实名网站留下一些huai的证据，那么也不要寄希望于网站禁止爬虫，那么请注意保持良好的上网行为。

支付宝-打赏：

【Tips篇】爬虫

微信-打赏：

【Tips篇】爬虫

【Tips篇】爬虫

相关阅读