第十二章 http协议

发布时间:2020-08-05 16:38:21 作者:忘情OK
来源:网络 阅读:1467

12.1 http协议简介

  http(HyperText Transfer Protocol,超文本传输协议)是互联网上应用最为广泛的一种网络协议。所有的www文件都必须遵守这个标准。设计HTTP最初的目的是为了提供一种发布和接收HTML页面的方法。1960年美国人Ted Nelson构思了一种通过计算机处理文本信息的方法,并称之为超文本(hypertext)。这成为HTTP超文本传输协议标准架构的发展根基。

  超文本就是带有超链接的文本,超链接就是基于一些链接实现文档间跳转的文本。


  http协议是一种无状态的协议(stateless):

  服务器无法持续追踪访问者来源,为了解决此问题引入了cookie和session,实现追踪与保存用户的行为


12.2 http技术架构

  http是一个客户端和服务器端请求和应答的标准(TCP)。客户端是终端用户,服务器端是网站。

  通过使用web浏览器、网络爬虫或者其它的工具,客户端发起一个到服务器上指定端口(默认端口为80)的HTTP请求。

  这个客户端被称作用户代理(User Agent)。

  应答的服务器上存储着一些资源,比如HTML文件和图像,这个应答服务器被称作源服务器(Origin Server)。


  在用户代理和源服务器中间可能存在多个中间层,比如代理,网关,或者隧道。尽管TCP/IP协议是互联网上最流行的应用,HTTP协议并没有规定必须使用它和基于它支持的层。事实上,HTTP可在任何其他互联网协议上,或者在其他网络上实现。HTTP只假定其下层协议提供可靠的传输,任何能够提供这种保证的协议都可以被其使用。


  通常,由HTTP客户端发起一个请求,建立一个到服务器指定端口的TCP连接。HTTP服务器则在那个端口监听客户端发送过来的请求。一旦收到请求,服务器向客户端发回一个状态行,比如“HTTP/1.1 200 OK”和响应的消息,消息的消息团体可能是请求的文件、错误消息或者其它一些信息。HTTP使用TCP而不是UDP的原因在于打开一个网页必须传送很多数据,而TCP协议提供传输控制,按顺序组织数据和错误纠正。


  通过HTTP或者HTTPS协议请求的资源由统一资源标示符(Uniform Resource Identifiers)来标识。


12.3 http协议功能

  http协议是用于从www服务器传输超文本到本地浏览器的传输协议。它可以使浏览器更加高效,使网络传输减少。它不仅保证计算机正确快速地传输超文本文档,还确定传输文档中的哪一部分以及哪些部分内容首先显示(如文本先于图形)等。


  http是客户端浏览器或其他程序与web服务器之间的应用层通信协议。在internet上的web服务器上存放的都是超文本信息,客户机需要通过http协议传输所要访问的超文本信息。http包含命令和传输信息,不仅可用于web访问,也可以用于其他因特网/内联网应用系统之间的通信,从而实现各类应用资源超媒体访问的集成。


  我们在浏览器的地址栏里输入的网站地址叫做URL(Uniform Resource Locator,统一资源定位符)。就像每家每户都有一个门牌地址一样,每个网页也都有一个internet地址。当你在浏览器的地址框中输入一个URL或是单击一个超链接时,URL就确定了林浏览的地址。浏览器通过HTTP将web服务器上站点的网页代码提取出来,并翻译成漂亮的网页。


12.4 http协议版本

  超文本传输协议已经演化出了很多版本,它们中的大部分都是向下兼容的。在RFC 2145中描述了HTTP版本号的用法。客户端在请求的开始告诉服务器它采用的协议版本号,而后者则在响应中采用相同或者更早的协议版本。

  http协议的版本主要有以下这些:

  HTTP/0.9:最原始版本,功能简陋。只接受GET一种请求方法,没有在通讯中指定版本号,且不支持请求头。由于该版本不支持POST方法,所以客户端无法向服务器传递太多信息。

  HTTP/1.0:这是第一个在通讯中指定版本号的HTTP协议版本,至今仍被广泛采用,特别是在代理服务器中。支持MIME。

  HTTP/1.1:增加了缓存功能,引入了长连接(默认采用),能很好的配合代理服务器工作 ,支持以管理方式同时发送多个请求,以便降低线路负载,提高传输速度。

  HTTP/2.0:大幅度提升了web性能,减少网络延迟,通常用于https


  HTTP/1.1相较于 HTTP/1.0 协议的区别主要体现在:

  a) 缓存处理

  b) 带宽优化及网络连接的使用

  c) 错误通知的管理

  d) 消息在网络中的发送

  e) 互联网地址的维护

  f) 安全性及完整性


12.5 名词解释

  HTML:HyperText Mark Language,超文本标记语言


  URI:Uniform Resource Indentifier,统一资源标识符。用于定义全局范围内(包括但不仅限于互联网)去标记唯一的、定位一种资源访问路径的方式,或者命名方式,被称作统一资源标识符。这里的统一指的是路径格式上的统一。


  URL:Uniform Resource Location,统一资源定位符,是URI的一个子集,用于描述在互联网上互联网资源的统一表示格式(protocol://host:port/path/to/file)

  URL基本语法:

<scheme>://<user>:<password>@<host>:<port>/<path>;<params>?<query>#<frag>

    params:参数,如http://www.idfsoft.com/bbs/index.html;gender=f,这里的gender=f就是一个参数

    query:传递给关系型数据库页面的特定行为。如http://www.idfsoft.com/bbs/item.php?username=tom&title=abc,这个URL表示要查询的是username=name并且title=abc的条目

    frag:用来定义一个较大页面中的某一个位置,而不是页面的开始处。说白点就是位置锚定


  URN:Uniform Resource Naming,统一资源命名符,也是URI的一个子集


  MIME:Multipurpose Internet Mail Extension,多用途互联网邮件扩展。

  MIME可以将非文本数据在传输前重新编码为文本格式再传输给对方,接收方能够用相反的方式将其重新还原为原来的格式,还能够调用相应的程序来打开此文件


  http事务:http协议的一次请求(request)和响应(response)的过程就称之为http事务


  动态网页:包含静态内容和动态内容(动态内容需要执行) 

  服务器端存储的不是HTML文档,而是编程语言开发的脚本,脚本接受参数之后在服务器端运行一次,运行完成之后会生成HTML格式的文档,并把生成好的HTML文档传给客户端


  Web资源:web resource。

    静态文件:.jpg,.gif,.html,.txt,.js,.css,.mp3,.avi

    动态文件:.php,.jsp


  PV:Page View,打开了多少页面

  UV:User View,独立IP量


12.6 http协议报文

  http协议采用了请求/响应模型。客户端向服务器发送一个请求,请求头包含请求的方法、URL、协议版本以及包含请求修饰符、客户信息和内容的类似于MIME的消息结构。服务器以一个状态行作为响应,响应的内容包括消息协议的版本,成功或者错误编码加上包含服务器信息、实体元信息以及可能的实体内容。


  http协议的报文有请求报文和响应报文2种,其语法样式如下:

    请求报文语法:

<method> <request-URL> <version>
<headers>

<entity-body>

    响应报文语法:

<version> <status> <reason-phrass>
<headers>

<entity-body>

  报文的第一行通常称作报文“起始行(start line)”,后面的标签格式的内容称作首部域(Header Field),每个首部域由名称(name)和值(value)组成,中间用逗号分隔。

  另外,响应报文通常还有一个称作Body的信息主体,即响应给客户端的内容。


  method:请求方法,标明客户端希望服务器对资源执行的动作,常见的有以下几种:

    GET:从服务器获取一个资源

    HEAD:只从服务器获取文档的响应首部,而不会发送响应内容。当我们只需要查看某个页面的状态的时候,使用HEAD是非常高效的

    POST:向服务器发送要处理的数据。服务器端通常通过提供一个表单,客户端填入数据时会把内容放入entity-body中提交提交给服务器端

    PUT:将请求的主体部分存储在服务器上。说白点就是上传数据

    DELETE:请求删除服务器上指定的文档

    TRACE:追踪请求到达服务器中间经过的代理服务器

    OPTIONS:请求服务器返回对指定资源支持使用的请求方法

  version:http的协议版本,格式如HTTP/<major>.<minor>

  status:响应状态码,用于标记请求处理过程中发生的情况,常见的响应状态码有以下几种:

    1xx:100-101,纯信息提示

      100:服务器仅接收到部分请求,但是一旦服务器并没有拒绝该请求,客户端应该继续发送其余的请求,响应状态码为"Continue"

      101:服务器转换协议,服务器将遵从客户的请求转换到另外一种协议,响应状态码为"Switching Protocols"

    2XX:200-206,“成功”类的信息

      200:请求资源正常。请求的所有数据通过响应报文的entity-body部分发送,响应状态码为“OK”

      201:请求被创建完成,同时新的资源被创建,响应状态码为"Created"

      202:供处理的请求已被接受,但处理未完成,响应状态码为"Accepted"

      203:文档已经正常地返回,但一些应答头可能不正确,因为使用的是文档的拷贝,响应状态码为"Non-authoritative information"

      204:没有新文档。浏览器应该继续显示原来的文档。响应状态码为"No Content"

      205:没有新文档。但浏览器应该重置它所显示的内容。用来强制浏览器清除表单输入内容,响应状态码为"Reset Content"

      206:客户发送了一个带有Range头的GET请求,服务器完成了它

    3XX:300-305,“重定向”类的信息

      301:永久重定向,响应状态码为“Moved Permanently”

        请求的URL指向的资源已经被删除,但在响应报文中通过首部Location指明了资源现在所处的新位置,客户端需要请求新位置的资源

      302:临时重定向,我这里正忙,你要的资源在另一个地方也有,你先去那里要,响应状态码为“Found”

        与301相似,但在响应报文中通过Location指明资源现在所处的临时新位置

      304:客户端发出了条件式请求,但服务器端发现客户端请求的资源已被客户端缓存过且未发生改变,让客户端直接到缓存里去取。响应状态码为“Not Modified”

    4XX:400-415,“客户端错误”类的信息

      400:由于客户端请求有语法错误,不能被服务器所理解,响应状态码为“Bad Request”

      401:需要输入帐号和密码认证方能访问资源,响应状态码为“Unauthorized”

      403:请求被禁止,响应状态码为“Forbidden”

      404:服务器无法找到客户端请求的资源,响应状态码为“Not Found”

    5XX:500-505,“服务端错误”类的信息

      500:服务器内部错误,响应状态码为“Internal Server Error”

      502:代理服务器从后端服务器收到了一条伪响应,响应状态码为“Bad Gateway”

      503:服务器当前不能够处理客户端的请求,在一段时间之后,响应状态码为“Service”

  reason-phrass:解释status状态码的情况,你成功了,是什么成功了,你失败了,是什么失败了,是获取文件成功/失败还是上传文件成功/失败等等。

  headers:用来标记请求或响应的属性

    每个请求或响应报文可包含任意个首部;

    每个首部都有首部名称,后面跟一个冒号,而后跟上一个可选空格,接着是一个值


    格式:Name: Value


    首部的分类

      通用首部:可用在请求报文和响应报文中,常见的内容如下:

        Date:报文的创建时间

        Connection:连接状态,如keep-alive,close等

        Via:显示报文经过的中间节点

        Cache-Control:控制缓存的生效方法和机制

      请求首部:只能在请求报文中使用,常见的内容如下:

        Accept:通知服务器客户端可以接受的媒体类型

        Accept-Charset:通知服务器客户端可以接受的字符集

        Accept-Encoding:通知服务器客户端可以接受的内容编码格式,如gzip

        Accept-Language:通知服务器客户端可以接受的语言

        Client-IP:客户端的IP

        Host:请求的服务器名称和端口号

        Referer:包含当前正在请求的资源的上一级资源

        User-Agent:客户端代理


        条件式请求首部

          Expect:期望服务器端发什么信息

          If-Modified-Since:自从此处指定的时间之后请求的资源是否发生修改

          If-Unmodified-Since:自从此处指定的时间之后请求的资源是否未发生修改

          If-None-Match:本地缓存中存储的文档的ETag标签是否与服务器文档的ETag不匹配

         If-Match:本地缓存中存储的文档的Etag是否与服务器文档的Etag匹配

        安全请求首部

          Authorization:向服务器发送认证信息,如帐号和密码

          Cookie/Cookie2:客户端向服务器发送cookie

        代理请求首部:

          Proxy-Authorization:向代理服务器认证

      响应首部:只能在响应报文中使用

        信息性:

          Age:响应持续时长

          Server:服务器程序软件名称和版本

        协商首部:某资源有多种表示方法时使用

          Accept-Ranges:服务器可接受的请求范围类型

          Vary:服务器查看的其它首部列表

        安全响应首部:

          Set-Cookie:向客户端设置cookie

          Set-Cookie2:向客户端设置cookie2

          WWW-Authenticate:来自服务器的对客户端的质询认证表单

      实体首部:标识实体的相关信息

        Allow:列出对此实体可使用的请求方法

        Location:告诉客户端真正的实体位于何处

        Content-Encoding:内容的编码格式

        Content-Language:内容使用的语言

        Content-Length:主体的长度

        Content-Location:实体真正所处的位置

        Content-Type:主体的对象类型

        缓存相关:

          ETag:实体的扩展标签

          Expires:实体的过期时间

          Last-Modified:最后一次修改的时间

      扩展首部

  entity-body:请求时附加的数据或响应时附加的数据,有可能为空


  请求报文示例:

GET / HTTP/1.1
HOST:www.baidu.com
Connection:keep-alive

  

  响应报文示例:

HTTP/1.1 200 OK
X-Powered-By:PHP/5.2.17
Vary:Accept-Encoding,Cookie,User-Agent
Cache-Control:max-age=3,must-revalidate
Content-Encoding:gzip
Content-Length:6931


12.7 http周边

  常见的协议查看、分析的工具:

    tcpdump

    tshark

    wireshark


  常见的http服务器程序:

    httpd(apache)

    nginx

    lighttpd

    应用程序服务器:可以处理动态文件

      IIS

      tomcat,jetty,jboss,resin

      webshpere,weblogic,oc4j


  常用的http压力测试工具:

    ab:

      语法:ab [options] URL

      -n:总的请求数

      -c:模拟的并发数

      -k:以持久连接模式测试

    webbench

    http_load

    jmeter

    loadrunner

    tcpcopy


  ulimit -n #:调整当前用户所能够同时打开的文件数


 web服务器资源路径映射方式:

    docroot

    alias

    虚拟主机docroot

    用户家目录docroot


  并发访问响应模型(Web I/O):此处假定每个进程内只有一个线程

    单进程I/O结构:启动一个进程处理请求,而且一次只处理一个,多个请求被串行响应

    多进程I/O结构:并行启动多个进程,每个进程响应一个请求

    复用I/O结构:一个进程响应多个请求

      多线程模型:一个进程生成多个线程,每个线程响应一个用户请求

      事件驱动

    复用的多进程I/O结构:启动多个(m)进程,每个进程响应n个请求


12.8 https

  https其实就是将ssl或tls应用于http协议的结果,https监听于tcp/443端口


  ssl会话的简化过程如下:

  (1)客户端发送可供选择的加密方式,并向服务器请求证书

  (2)服务器端发送证书以及选定的加密方式给客户端

  (3)客户端取得证书并进行证书验证

    如果信任给其发证书的CA:

    a) 验证证书来源的合法性:用CA的公钥解密证书上的数字签名

    b) 验证证书内容的合法性:完整性验证

    c) 检查证书的有效期限

    d) 检查证书是否被吊销

    e) 证书中拥有者的名字,与访问的目标主机要一致

  (4)客户端生成临时会话密钥(对称密钥),并使用服务器端的公钥加密此数据发送给服务器,完成密钥交换

  (5)服务器用密钥加密用户请求的资源,响应给客户端

  注意:SSL会话是基于IP地址创建,所以单IP的主机上,仅可以使用一个https虚拟主机


  WEB服务器的主要操作:

    建立连接——接受或拒绝客户端连接请求;

    接收请求——通过网络读取HTTP请求报文;

    处理请求——解析请求报文并做出相应的动作;

    访问资源——访问请求报文中相应的资源;

    构建响应——使用正确的首部生成HTTP响应报文;

    发送响应——向客户端发送生成的响应报文;

    记录日志——当已经完成的HTTP事务记录进日志文件

推荐阅读:
  1. 深入浅出Zabbix 3.0 -- 第十二章 Zabbix自动化
  2. 【Kubernetes系列】第5篇 Ingress controller - traefik组件介绍

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

浏览器 互联网 cookie

上一篇:Python2爬虫中Urllib库的使用方法

下一篇:Apache的安装部署及工作模式详解

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》