Python3 urllib.request库的基本使用

一：用urllib.request 里的urlopen()方法发送一个请求

import urllib.request # 导入urllib.request 库 response = urllib.request.urlopen("https://blog.51cto.com/alun51cto") # 向指定的url发送请求，并返回服务器响应的类文件对象。urlopen方法支持重定向 # 服务器返回的类文件对象支持Python文件对象的操作方法，如read()方法读取文件全部内容，返回字符串 html = response.read() print(html) # 打印响应的内容

注：urllib.request 里的 urlopen()不支持构造HTTP请求，不能给编写的请求添加head,无法模拟真实的浏览器发送请求。

python的“User-agent”默认的是client_version，而client_version = "Python-urllib/%s" % version。
urllib.request库的urlopen()方法默认的“User-agent”是本机Python的版本（User-agent：Python-urllib/3.4），对于服务器而言，一下就能识别出这是爬虫。
urlopen()的参数就是一个url地址；但是如果需要执行更复杂的操作，比如增加HTTP报头，必须创建一个 Request 实例来作为urlopen()的参数；而需要访问的url地址则作为 Request 实例的参数。

二：用urllib.request 里的request ()方法

import urllib.request # url 作为Request()方法的参数，构造并返回一个Request对象 request = urllib.request.Request("https://blog.51cto.com/alun51cto") # Request对象作为urlopen()方法的参数，发送给服务器并接收响应 response = urllib.request.urlopen(request) html = response.read() print(html)

运行结果：跟第一个代码是一样。
Request实例，除了必须要有 url 参数之外，还可以设置另外两个参数：
data：如果是GET请求，data（默认空），如果是POST请求，需要加上data参数，伴随 url 提交的数据。
headers（默认空）：是一个字典，包含了需要发送的HTTP报头的键值对。
通过抓包可以抓到https://blog.51cto.com/alun51cto 请求的head信息

【Host】：主域（发请求时，可以不写）【Connection: keep-alive】：保持登录后的长连接【User-Agent】：最重要的参数【Accept】：接受数据的格式，例如：text文本、json等【Accept-Encoding】：数据的压缩方式（爬虫不是服务器，没有解压方法，不能写）【Accept-Language】：支持的语言（可以不写）【Cookie】：缓存，Cookie在爬虫里主要获取登录后的状态，跟登录相关的可以用Cookie处理，如果只是获取一个静态页面的数据，就不需要用Cookie。

web项目通过都是通过浏览器去访问，要想真实模拟一个用户用浏览器去访问web项目，在发送请求的时候，会有不同的User-Agent头。 urllib默认的User-Agent头为：Python-urllib/x.y，所以就需要我们在发request请求的时候添加一个head信息

三：用urllib.request 里的request ()方法里加上head信息

import urllib.request header={"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36" } request = urllib.request.Request("https://blog.51cto.com/alun51cto") # url 作为Request()方法的参数，构造并返回一个Request对象 response = urllib.request.urlopen(request) # Request对象作为urlopen()方法的参数，发送给服务器并接收响应 html = response.read() print(html)

四：Request.get_header()与Request.add_header（）

import urllib.request url ="https://blog.51cto.com/alun51cto" header={"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36" } request = urllib.request.Request(url) # url 作为Request()方法的参数，构造并返回一个Request对象 request.add_header("Connection", "keep-alive") #也可以通过调用request.add_header() 添加/修改一个特定的header print(request.get_header(header_name="Connection")) # 也可以通过调用Request.get_header()来查看header信息 response = urllib.request.urlopen(request) # Request对象作为urlopen()方法的参数，发送给服务器并接收响应 html = response.read() #print(html)

五：随机添加/修改User-Agent

import urllib.request import random url = "https://blog.51cto.com/alun51cto" #定义一个User-Agent列表 user_agent_list = [ "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36,", "Mozilla/5.0 (X11; CrOS i686 2268.111.0)... ", "Mozilla/5.0 (Macintosh; U; PPC Mac OS X.... ", "Mozilla/5.0 (Macintosh; Intel Mac OS... " ] user_agent = random.choice(user_agent_list) #随机抽取一个User-Agent值 request = urllib.request.Request(url) # url 作为Request()方法的参数，构造并返回一个Request对象 request.add_header("User-Agent", user_agent) #通过调用Request.add_header() 添加一个特定的header print(request.get_header("User-agent")) # 第一个字母大写，后面的全部小写 response = urllib.request.urlopen(request) # Request对象作为urlopen()方法的参数，发送给服务器并接收响应 html = response.read() print(html)

一：用urllib.request 里的urlopen()方法发送一个请求

二：用urllib.request 里的request ()方法

三：用urllib.request 里的request ()方法里加上head信息

`四：Request.get_header()与Request.add_header（）`

五：随机添加/修改User-Agent

相关阅读