python中urllib2的使用方法

发布时间:2020-08-03 15:20:25 作者:清晨
来源:亿速云 阅读:164

小编给大家分享一下python中urllib2的使用方法,希望大家阅读完这篇文章后大所收获,下面让我们一起去探讨吧!

urlopen函数
urllib2.urlopen(url[, data[, timeout[, cafile[, capath[, cadefault[, context]]]]])
注:
url表示目标网页地址,可以是字符串,也可以是请求对象Request
req= urllib2.Request(url, data,headers) response = urllib2.urlopen(req,timeout=3)
data表示post方式提交给目标服务器的参数
data = urllib.urlencode(data)

import urllib,urllib2  
action_url="http://www.xxxxxx.com/post"#用于测试post的网址,返回提交的数据  
values={'name':"alice",'age':20}  
data=urllib.urlencode(values)#对表单数据编码  
rqst=urllib2.Request(action_url,data)  
response=urllib2.urlopen(rqst)#模拟提交表单数据到url并获得响应

timeout表示超时时间设置。
返回值
response.read()返回页面内容
response.info()返回网页信息
response.geturl()返回连接地址
这个函数可以像urllib.urlopen()那样以url做参数。也能以Request实例为参数,即用一个Request对象(下文构造方法)来映射你提出的HTTP请求,在它最简单的使用形式中你将用你要请求的地址创建一个Request对象,这个Request对象中可以设置传输数据、headers等。通过调用urlopen并传入Request对象,将返回一个file-like对象。urllib2还提供了接口来处理一般情况,例如:基础验证,cookies,代理和其他,它们通过handlers和openers的对象实现。
2、Request函数
urllib2.Request(url[, data][, headers][, origin_req_host][, unverifiable])
用于构造Request对象,可以传递data数据,添加请求头(headers)等,构造好后作为urllib2.urlopen()的参数。
注:
url表示目标网页地址,可以是字符串,也可以是请求对象Request
data表示post方式提交给目标服务器的参数
headers表示用户标识,是一个字典类型的数据,有些不允许脚本的抓取,所以需要用户代理,像火狐浏览器的代理就是类似:Mozilla/5.0 (X11; U; Linux i686)Gecko/20071127 Firefox/2.0.0.11
浏览器的标准UA格式为:浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 渲染引擎标识 版本信息 ,headers默认是Python-urllib/2.6
origin_req_host表示请求方的主机域名或者ip地址。
headers = {'User-Agent':'Mozilla/5.0 (X11; U; Linux i686)Gecko/20071127 Firefox/2.0.0.11'}

import urllib   
import urllib2   
url = 'http://www.weibo.cn/'   
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'   
h = { 'User-Agent' : user_agent }   
req = urllib2.Request(url,headers=h)   
response = urllib2.urlopen(req)   
print response.read()

3、build_opener()
build_opener([handler1 [ handler2, ... ]])

urllib2.urlopen()函数不支持验证、cookie或者其它HTTP高级功能。要支持这些功能,必须使用build_opener()函数创建自定义Opener对象。
参数handler是Handler实例,常用的有HTTPBasicAuthHandler、HTTPCookieProcessor、ProxyHandler等。
build_opener ()返回的对象具有open()方法,与urlopen()函数的功能相同。
如果要修改http报头,可以用:

import urllib2  
opener = urllib2.build_opener()  
opener.addheaders = [('User-agent', 'Mozilla/5.0')]  
opener.open('http://www.example.com/')

看完了这篇文章,相信你对python中urllib2的使用方法有了一定的了解,想了解更多相关知识,欢迎关注亿速云行业资讯频道,感谢各位的阅读!

推荐阅读:
  1. python爬取准备三 urllib2模块
  2. python2.7 urllib2访问https 网站出错

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

python urllib2

上一篇:IP代理中间件和user-agent中间件的编写

下一篇:monogdb复制原理详解

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》