什么是Python爬虫爬取资料时遇到的cookie

发布时间:2020-08-25 16:23:52 作者:Leah
来源:亿速云 阅读:262

什么是Python爬虫爬取资料时遇到的cookie?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。

cookie 的由来

大家都知道HTTP协议是无状态的。

无状态的意思是每次请求都是独立的,它的执行情况和结果与前面的请求和之后的请求都无直接关系,

它不会受前面的请求响应情况直接影响,也不会直接影响后面的请求响应情况。

一句有意思的话来描述就是人生只如初见,对服务器来说,每次的请求都是全新的。

状态可以理解为客户端和服务器在某次会话中产生的数据,那无状态的就以为这些数据不会被保留。

会话中产生的数据又是我们需要保存的,也就是说要“保持状态”。因此Cookie就是在这样一个场景下诞生。

cookie 定义

Cookie具体指的是一段小信息,它是服务器发送出来存储在浏览器上的一组组键值对,

下次访问服务器时浏览器会自动携带这些键值对,以便服务器提取有用信息。

1. 由服务器让浏览器进行设置的

2. 浏览器保存在浏览器本地

3. 下次访问时自动携带

cookie的工作原理是:由服务器产生内容,浏览器收到请求后保存在本地;当浏览器再次访问时,

浏览器会自动带上Cookie,这样服务器就能通过Cookie的内容来判断这个是“谁”了。

简单的来说:cookie就是保存在浏览器本地上的一组组键值对。

cookie 简单应用

1. 登录(只是cookie一种应用)

2. 保存浏览习惯 如:分页浏览器,显示数据条数(只是cookie一种应用)

3. 简单的投票 计数(只是cookie一种应用)

当我们关闭cookie的时,登录博客园效果

什么是Python爬虫爬取资料时遇到的cookie

什么是Python爬虫爬取资料时遇到的cookie

查看cookie

什么是Python爬虫爬取资料时遇到的cookie

什么是Python爬虫爬取资料时遇到的cookie

什么是Python爬虫爬取资料时遇到的cookie

cookie设置

获取Cookie

request.COOKIES['key']
request.get_signed_cookie('key', default=RAISE_ERROR, salt='', max_age=None)
get_signed_cookie方法的参数:
- default: 默认值
- salt: 加密盐
- max_age: 后台控制过期时间

设置Cookie

rep = HttpResponse(...)
rep = render(request, ...)
rep.set_cookie(key,value,...)
rep.set_signed_cookie(key,value,salt='加密盐',...)

参数:

- key, 键
- value='', 值
- max_age=None, 超时时间
- expires=None, 超时时间(IE requires expires, so set it if hasn't been already.)
- path='/', Cookie生效的路径,/ 表示根路径,特殊的:根路径的cookie可以被任何url的页面访问
- domain=None, Cookie生效的域名
- secure=False, https传输
- httponly=False 只能http协议传输,无法被JavaScript获取(不是绝对,底层抓包可以获取到也可以被覆盖)

删除Cookie

什么是Python爬虫爬取资料时遇到的cookie

def logout(request):
    rep = redirect("/login/")
    rep.delete_cookie("user")  # 删除用户浏览器上之前设置的user的cookie值
    return rep

简单的创建一个django项目,使用cookie完成用户登录状态的效验

1.login.html

<!DOCTYPE html>
<html>
<head>
    <meta charset="UTF-8">
    <meta http-equiv="x-ua-compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">
    <title>登录</title>
</head>
<body>
<form action="" method="post">
{{% csrf_token %}}
    <p>
        用户名: <input type="text" name="username">
    </p>
    <p>
        密码: <input type="password" name="pwd">
    </p>
    <p>{{ error }}</p>
    <button>提交</button>
</form>
</body>
</html>

2.views.py

from django.views import View                        #导入基于类的视图模块
from django.shortcuts import render, redirect, HttpResponse#导入响应三剑客
class Login(View):                                   #登录逻辑视图函数
    def get(self, request, *args, **kwargs):         #处理get请求方法
        return render(request, 'login.html')         #如果是get请求(页面刷新等操作),还是登录页面
    def post(self, request, *args, **kwargs):        #处理post请求方法
        username = request.POST.get('username')      #form表单提交的账户
        pwd = request.POST.get('pwd')                #form表单提交的密码
        if username == 'gkf' and pwd == '318':       #账户密码简单校验
            url = request.GET.get('return_url')      #获取return_url,后面的路径信息
            if url:                                  #如果有路径信息
                ret = redirect(url)                  #重定向要访问的路径
            else:
                ret = redirect('/index/')            #如果没有,默认重定向index页面
            ret.set_cookie('is_login', '1')          #利用cookie标识登录状态
            return ret                               #响应请求
        return render(request, 'login.html', {'error': '用户名或密码错误'})#密码账户错误,重定向login.html并提示
    
def login_required(func):                           #装饰器函数,用来判断,访客登录状态
    def inner(request, *args, **kwargs):
        is_login = request.COOKIES.get('is_login')  #获取is_login的状态值
        url = request.path_info                     #访问页面的路径信息
        if is_login != '1':                         #如果状态值不为1表示未登录
            return redirect('/login/?return_url={}'.format(url))#返会login页面,并把之前访问页面信息,拼接在路径后面
        ret = func(request, *args, **kwargs)        #如果状态值是1,执行视图函数
        return ret                                  #响应请求
    return inner
@login_required                                     #判断登录状态装饰器
def index(request):                                 #处理index路由请求的视图函数
    return HttpResponse('首页')                     #简单模拟首页
@login_required                                    #判断登录状态装饰器
def home(request):                                 #处理home路由请求的视图函数
    return HttpResponse('home')                    # #简单模拟home页

密码账户错误登录失败

什么是Python爬虫爬取资料时遇到的cookie

访问home也 登录成功跳转home页面

什么是Python爬虫爬取资料时遇到的cookie

直接从login页面直接登录,默认返回index页面

什么是Python爬虫爬取资料时遇到的cookie

看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注亿速云行业资讯频道,感谢您对亿速云的支持。

推荐阅读:
  1. 登录cookie时遇到的问题
  2. 用Python爬虫爬取电影的方法

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

python 爬虫 python爬

上一篇:微信小程序 下拉菜单简单实例

下一篇:详解webpack打包vue时提取css

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》