Python中交叉验证的方法有哪些

发布时间:2022-03-03 13:39:50 作者:iii
来源:亿速云 阅读:181

这篇文章主要介绍“Python中交叉验证的方法有哪些”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Python中交叉验证的方法有哪些”文章能帮助大家解决问题。

一、什么是交叉验证?

交叉验证是一种用于估计机器学习模型性能的统计方法,它是一种评估统计分析结果如何推广到独立数据集的方法。

二、它是如何解决过拟合问题的?

在交叉验证中,我们将训练数据生成多个小的训练测试分割,使用这些拆分来调整您的模型。 例如,在标准的 k 折交叉验证中,我们将数据划分为 k 个子集。 然后,我们在 k-1 个子集上迭代训练算法,同时使用剩余的子集作为测试集。 通过这种方式,我们可以在未参与训练的数据上测试我们的模型。

在本文中,我将分享 7 种最常用的交叉验证技术及其优缺点,我还提供了每种技术的代码片段。

下面列出了这些技术方法:

1、HoldOut 交叉验证

在这种交叉验证技术中,整个数据集被随机划分为训练集和验证集。 根据经验,整个数据集的近 70% 用作训练集,其余 30% 用作验证集。

Python中交叉验证的方法有哪些

优点:

1.快速执行:因为我们必须将数据集拆分为训练集和验证集一次,并且模型将在训练集上仅构建一次,因此可以快速执行。

缺点:

在小数据集的情况下,将保留一部分用于测试模型,其中可能具有我们的模型可能会错过的重要特征,因为它没有对该数据进行训练。

代码片段

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
iris=load_iris()
X=iris.data
Y=iris.target
print("Size of Dataset {}".format(len(X)))
logreg=LogisticRegression()
x_train,x_test,y_train,y_test=train_test_split(X,Y,test_size=0.3,random_state=42)
logreg.fit(x_train,y_train)
predict=logreg.predict(x_test)
print("Accuracy score on training set is {}".format(accuracy_score(logreg.predict(x_train),y_train)))
print("Accuracy score on test set is {}".format(accuracy_score(predict,y_test)))

Python中交叉验证的方法有哪些

2、K 折交叉验证

在这种 K 折交叉验证技术中,整个数据集被划分为 K 个相等大小的部分。 每个分区称为一个“折叠”。因此,因为我们有 K 个部分,所以我们称之为 K 折叠。 一折用作验证集,其余 K-1 折用作训练集。

该技术重复 K 次,直到每个折叠用作验证集,其余折叠用作训练集。

模型的最终精度是通过取k-models 验证数据的平均精度来计算的。

Python中交叉验证的方法有哪些

优点:

缺点:

代码片段:

from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score,KFold
from sklearn.linear_model import LogisticRegression
iris=load_iris()
X=iris.data
Y=iris.target
logreg=LogisticRegression()
kf=KFold(n_splits=5)
score=cross_val_score(logreg,X,Y,cv=kf)
print("Cross Validation Scores are {}".format(score))
print("Average Cross Validation score :{}".format(score.mean()))

Python中交叉验证的方法有哪些

3、分层 K 折交叉验证

分层 K-Fold 是 K-Fold 交叉验证的增强版本,主要用于不平衡的数据集。 就像 K-fold 一样,整个数据集被分成大小相等的 K-fold。

但是在这种技术中,每个折叠将具有与整个数据集中相同的目标变量实例比率。

Python中交叉验证的方法有哪些

优点:

缺点:

代码片段:

from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score,StratifiedKFold
from sklearn.linear_model import LogisticRegression
iris=load_iris()
X=iris.data
Y=iris.target
logreg=LogisticRegression()
stratifiedkf=StratifiedKFold(n_splits=5)
score=cross_val_score(logreg,X,Y,cv=stratifiedkf)
print("Cross Validation Scores are {}".format(score))
print("Average Cross Validation score :{}".format(score.mean()))

Python中交叉验证的方法有哪些

4、Leave P Out 交叉验证

Leave P Out 交叉验证是一种详尽的交叉验证技术,其中 p 样本用作验证集,剩余的 np 样本用作训练集。

假设我们在数据集中有 100 个样本。 如果我们使用 p=10,那么在每次迭代中,10 个值将用作验证集,其余 90 个样本将用作训练集。

重复这个过程,直到整个数据集在 p-样本和 n-p 训练样本的验证集上被划分。

优点:

缺点:

代码片段

from sklearn.model_selection import LeavePOut,cross_val_score
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
iris=load_iris()
X=iris.data
Y=iris.target
lpo=LeavePOut(p=2)
lpo.get_n_splits(X)
tree=RandomForestClassifier(n_estimators=10,max_depth=5,n_jobs=-1)
score=cross_val_score(tree,X,Y,cv=lpo)
print("Cross Validation Scores are {}".format(score))
print("Average Cross Validation score :{}".format(score.mean()))

Python中交叉验证的方法有哪些

5、留一交叉验证

留一交叉验证是一种详尽的交叉验证技术,其中 1 个样本点用作验证集,其余 n-1 个样本用作训练集。

假设我们在数据集中有 100 个样本。 然后在每次迭代中,1 个值将用作验证集,其余 99 个样本作为训练集。 因此,重复该过程,直到数据集的每个样本都用作验证点。

它与使用 p=1 的 LeavePOut 交叉验证相同。

Python中交叉验证的方法有哪些

代码片段:

from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import LeaveOneOut,cross_val_score
iris=load_iris()
X=iris.data
Y=iris.target
loo=LeaveOneOut()
tree=RandomForestClassifier(n_estimators=10,max_depth=5,n_jobs=-1)
score=cross_val_score(tree,X,Y,cv=loo)
print("Cross Validation Scores are {}".format(score))
print("Average Cross Validation score :{}".format(score.mean()))

Python中交叉验证的方法有哪些

6、蒙特卡罗交叉验证(Shuffle Split)

蒙特卡罗交叉验证,也称为Shuffle Split交叉验证,是一种非常灵活的交叉验证策略。 在这种技术中,数据集被随机划分为训练集和验证集。

我们已经决定了要用作训练集的数据集的百分比和用作验证集的百分比。 如果训练集和验证集大小的增加百分比总和不是 100,则剩余的数据集不会用于训练集或验证集。

假设我们有 100 个样本,其中 60% 的样本用作训练集,20% 的样本用作验证集,那么剩下的 20%( 100-(60+20)) 将不被使用。

这种拆分将重复我们必须指定的“n”次。

Python中交叉验证的方法有哪些

优点:

缺点:

代码片段:

from sklearn.model_selection import ShuffleSplit,cross_val_score
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
logreg=LogisticRegression()
shuffle_split=ShuffleSplit(test_size=0.3,train_size=0.5,n_splits=10)
scores=cross_val_score(logreg,iris.data,iris.target,cv=shuffle_split)
print("cross Validation scores:n {}".format(scores))
print("Average Cross Validation score :{}".format(scores.mean()))

Python中交叉验证的方法有哪些

7、时间序列交叉验证

什么是时间序列数据?

时间序列数据是在不同时间点收集的数据。由于数据点是在相邻时间段收集的,因此观测值之间可能存在相关性。这是区分时间序列数据与横截面数据的特征之一。

在时间序列数据的情况下如何进行交叉验证?

在时间序列数据的情况下,我们不能选择随机样本并将它们分配给训练集或验证集,因为使用未来数据中的值来预测过去数据的值是没有意义的。

由于数据的顺序对于时间序列相关问题非常重要,所以我们根据时间将数据拆分为训练集和验证集,也称为“前向链”方法或滚动交叉验证。

我们从一小部分数据作为训练集开始。基于该集合,我们预测稍后的数据点,然后检查准确性。

然后将预测样本作为下一个训练数据集的一部分包括在内,并对后续样本进行预测。

Python中交叉验证的方法有哪些

优点:

缺点:

代码片段:

import numpy as np
from sklearn.model_selection import TimeSeriesSplit
X = np.array([[1, 2], [3, 4], [1, 2], [3, 4], [1, 2], [3, 4]])
y = np.array([1, 2, 3, 4, 5, 6])
time_series = TimeSeriesSplit()
print(time_series)
for train_index, test_index in time_series.split(X):
    print("TRAIN:", train_index, "TEST:", test_index)
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]

关于“Python中交叉验证的方法有哪些”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识,可以关注亿速云行业资讯频道,小编每天都会为大家更新不同的知识点。

推荐阅读:
  1. Python中内置方法有哪些
  2. python中print()方法有什么

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

python

上一篇:如何用JSONObject.toJSONString()包含或排除指定的属性

下一篇:SpringBoot如何整合PageHelper实现分页查询功能

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》