\newcommand{\R}{\mathbb{R}} \newcommand{\E}{\mathbb{E}} \newcommand{\x}{\mathbf{x}} \newcommand{\y}{\mathbf{y}} \newcommand{\wv}{\mathbf{w}} \newcommand{\av}{\mathbf{\alpha}} \newcommand{\bv}{\mathbf{b}} \newcommand{\N}{\mathbb{N}} \newcommand{\id}{\mathbf{I}} \newcommand{\ind}{\mathbf{1}} \newcommand{\0}{\mathbf{0}} \newcommand{\unit}{\mathbf{e}} \newcommand{\one}{\mathbf{1}} \newcommand{\zero}{\mathbf{0}} \newcommand\rfrac[2]{^{#1}!/_{#2}} \newcommand{\norm}[1]{\left\lVert#1\right\rVert}

交叉验证

描述

当使用机器学习算法时,一个普遍存在的问题是过度拟合,或者当一个算法“记住了”训练数据,但在推断样本外情况时却做得很差。处理过拟合问题的一种常见方法是从原始训练算法中保留一些数据子集,然后测量拟合算法在这个保留集上的性能。这通常称为交叉验证。模型在数据的一个子集上进行训练,然后在另一组数据上进行验证。

交叉验证策略

有如下几种策略提供数据。FlinkML有方便的方法

  • Train-Test切分
  • Train-Test-Holdout切分
  • K-Fold切分
  • Multi-Random切分

Train-Test 切分

最简单的切分方法是“trainTestSplit”。这个切分接受一个数据集和一个参数fractionfraction表示应该分配给训练集的数据集的一部分。这个切分还需要两个额外的可选参数preciseseed

默认情况下,切分是通过随机决定是否将一个观察值分配给训练数据集(probability = fraction)来完成的。然而,当precise为“true”时,需要采取额外的步骤来确保训练集尽可能接近数据集$\cdot$ fraction的长度。

该方法返回一个新的’TrainTestDataSet’对象,该对象包含’.training’属性的训练数据集和’.testing’属性的测试数据集。

Train-Test-Holdout切分

在某些情况下,算法已经“学习”过测试集。为了解决这个问题,需要在训练-测试-保持策略引入了第二个保持集,这个保持集被恰当地称为holdout

传统上,训练和测试是对算法进行正常的训练,然后在保持集上对算法进行最后的测试。理想情况下,预测误差/模型的得分在保留集中不会比在测试集中观察到的结果有显著差异。

在训练-测试-保持策略中,我们牺牲了初始拟合算法的样本量,以增加模型不过度拟合的信心。

当使用’trainTestHoldout’切分时,’Double’类型的分数被长度为3的分数数组替换。第一个元素对应于用于训练的部分,第二个对应测试,第三对应保持。这个数组的权重是相对的,例如数组’Array(3.0, 2.0, 1.0)’会导致大概50%的观测值在训练集,33%的观测值在测试集,17%的观测值在保持集。

K-Fold切分

k-fold策略中,数据集被分割为k份相等子集。然后为每个k子集创建一个’TrainTestDataSet’,其中子集是’.training’ 数据集,其余子集为’.testing’集。

对于每个训练集,训练算法,然后基于相关测试集的预测来评估算法。当在所保持的数据集上具有一致等级(例如:预测误差)的算法时,我们可以确信我们的方法(例如,算法/算法参数的选择/迭代次数)对于过度拟合是鲁棒的。

K-Fold 交叉验证#k-fold_cross-validation)

多随机切分

可以认为多随机策略是train-test-holdout策略更通用的形式。事实上,’.trainTestHoldoutSplit’是’multiRandomSplit’的简单包装器,它还将数据集打包到一个”trainTestHoldoutDataSet”对象中。

第一个主要区别是’multiRandomSplit’接受任意长度的分数数组。例如,可以创建多个holdout集。或者,可以将’kFoldSplit’看作是’multiRandomSplit’的包装器(确实如此),不同之处在于’kFoldSplit’创建大小大致相同的子集,而’multiRandomSplit’将创建任何大小的子集。

第二个主要区别是’multiRandomSplit’返回一个数据集数组,其大小和比例与作为参数传递的分数数组相同。

参数

各种各样的’Splitter’方法共享很多参数。

参数 类型 描述 使用方法
input DataSet[Any] 切分的数据集 randomSplit

multiRandomSplit
kFoldSplit
trainTestSplit
trainTestHoldoutSplit |
| seed | Long | 用于播种随机数生成器,该生成器将数据集分类为其他数据集。 | randomSplit
multiRandomSplit
kFoldSplit
trainTestSplit
trainTestHoldoutSplit |
| precise | Boolean | 当为真时,要使数据集尽可能接近规定的比例。 | randomSplit
trainTestSplit |
| fraction | Double | 分配给第一个’输入’部分或训练数据集。必须在(0,1)范围内 | randomSplit
trainTestSplit |
| fracArray | Array[Double] | 一个数组,规定了输出数据集的比例(比例不需要总和为1或者在范围(0,1)内) | multiRandomSplit
trainTestHoldoutSplit |
| kFolds | Int | 将“输入”数据集分成的子集的数目。 | kFoldSplit |

例子

  1. // An input dataset- does not have to be of type LabeledVector val data: DataSet[LabeledVector] = ...
  2. // A Simple Train-Test-Split val dataTrainTest: TrainTestDataSet = Splitter.trainTestSplit(data, 0.6, true)
  3. // Create a train test holdout DataSet val dataTrainTestHO: trainTestHoldoutDataSet = Splitter.trainTestHoldoutSplit(data, Array(6.0, 3.0, 1.0))
  4. // Create an Array of K TrainTestDataSets val dataKFolded: Array[TrainTestDataSet] = Splitter.kFoldSplit(data, 10)
  5. // create an array of 5 datasets val dataMultiRandom: Array[DataSet[T]] = Splitter.multiRandomSplit(data, Array(0.5, 0.1, 0.1, 0.1, 0.1))