Overfitting

来自WHY42

过拟合是一种不受欢迎的机器学习行为,当机器学习模型为训练数据提供准确的预测而不是新数据时,就会发生这种行为。当数据科学家使用机器学习模型进行预测时,他们首先在已知数据集上训练模型。然后,根据这些信息,该模型尝试预测新数据集的结果。过度拟合模型可能给出不准确的预测,并且无法对所有类型的新数据表现良好[1]

只有当机器学习模型泛化到其领域内所有类型的数据时,您才能获得准确的预测。当模型无法泛化以及与训练数据集的拟合过于紧密时,会发生过拟合。过拟合会由几个原因会导致,例如:

  • 训练数据大小过小,并且未包含足够的数据样本,无法准确代表所有可能的输入数据值。
  • 训练数据包含大量不相关的信息,称为噪声数据。
  • 模型在单个数据样本集上训练的时间过长。
  • 模型复杂程度较高,因此其可以学习训练数据中的噪声。