過学習(overfitting)
過学習(overfitting)は、モデルが訓練データの特徴を「覚えすぎ」て、未知のデータでうまく予測できなくなる現象である。 訓練データではほぼ満点なのに、テストデータや本番データでは精度が大きく落ちる、という形で表に出る。 ...
過学習(overfitting)は、モデルが訓練データの特徴を「覚えすぎ」て、未知のデータでうまく予測できなくなる現象である。 訓練データではほぼ満点なのに、テストデータや本番データでは精度が大きく落ちる、という形で表に出る。 ...
バイアス-バリアンス分解(bias-variance decomposition, バイアス-バリアンス分解)は、教師あり学習の期待誤差を「Bias の 2 乗」「Variance」「ノイズ(既約誤差)」の 3 項に切り分ける枠組みである。モデルが外す原因を「表現力が足りない(high bias)」と「訓練データの揺らぎに過敏(high variance)」のどちらか(あるいは両方)に診断し、次の打ち手を選ぶための判断軸として使う。 ...
正則化(regularization)は、過学習を抑えるためにモデルの「複雑さ」へペナルティを課す仕組みである。 学習時に最小化する損失関数に、パラメータの大きさを表す項を足すことで、極端に大きな重みを持つモデルが選ばれにくくなる。 ...
交差検証(cross validation, CV)は、限られた学習データを「訓練用」と「検証用」に何通りも分け直して評価することで、モデルの性能をより安定して見積もる手法である。 1 回だけの分割では「たまたま簡単/難しい分割を引いた」せいで結果がブレるので、分割の組み合わせを変えながら平均を取って判断する。 ...
ハイパーパラメータ(hyperparameter)は、機械学習モデルを学習させる前に人間が決める設定値のこと。 データから自動で決まる「パラメータ(parameter)」と区別される。 ...
データリーク(data leakage)は、学習時には観測できるはずのない情報がモデルに混入し、評価指標を不当に高く出してしまう現象である。過学習 と紛らわしいが、過学習が「複雑なモデルが訓練データを覚えすぎる」のに対し、データリークは「特徴量や前処理の組み方が予測対象の情報を漏らしている」点で原因が違う。 ...
次元の呪い(curse of dimensionality)は、特徴量の次元が高くなるにつれて距離・体積・サンプル密度の常識的な感覚が崩れ、距離ベースのアルゴリズムが機能しなくなる現象群の総称である。1961 年に Bellman が制御理論の文脈で命名した古い用語だが、機械学習の文脈では「特徴量を増やすほど精度が上がるとは限らない、むしろ kNN や RBF カーネルがほぼ動かなくなる」という現実問題として現れる。 ...