平均(算術平均)
平均(算術平均, mean)は、データの「中心」を表す代表値の中で最も基本的な指標である。全ての値を足して個数で割るというシンプルな計算式ながら、確率論の期待値・最小二乗推定・大数の法則・中心極限定理の定義に直接現れる。後から学ぶ 分散 ・ 標準偏差 ・ 相関係数 も内部で平均を使っており、後続の統計量を読むときの基準点として最初に押さえる量となる。 ...
平均(算術平均, mean)は、データの「中心」を表す代表値の中で最も基本的な指標である。全ての値を足して個数で割るというシンプルな計算式ながら、確率論の期待値・最小二乗推定・大数の法則・中心極限定理の定義に直接現れる。後から学ぶ 分散 ・ 標準偏差 ・ 相関係数 も内部で平均を使っており、後続の統計量を読むときの基準点として最初に押さえる量となる。 ...
中央値(median)は、データを小さい順に並べたときに「真ん中に来る値」を表す代表値である。平均が「値の重心」を見るのに対し、中央値は「順位の中心」を見るので、外れ値の影響を受けにくいのが大きな特徴となる。 定義はデータ数 n で場合分けする。 n が奇数: ちょうど真ん中の値((n+1)/2 番目) n が偶数: 真ん中 2 つの平均(n/2 番目と n/2+1 番目の平均) 中央値は「四分位点 の Q2(50% 点)」と同じものを指す。順位ベースの代表値という意味で、ロバスト統計(外れ値や歪んだ分布に強い手法の総称)の入口に位置する指標と言える。 ...
四分位点(quartile)は、データを小さい順に並べて「4 等分する位置」の値を取り出した代表値である。中央値 を「2 等分する位置」と捉えると、四分位点はその拡張になっている。 ...
分散(variance)は、データの散らばり具合を「平均 からの差の二乗の平均」として定量化する指標である。代表値が「分布の中心」を表すなら、分散は「分布の広がり」を表す代表的な量となる。中心と広がりがあれば、分布の最も基本的な姿(正規分布なら完全に決まる)が記述できる。 ...
標準偏差(standard deviation, stddev)は、分散 の平方根として定義される散らばりの指標である。分散と数学的には等価だが、「単位が元データと同じ」という違いが実用上は決定的に重要となる。例えば身長(cm)のデータなら、分散は cm² という解釈しにくい単位になる一方、標準偏差は cm のまま扱える。 ...
歪度(skewness、わいど)は、分布の「左右の非対称さ」を 1 つの数で表す指標である。平均 が分布の中心、分散 と標準偏差 が広がりを表すのに対して、歪度は「形のバランス」を表す。 ...
カーネル密度推定(Kernel Density Estimation, KDE)は、ヒストグラムの代わりに「滑らかな分布曲線」を推定するノンパラメトリックな手法である。各データ点に「その点の近くほど確率が高い」という小さな分布(カーネル)を置き、全点のカーネルを足し合わせて全体の形を作る。曲線の面積が 1 になるように正規化されており、出力は確率密度関数として読める。 ...
相関係数は、2 つの変数の関係の強さを 1 つの数で要約する指標である。目的やデータ特性に応じて、線形関係を測る Pearson 相関係数、順位の単調関係を見る Spearman / Kendall 相関係数を使い分ける。 ...
期待値(expected value, E[X])は、確率変数 X を「無限回サンプリングして平均を取ったときの収束先」を表す量である。離散の場合は E[X] = Σ_x x P(x)、連続の場合は E[X] = ∫ x f(x) dx と書ける。「確率で重み付けした和(または積分)」が中心の定義で、物理で言う質量分布の重心と同じ構造を持つ。 ...
確率変数が複数あるとき、それらの関係を表す分布には 3 種類ある。同時分布(joint distribution, P(x, y))、周辺分布(marginal distribution, P(x) や P(y))、条件付き分布(conditional distribution, P(y|x))の 3 つで、機械学習の本や論文で繰り返し出てくる基本概念である。 ...
確率分布(probability distribution)は、確率変数 X が取りうる値とその確率を対応づける関数のことである。離散変数なら確率質量関数(PMF, P(X = k))、連続変数なら確率密度関数(PDF, f(x))で記述される。機械学習で「データはこんな分布から生成されたとモデル化する」「予測モデルはこんな分布を出力する」と語るとき、必ず特定の分布族を念頭に置くことになる。 ...
ベイズの定理(Bayes’ theorem)は、ある仮説に対する確率を「観測したデータ」を踏まえて更新する規則である。式で書くと、 P(H | D) = P(D | H) × P(H) / P(D) ...
情報理論(information theory)は、Claude Shannon が 1948 年に創始した「情報を定量化する」枠組みである。中核となる量がエントロピー(entropy, 不確実性)、KL ダイバージェンス(2 分布の距離)、相互情報量(mutual information, 2 変数の依存性)の 3 つで、機械学習の損失関数・特徴量選択・決定木の分割基準・変分推論などに直接現れる。 ...
大数の法則(Law of Large Numbers, LLN)と中心極限定理(Central Limit Theorem, CLT)は、統計学の 2 大基本定理である。両者とも「独立同分布のサンプル X_1, X_2, ..., X_n の平均」が大きな n でどう振る舞うかを記述する。 ...
仮説検定(hypothesis testing)は、ある主張(帰無仮説)が正しいと仮定したときに、観測されたデータがどれくらい「ありえない」かを定量化して結論を出す統計的手続きである。p 値(p-value)はその「ありえなさ」を 1 つの確率として表した量、信頼区間(confidence interval)は推定値の周りに「真値があると考えられる範囲」を区間で示したものとなる。 ...