Statistics

平均（算術平均）

平均（算術平均, mean）は、データの「中心」を表す代表値の中で最も基本的な指標である。全ての値を足して個数で割るというシンプルな計算式ながら、確率論の期待値・最小二乗推定・大数の法則・中心極限定理の定義に直接現れる。後から学ぶ分散・標準偏差・相関係数も内部で平均を使っており、後続の統計量を読むときの基準点として最初に押さえる量となる。 ...

中央値（メジアン）

中央値（median）は、データを小さい順に並べたときに「真ん中に来る値」を表す代表値である。平均が「値の重心」を見るのに対し、中央値は「順位の中心」を見るので、外れ値の影響を受けにくいのが大きな特徴となる。定義はデータ数 n で場合分けする。 n が奇数: ちょうど真ん中の値（(n+1)/2 番目） n が偶数: 真ん中 2 つの平均（n/2 番目と n/2+1 番目の平均）中央値は「四分位点の Q2（50% 点）」と同じものを指す。順位ベースの代表値という意味で、ロバスト統計（外れ値や歪んだ分布に強い手法の総称）の入口に位置する指標と言える。 ...

四分位点（分位点）

四分位点（quartile）は、データを小さい順に並べて「4 等分する位置」の値を取り出した代表値である。中央値を「2 等分する位置」と捉えると、四分位点はその拡張になっている。 ...

分散（バリアンス）

分散（variance）は、データの散らばり具合を「平均からの差の二乗の平均」として定量化する指標である。代表値が「分布の中心」を表すなら、分散は「分布の広がり」を表す代表的な量となる。中心と広がりがあれば、分布の最も基本的な姿（正規分布なら完全に決まる）が記述できる。 ...

標準偏差

標準偏差（standard deviation, stddev）は、分散の平方根として定義される散らばりの指標である。分散と数学的には等価だが、「単位が元データと同じ」という違いが実用上は決定的に重要となる。例えば身長（cm）のデータなら、分散は cm² という解釈しにくい単位になる一方、標準偏差は cm のまま扱える。 ...

歪度（skewness）と log1p 変換

歪度（skewness、わいど）は、分布の「左右の非対称さ」を 1 つの数で表す指標である。平均が分布の中心、分散と標準偏差が広がりを表すのに対して、歪度は「形のバランス」を表す。 ...

カーネル密度推定（KDE）

カーネル密度推定（Kernel Density Estimation, KDE）は、ヒストグラムの代わりに「滑らかな分布曲線」を推定するノンパラメトリックな手法である。各データ点に「その点の近くほど確率が高い」という小さな分布（カーネル）を置き、全点のカーネルを足し合わせて全体の形を作る。曲線の面積が 1 になるように正規化されており、出力は確率密度関数として読める。 ...

相関係数

相関係数は、2 つの変数の関係の強さを 1 つの数で要約する指標である。目的やデータ特性に応じて、線形関係を測る Pearson 相関係数、順位の単調関係を見る Spearman / Kendall 相関係数を使い分ける。 ...

期待値（expectation / expected value）

期待値（expected value, E[X]）は、確率変数 X を「無限回サンプリングして平均を取ったときの収束先」を表す量である。離散の場合は E[X] = Σ_x x P(x)、連続の場合は E[X] = ∫ x f(x) dx と書ける。「確率で重み付けした和（または積分）」が中心の定義で、物理で言う質量分布の重心と同じ構造を持つ。 ...

同時分布・周辺分布・条件付き分布

確率変数が複数あるとき、それらの関係を表す分布には 3 種類ある。同時分布（joint distribution, P(x, y)）、周辺分布（marginal distribution, P(x) や P(y)）、条件付き分布（conditional distribution, P(y|x)）の 3 つで、機械学習の本や論文で繰り返し出てくる基本概念である。 ...

代表的な確率分布（probability distributions）

確率分布（probability distribution）は、確率変数 X が取りうる値とその確率を対応づける関数のことである。離散変数なら確率質量関数（PMF, P(X = k)）、連続変数なら確率密度関数（PDF, f(x)）で記述される。機械学習で「データはこんな分布から生成されたとモデル化する」「予測モデルはこんな分布を出力する」と語るとき、必ず特定の分布族を念頭に置くことになる。 ...

ベイズの定理（Bayes' theorem）

ベイズの定理（Bayes’ theorem）は、ある仮説に対する確率を「観測したデータ」を踏まえて更新する規則である。式で書くと、 P(H | D) = P(D | H) × P(H) / P(D) ...

情報理論（information theory）: エントロピー・KL ダイバージェンス・相互情報量

情報理論（information theory）は、Claude Shannon が 1948 年に創始した「情報を定量化する」枠組みである。中核となる量がエントロピー（entropy, 不確実性）、KL ダイバージェンス（2 分布の距離）、相互情報量（mutual information, 2 変数の依存性）の 3 つで、機械学習の損失関数・特徴量選択・決定木の分割基準・変分推論などに直接現れる。 ...

大数の法則と中心極限定理（LLN / CLT）

大数の法則（Law of Large Numbers, LLN）と中心極限定理（Central Limit Theorem, CLT）は、統計学の 2 大基本定理である。両者とも「独立同分布のサンプル X_1, X_2, ..., X_n の平均」が大きな n でどう振る舞うかを記述する。 ...

仮説検定・p 値・信頼区間（hypothesis testing / p-value / confidence interval）

仮説検定（hypothesis testing）は、ある主張（帰無仮説）が正しいと仮定したときに、観測されたデータがどれくらい「ありえない」かを定量化して結論を出す統計的手続きである。p 値（p-value）はその「ありえなさ」を 1 つの確率として表した量、信頼区間（confidence interval）は推定値の周りに「真値があると考えられる範囲」を区間で示したものとなる。 ...