Statistics on Debimate

平均（算術平均）

Sun, 24 May 2026 00:00:00 +0000

平均（算術平均, mean）は、データの「中心」を表す代表値の中で最も基本的な指標である。全ての値を足して個数で割るというシンプルな計算式ながら、確率論の期待値・最小二乗推定・大数の法則・中心極限定理など、統計学のほぼ全ての領域で土台として登場する。後から学ぶ分散・標準偏差・相関係数も内部で平均を使っており、平均を理解することは統計を理解することと言い換えてもよいと考えられる。

中央値（メジアン）

Sun, 24 May 2026 00:00:00 +0000

中央値（median）は、データを小さい順に並べたときに「真ん中に来る値」を表す代表値である。平均が「値の重心」を見るのに対し、中央値は「順位の中心」を見るので、外れ値の影響を受けにくいのが大きな特徴となる。

定義はデータ数 n で場合分けする。

n が奇数: ちょうど真ん中の値（(n+1)/2 番目）
n が偶数: 真ん中 2 つの平均（n/2 番目と n/2+1 番目の平均）

中央値は「四分位点の Q2（50% 点）」と同じものを指す。順位ベースの代表値という意味で、ロバスト統計（外れ値や歪んだ分布に強い手法の総称）の入口に位置する指標と言える。

四分位点（分位点）

Sun, 24 May 2026 00:00:00 +0000

四分位点（quartile）は、データを小さい順に並べて「4 等分する位置」の値を取り出した代表値である。中央値を「2 等分する位置」と捉えると、四分位点はその拡張になっている。

分散（バリアンス）

Sun, 24 May 2026 00:00:00 +0000

分散（variance）は、データの散らばり具合を「平均からの差の二乗の平均」として定量化する指標である。代表値が「分布の中心」を表すなら、分散は「分布の広がり」を表す代表的な量となる。中心と広がりがあれば、分布の最も基本的な姿（正規分布なら完全に決まる）が記述できる。

標準偏差

Sun, 24 May 2026 00:00:00 +0000

標準偏差（standard deviation, stddev）は、分散の平方根として定義される散らばりの指標である。分散と数学的には等価だが、「単位が元データと同じ」という違いが実用上は決定的に重要となる。例えば身長（cm）のデータなら、分散は cm² という解釈しにくい単位になる一方、標準偏差は cm のまま扱える。

歪度（skewness）と log1p 変換

Sun, 24 May 2026 00:00:00 +0000

歪度（skewness、わいど）は、分布の「左右の非対称さ」を 1 つの数で表す指標である。平均が分布の中心、分散と標準偏差が広がりを表すのに対して、歪度は「形のバランス」を表す。

カーネル密度推定（KDE）

Sun, 24 May 2026 00:00:00 +0000

カーネル密度推定（Kernel Density Estimation, KDE）は、ヒストグラムの代わりに「滑らかな分布曲線」を推定するノンパラメトリックな手法である。各データ点に「その点の近くほど確率が高い」という小さな分布（カーネル）を置き、全点のカーネルを足し合わせて全体の形を作る。曲線の面積が 1 になるように正規化されており、出力は確率密度関数として読める。

相関係数

Sun, 24 May 2026 00:00:00 +0000

相関係数は、2 つの変数の関係の強さを 1 つの数で要約する指標である。目的やデータ特性に応じて、線形関係を測る Pearson 相関係数、順位の単調関係を見る Spearman / Kendall 相関係数を使い分ける。