平均(算術平均)

平均(算術平均, mean)は、データの「中心」を表す代表値の中で最も基本的な指標である。全ての値を足して個数で割るというシンプルな計算式ながら、確率論の期待値・最小二乗推定・大数の法則・中心極限定理など、統計学のほぼ全ての領域で土台として登場する。後から学ぶ 分散 ・ 標準偏差 ・ 相関係数 も内部で平均を使っており、平均を理解することは統計を理解することと言い換えてもよいと考えられる。 ...

2026年5月24日 · 4 min · nchika

中央値(メジアン)

中央値(median)は、データを小さい順に並べたときに「真ん中に来る値」を表す代表値である。平均が「値の重心」を見るのに対し、中央値は「順位の中心」を見るので、外れ値の影響を受けにくいのが大きな特徴となる。 定義はデータ数 n で場合分けする。 n が奇数: ちょうど真ん中の値((n+1)/2 番目) n が偶数: 真ん中 2 つの平均(n/2 番目と n/2+1 番目の平均) 中央値は「四分位点 の Q2(50% 点)」と同じものを指す。順位ベースの代表値という意味で、ロバスト統計(外れ値や歪んだ分布に強い手法の総称)の入口に位置する指標と言える。 ...

2026年5月24日 · 5 min · nchika

四分位点(分位点)

四分位点(quartile)は、データを小さい順に並べて「4 等分する位置」の値を取り出した代表値である。中央値 を「2 等分する位置」と捉えると、四分位点はその拡張になっている。 ...

2026年5月24日 · 5 min · nchika

分散(バリアンス)

分散(variance)は、データの散らばり具合を「平均 からの差の二乗の平均」として定量化する指標である。代表値が「分布の中心」を表すなら、分散は「分布の広がり」を表す代表的な量となる。中心と広がりがあれば、分布の最も基本的な姿(正規分布なら完全に決まる)が記述できる。 ...

2026年5月24日 · 5 min · nchika

標準偏差

標準偏差(standard deviation, stddev)は、分散 の平方根として定義される散らばりの指標である。分散と数学的には等価だが、「単位が元データと同じ」という違いが実用上は決定的に重要となる。例えば身長(cm)のデータなら、分散は cm² という解釈しにくい単位になる一方、標準偏差は cm のまま扱える。 ...

2026年5月24日 · 4 min · nchika

歪度(skewness)と log1p 変換

歪度(skewness、わいど)は、分布の「左右の非対称さ」を 1 つの数で表す指標である。平均 が分布の中心、分散 と標準偏差 が広がりを表すのに対して、歪度は「形のバランス」を表す。 ...

2026年5月24日 · 4 min · nchika

カーネル密度推定(KDE)

カーネル密度推定(Kernel Density Estimation, KDE)は、ヒストグラムの代わりに「滑らかな分布曲線」を推定するノンパラメトリックな手法である。各データ点に「その点の近くほど確率が高い」という小さな分布(カーネル)を置き、全点のカーネルを足し合わせて全体の形を作る。曲線の面積が 1 になるように正規化されており、出力は確率密度関数として読める。 ...

2026年5月24日 · 5 min · nchika

相関係数

相関係数は、2 つの変数の関係の強さを 1 つの数で要約する指標である。目的やデータ特性に応じて、線形関係を測る Pearson 相関係数、順位の単調関係を見る Spearman / Kendall 相関係数を使い分ける。 ...

2026年5月24日 · 6 min · nchika