全部ChatGPT先生に書いてもらってコピペするだけになりました。。。
最尤推定について
最尤推定(Maximum Likelihood Estimation, MLE)は、統計学で広く使われる手法で、与えられたデータに最も適合するモデルのパラメータを推定する方法です。具体的には、観測されたデータが最も発生しやすいような確率分布のパラメータを見つけることが目的です。
基本概念
最尤推定の基本アイデアは、「観測データが実際に観測される確率を最大化するパラメータを探す」ことです。
-
確率モデルの設定:
まず、観測データが従うと仮定する確率モデル(例えば、正規分布や二項分布など)を定義します。
例えば、観測データ が正規分布に従うと仮定すると、確率密度関数は次のようになります:x_1, x_2, \dots, x_n f(x \mid \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right) ここで、
は平均、\mu は分散です。\sigma^2 -
尤度関数:
観測データ全体が得られる確率を、パラメータ を使って表現します。これを 尤度関数 と呼びます。\theta L(\theta \mid x_1, x_2, \dots, x_n) = f(x_1 \mid \theta) f(x_2 \mid \theta) \cdots f(x_n \mid \theta) 尤度関数は、観測されたデータ
が与えられたときに、そのデータを最も説明するパラメータx_1, x_2, \dots, x_n を見つけるために使用されます。\theta -
対数尤度関数:
尤度関数は通常、非常に小さい値になるため、計算が難しくなります。そのため、計算を容易にするために 対数尤度関数 を用います。対数は単調増加関数なので、尤度を最大化するのと対数尤度を最大化するのは同じことです。\ell(\theta) = \log L(\theta \mid x_1, x_2, \dots, x_n) -
尤度最大化:
尤度関数、または対数尤度関数を最大化するパラメータ を求めます。これが最尤推定量です。\theta
例: 正規分布の最尤推定
正規分布を仮定した場合、観測データ
-
正規分布の確率密度関数は次の通りです:
f(x \mid \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right) -
尤度関数は、この確率密度関数を全データに適用したものです:
L(\mu, \sigma^2) = \prod_{i=1}^{n} f(x_i \mid \mu, \sigma^2) -
これを対数を取って対数尤度関数にすると次のようになります:
\ell(\mu, \sigma^2) = -\frac{n}{2} \log(2\pi\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^{n} (x_i - \mu)^2 -
これを
と\mu に関して微分して、最大化するような\sigma^2 と\mu を求めます。この結果として、最尤推定量は以下の通りです:\sigma^2 \hat{\mu} = \frac{1}{n} \sum_{i=1}^{n} x_i \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \hat{\mu})^2
このように、最尤推定法により観測データに基づいて分布のパラメータを推定することができます。
特徴と利点
- 直感的: データが最も発生しやすいパラメータを選ぶという直感的な方法です。
- 適用範囲が広い: 多くの確率分布やモデルに対して適用可能です。
- 漸近的性質: 標本サイズが大きくなるにつれて、最尤推定量は真のパラメータに収束するという良い性質を持ちます(大標本理論に基づく)。
二次元正規分布(2D正規分布)における最尤推定は、与えられた2次元データのセットから、分布の平均ベクトルと共分散行列を推定する方法です。1次元の正規分布と同様に、観測データが最も発生しやすいように分布のパラメータ(平均と共分散)を見つけるのが目的です。
二次元正規分布の確率密度関数
二次元正規分布の確率密度関数は、以下のように表されます。
ここで、
-
は2次元の観測データです。\mathbf{x} = \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} -
は2次元の平均ベクトルです。\boldsymbol{\mu} = \begin{bmatrix} \mu_1 \\ \mu_2 \end{bmatrix} -
は\Sigma の共分散行列です:2 \times 2 \Sigma = \begin{bmatrix} \sigma_{11} & \sigma_{12} \\ \sigma_{21} & \sigma_{22} \end{bmatrix} 共分散行列
は対称行列なので、\Sigma です。\sigma_{12} = \sigma_{21} -
は共分散行列|\Sigma| の行列式です。\Sigma -
は共分散行列の逆行列です。\Sigma^{-1}
最尤推定
最尤推定では、与えられたデータから平均ベクトル
1. 尤度関数
対数尤度関数を取ると、計算が簡単になります。
具体的に展開すると、
2. 最尤推定量の計算
この対数尤度関数を最大化するために、平均ベクトル
平均ベクトルの最尤推定量
平均ベクトル
ここで、
共分散行列の最尤推定量
共分散行列
具体的に書くと、
この行列の各要素は次のように解釈されます:
は1次元目のデータの分散(分布の広がり)、\sigma_{11} は2次元目のデータの分散、\sigma_{22} および\sigma_{12} は1次元目と2次元目の共分散です。\sigma_{21}
まとめ
- 平均ベクトル
は、観測データの各次元の平均値に相当します。\hat{\boldsymbol{\mu}} - 共分散行列
は、データの分散と共分散を使って計算されます。\hat{\Sigma}
このようにして、二次元正規分布の最尤推定は、与えられたデータから分布を最もよく説明するパラメータを推定することができます。