全部ChatGPT先生に書いてもらってコピペするだけになりました。。。
最尤推定について
最尤推定(Maximum Likelihood Estimation, MLE)は、統計学で広く使われる手法で、与えられたデータに最も適合するモデルのパラメータを推定する方法です。具体的には、観測されたデータが最も発生しやすいような確率分布のパラメータを見つけることが目的です。
基本概念
最尤推定の基本アイデアは、「観測データが実際に観測される確率を最大化するパラメータを探す」ことです。
-
確率モデルの設定:
まず、観測データが従うと仮定する確率モデル(例えば、正規分布や二項分布など)を定義します。
例えば、観測データ x_1, x_2, \dots, x_n が正規分布に従うと仮定すると、確率密度関数は次のようになります:
f(x \mid \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right)
ここで、\mu は平均、\sigma^2 は分散です。
-
尤度関数:
観測データ全体が得られる確率を、パラメータ \theta を使って表現します。これを 尤度関数 と呼びます。
L(\theta \mid x_1, x_2, \dots, x_n) = f(x_1 \mid \theta) f(x_2 \mid \theta) \cdots f(x_n \mid \theta)
尤度関数は、観測されたデータ x_1, x_2, \dots, x_n が与えられたときに、そのデータを最も説明するパラメータ \theta を見つけるために使用されます。
-
対数尤度関数:
尤度関数は通常、非常に小さい値になるため、計算が難しくなります。そのため、計算を容易にするために 対数尤度関数 を用います。対数は単調増加関数なので、尤度を最大化するのと対数尤度を最大化するのは同じことです。
\ell(\theta) = \log L(\theta \mid x_1, x_2, \dots, x_n)
-
尤度最大化:
尤度関数、または対数尤度関数を最大化するパラメータ \theta を求めます。これが最尤推定量です。
例: 正規分布の最尤推定
正規分布を仮定した場合、観測データ x_1, x_2, \dots, x_n があるとき、平均 \mu と分散 \sigma^2 を最尤推定する流れを考えます。
-
正規分布の確率密度関数は次の通りです:
f(x \mid \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right)
-
尤度関数は、この確率密度関数を全データに適用したものです:
L(\mu, \sigma^2) = \prod_{i=1}^{n} f(x_i \mid \mu, \sigma^2)
-
これを対数を取って対数尤度関数にすると次のようになります:
\ell(\mu, \sigma^2) = -\frac{n}{2} \log(2\pi\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^{n} (x_i - \mu)^2
-
これを \mu と \sigma^2 に関して微分して、最大化するような \mu と \sigma^2 を求めます。この結果として、最尤推定量は以下の通りです:
\hat{\mu} = \frac{1}{n} \sum_{i=1}^{n} x_i
\hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \hat{\mu})^2
このように、最尤推定法により観測データに基づいて分布のパラメータを推定することができます。
特徴と利点
- 直感的: データが最も発生しやすいパラメータを選ぶという直感的な方法です。
- 適用範囲が広い: 多くの確率分布やモデルに対して適用可能です。
- 漸近的性質: 標本サイズが大きくなるにつれて、最尤推定量は真のパラメータに収束するという良い性質を持ちます(大標本理論に基づく)。
二次元正規分布(2D正規分布)における最尤推定は、与えられた2次元データのセットから、分布の平均ベクトルと共分散行列を推定する方法です。1次元の正規分布と同様に、観測データが最も発生しやすいように分布のパラメータ(平均と共分散)を見つけるのが目的です。
二次元正規分布の確率密度関数
二次元正規分布の確率密度関数は、以下のように表されます。
f(\mathbf{x} \mid \boldsymbol{\mu}, \Sigma) = \frac{1}{2\pi |\Sigma|^{1/2}} \exp\left( -\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^T \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu}) \right)
ここで、
-
\mathbf{x} = \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} は2次元の観測データです。
-
\boldsymbol{\mu} = \begin{bmatrix} \mu_1 \\ \mu_2 \end{bmatrix} は2次元の平均ベクトルです。
-
\Sigma は 2 \times 2 の共分散行列です:
\Sigma = \begin{bmatrix} \sigma_{11} & \sigma_{12} \\ \sigma_{21} & \sigma_{22} \end{bmatrix}
共分散行列 \Sigma は対称行列なので、\sigma_{12} = \sigma_{21} です。
-
|\Sigma| は共分散行列 \Sigma の行列式です。
-
\Sigma^{-1} は共分散行列の逆行列です。
最尤推定
最尤推定では、与えられたデータから平均ベクトル \boldsymbol{\mu} と共分散行列 \Sigma を推定します。
1. 尤度関数
n 個の2次元データ \mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_n が観測されたとき、尤度関数は以下のように表されます。
L(\boldsymbol{\mu}, \Sigma \mid \mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_n) = \prod_{i=1}^{n} f(\mathbf{x}_i \mid \boldsymbol{\mu}, \Sigma)
対数尤度関数を取ると、計算が簡単になります。
\ell(\boldsymbol{\mu}, \Sigma) = \sum_{i=1}^{n} \log f(\mathbf{x}_i \mid \boldsymbol{\mu}, \Sigma)
具体的に展開すると、
\ell(\boldsymbol{\mu}, \Sigma) = -\frac{n}{2} \log |\Sigma| - \frac{1}{2} \sum_{i=1}^{n} (\mathbf{x}_i - \boldsymbol{\mu})^T \Sigma^{-1} (\mathbf{x}_i - \boldsymbol{\mu})
2. 最尤推定量の計算
この対数尤度関数を最大化するために、平均ベクトル \boldsymbol{\mu} と共分散行列 \Sigma についてそれぞれ微分し、最尤推定量を求めます。
平均ベクトルの最尤推定量
平均ベクトル \boldsymbol{\mu} の最尤推定量 \hat{\boldsymbol{\mu}} は、各次元のデータの平均値に等しくなります。
\hat{\boldsymbol{\mu}} = \frac{1}{n} \sum_{i=1}^{n} \mathbf{x}_i = \begin{bmatrix} \frac{1}{n} \sum_{i=1}^{n} x_{i1} \\ \frac{1}{n} \sum_{i=1}^{n} x_{i2} \end{bmatrix}
ここで、x_{i1} はデータ \mathbf{x}_i の1番目の要素、x_{i2} は2番目の要素です。
共分散行列の最尤推定量
共分散行列 \Sigma の最尤推定量 \hat{\Sigma} は、データの分散と共分散から次のように計算されます。
\hat{\Sigma} = \frac{1}{n} \sum_{i=1}^{n} (\mathbf{x}_i - \hat{\boldsymbol{\mu}})(\mathbf{x}_i - \hat{\boldsymbol{\mu}})^T
具体的に書くと、
\hat{\Sigma} = \frac{1}{n} \begin{bmatrix} \sum_{i=1}^{n} (x_{i1} - \hat{\mu}_1)^2 & \sum_{i=1}^{n} (x_{i1} - \hat{\mu}_1)(x_{i2} - \hat{\mu}_2) \\ \sum_{i=1}^{n} (x_{i1} - \hat{\mu}_1)(x_{i2} - \hat{\mu}_2) & \sum_{i=1}^{n} (x_{i2} - \hat{\mu}_2)^2 \end{bmatrix}
この行列の各要素は次のように解釈されます:
- \sigma_{11} は1次元目のデータの分散(分布の広がり)、
- \sigma_{22} は2次元目のデータの分散、
- \sigma_{12} および \sigma_{21} は1次元目と2次元目の共分散です。
まとめ
- 平均ベクトル \hat{\boldsymbol{\mu}} は、観測データの各次元の平均値に相当します。
- 共分散行列 \hat{\Sigma} は、データの分散と共分散を使って計算されます。
このようにして、二次元正規分布の最尤推定は、与えられたデータから分布を最もよく説明するパラメータを推定することができます。