最尤推定について

全部ChatGPT先生に書いてもらってコピペするだけになりました。。。

最尤推定について

最尤推定（Maximum Likelihood Estimation, MLE）は、統計学で広く使われる手法で、与えられたデータに最も適合するモデルのパラメータを推定する方法です。具体的には、観測されたデータが最も発生しやすいような確率分布のパラメータを見つけることが目的です。

基本概念

最尤推定の基本アイデアは、「観測データが実際に観測される確率を最大化するパラメータを探す」ことです。

確率モデルの設定:
まず、観測データが従うと仮定する確率モデル（例えば、正規分布や二項分布など）を定義します。
例えば、観測データ $x_1, x_2, \dots, x_n$ が正規分布に従うと仮定すると、確率密度関数は次のようになります:
$f(x \mid \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right)$
ここで、 $\mu$ は平均、 $\sigma^2$ は分散です。
尤度関数:
観測データ全体が得られる確率を、パラメータ $\theta$ を使って表現します。これを 尤度関数 と呼びます。
$L(\theta \mid x_1, x_2, \dots, x_n) = f(x_1 \mid \theta) f(x_2 \mid \theta) \cdots f(x_n \mid \theta)$
尤度関数は、観測されたデータ $x_1, x_2, \dots, x_n$ が与えられたときに、そのデータを最も説明するパラメータ $\theta$ を見つけるために使用されます。
対数尤度関数:
尤度関数は通常、非常に小さい値になるため、計算が難しくなります。そのため、計算を容易にするために 対数尤度関数 を用います。対数は単調増加関数なので、尤度を最大化するのと対数尤度を最大化するのは同じことです。
$\ell(\theta) = \log L(\theta \mid x_1, x_2, \dots, x_n)$
尤度最大化:
尤度関数、または対数尤度関数を最大化するパラメータ $\theta$ を求めます。これが最尤推定量です。

例: 正規分布の最尤推定

正規分布を仮定した場合、観測データ $x_1, x_2, \dots, x_n$ があるとき、平均 $\mu$ と分散 $\sigma^2$ を最尤推定する流れを考えます。

正規分布の確率密度関数は次の通りです:
$f(x \mid \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right)$
尤度関数は、この確率密度関数を全データに適用したものです:
$L(\mu, \sigma^2) = \prod_{i=1}^{n} f(x_i \mid \mu, \sigma^2)$
これを対数を取って対数尤度関数にすると次のようになります:
$\ell(\mu, \sigma^2) = -\frac{n}{2} \log(2\pi\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^{n} (x_i - \mu)^2$
これを $\mu$ と $\sigma^2$ に関して微分して、最大化するような $\mu$ と $\sigma^2$ を求めます。この結果として、最尤推定量は以下の通りです:
$\hat{\mu} = \frac{1}{n} \sum_{i=1}^{n} x_i$ $\hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \hat{\mu})^2$

このように、最尤推定法により観測データに基づいて分布のパラメータを推定することができます。

特徴と利点

直感的: データが最も発生しやすいパラメータを選ぶという直感的な方法です。
適用範囲が広い: 多くの確率分布やモデルに対して適用可能です。
漸近的性質: 標本サイズが大きくなるにつれて、最尤推定量は真のパラメータに収束するという良い性質を持ちます（大標本理論に基づく）。

二次元正規分布（2D正規分布）における最尤推定は、与えられた2次元データのセットから、分布の平均ベクトルと共分散行列を推定する方法です。1次元の正規分布と同様に、観測データが最も発生しやすいように分布のパラメータ（平均と共分散）を見つけるのが目的です。

二次元正規分布の確率密度関数

二次元正規分布の確率密度関数は、以下のように表されます。

f(\mathbf{x} \mid \boldsymbol{\mu}, \Sigma) = \frac{1}{2\pi |\Sigma|^{1/2}} \exp\left( -\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^T \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu}) \right)

ここで、

$\mathbf{x} = \begin{bmatrix} x_1 \\ x_2 \end{bmatrix}$ は2次元の観測データです。
$\boldsymbol{\mu} = \begin{bmatrix} \mu_1 \\ \mu_2 \end{bmatrix}$ は2次元の平均ベクトルです。
$\Sigma$ は $2 \times 2$ の共分散行列です:
$\Sigma = \begin{bmatrix} \sigma_{11} & \sigma_{12} \\ \sigma_{21} & \sigma_{22} \end{bmatrix}$
共分散行列 $\Sigma$ は対称行列なので、 $\sigma_{12} = \sigma_{21}$ です。
$|\Sigma|$ は共分散行列 $\Sigma$ の行列式です。
$\Sigma^{-1}$ は共分散行列の逆行列です。

最尤推定

最尤推定では、与えられたデータから平均ベクトル $\boldsymbol{\mu}$ と共分散行列 $\Sigma$ を推定します。

1. 尤度関数

$n$ 個の2次元データ $\mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_n$ が観測されたとき、尤度関数は以下のように表されます。

L(\boldsymbol{\mu}, \Sigma \mid \mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_n) = \prod_{i=1}^{n} f(\mathbf{x}_i \mid \boldsymbol{\mu}, \Sigma)

対数尤度関数を取ると、計算が簡単になります。

\ell(\boldsymbol{\mu}, \Sigma) = \sum_{i=1}^{n} \log f(\mathbf{x}_i \mid \boldsymbol{\mu}, \Sigma)

具体的に展開すると、

\ell(\boldsymbol{\mu}, \Sigma) = -\frac{n}{2} \log |\Sigma| - \frac{1}{2} \sum_{i=1}^{n} (\mathbf{x}_i - \boldsymbol{\mu})^T \Sigma^{-1} (\mathbf{x}_i - \boldsymbol{\mu})

2. 最尤推定量の計算

この対数尤度関数を最大化するために、平均ベクトル $\boldsymbol{\mu}$ と共分散行列 $\Sigma$ についてそれぞれ微分し、最尤推定量を求めます。

平均ベクトルの最尤推定量

平均ベクトル $\boldsymbol{\mu}$ の最尤推定量 $\hat{\boldsymbol{\mu}}$ は、各次元のデータの平均値に等しくなります。

\hat{\boldsymbol{\mu}} = \frac{1}{n} \sum_{i=1}^{n} \mathbf{x}_i = \begin{bmatrix} \frac{1}{n} \sum_{i=1}^{n} x_{i1} \\ \frac{1}{n} \sum_{i=1}^{n} x_{i2} \end{bmatrix}

ここで、 $x_{i1}$ はデータ $\mathbf{x}_i$ の1番目の要素、 $x_{i2}$ は2番目の要素です。

共分散行列の最尤推定量

共分散行列 $\Sigma$ の最尤推定量 $\hat{\Sigma}$ は、データの分散と共分散から次のように計算されます。

\hat{\Sigma} = \frac{1}{n} \sum_{i=1}^{n} (\mathbf{x}_i - \hat{\boldsymbol{\mu}})(\mathbf{x}_i - \hat{\boldsymbol{\mu}})^T

具体的に書くと、

\hat{\Sigma} = \frac{1}{n} \begin{bmatrix} \sum_{i=1}^{n} (x_{i1} - \hat{\mu}_1)^2 & \sum_{i=1}^{n} (x_{i1} - \hat{\mu}_1)(x_{i2} - \hat{\mu}_2) \\ \sum_{i=1}^{n} (x_{i1} - \hat{\mu}_1)(x_{i2} - \hat{\mu}_2) & \sum_{i=1}^{n} (x_{i2} - \hat{\mu}_2)^2 \end{bmatrix}

この行列の各要素は次のように解釈されます：

$\sigma_{11}$ は1次元目のデータの分散（分布の広がり）、
$\sigma_{22}$ は2次元目のデータの分散、
$\sigma_{12}$ および $\sigma_{21}$ は1次元目と2次元目の共分散です。

まとめ

平均ベクトル $\hat{\boldsymbol{\mu}}$ は、観測データの各次元の平均値に相当します。
共分散行列 $\hat{\Sigma}$ は、データの分散と共分散を使って計算されます。

このようにして、二次元正規分布の最尤推定は、与えられたデータから分布を最もよく説明するパラメータを推定することができます。

最尤推定について

Yuichiro Minato