common.title
Cloud support

Nobisuke

Dekisugi

RAG


autoQAOA
RAG for dev
Fortune telling app
Annealing
DEEPSCORE
Translation

Overview
Service overview
Terms of service

Privacy policy

Contact
Research

Sign in
Sign up
common.title

最尤推定について

Yuichiro Minato

2024/09/06 10:29

全部ChatGPT先生に書いてもらってコピペするだけになりました。。。

最尤推定について

最尤推定(Maximum Likelihood Estimation, MLE)は、統計学で広く使われる手法で、与えられたデータに最も適合するモデルのパラメータを推定する方法です。具体的には、観測されたデータが最も発生しやすいような確率分布のパラメータを見つけることが目的です。

基本概念

最尤推定の基本アイデアは、「観測データが実際に観測される確率を最大化するパラメータを探す」ことです。

  1. 確率モデルの設定:
    まず、観測データが従うと仮定する確率モデル(例えば、正規分布や二項分布など)を定義します。
    例えば、観測データ x_1, x_2, \dots, x_n が正規分布に従うと仮定すると、確率密度関数は次のようになります:

    f(x \mid \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right)

    ここで、\mu は平均、\sigma^2 は分散です。

  2. 尤度関数:
    観測データ全体が得られる確率を、パラメータ \theta を使って表現します。これを 尤度関数 と呼びます。

    L(\theta \mid x_1, x_2, \dots, x_n) = f(x_1 \mid \theta) f(x_2 \mid \theta) \cdots f(x_n \mid \theta)

    尤度関数は、観測されたデータ x_1, x_2, \dots, x_n が与えられたときに、そのデータを最も説明するパラメータ \theta を見つけるために使用されます。

  3. 対数尤度関数:
    尤度関数は通常、非常に小さい値になるため、計算が難しくなります。そのため、計算を容易にするために 対数尤度関数 を用います。対数は単調増加関数なので、尤度を最大化するのと対数尤度を最大化するのは同じことです。

    \ell(\theta) = \log L(\theta \mid x_1, x_2, \dots, x_n)
  4. 尤度最大化:
    尤度関数、または対数尤度関数を最大化するパラメータ \theta を求めます。これが最尤推定量です。

例: 正規分布の最尤推定

正規分布を仮定した場合、観測データ x_1, x_2, \dots, x_n があるとき、平均 \mu と分散 \sigma^2 を最尤推定する流れを考えます。

  • 正規分布の確率密度関数は次の通りです:

    f(x \mid \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right)
  • 尤度関数は、この確率密度関数を全データに適用したものです:

    L(\mu, \sigma^2) = \prod_{i=1}^{n} f(x_i \mid \mu, \sigma^2)
  • これを対数を取って対数尤度関数にすると次のようになります:

    \ell(\mu, \sigma^2) = -\frac{n}{2} \log(2\pi\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^{n} (x_i - \mu)^2
  • これを \mu\sigma^2 に関して微分して、最大化するような \mu\sigma^2 を求めます。この結果として、最尤推定量は以下の通りです:

    \hat{\mu} = \frac{1}{n} \sum_{i=1}^{n} x_i
    \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \hat{\mu})^2

このように、最尤推定法により観測データに基づいて分布のパラメータを推定することができます。

特徴と利点

  • 直感的: データが最も発生しやすいパラメータを選ぶという直感的な方法です。
  • 適用範囲が広い: 多くの確率分布やモデルに対して適用可能です。
  • 漸近的性質: 標本サイズが大きくなるにつれて、最尤推定量は真のパラメータに収束するという良い性質を持ちます(大標本理論に基づく)。

二次元正規分布(2D正規分布)における最尤推定は、与えられた2次元データのセットから、分布の平均ベクトルと共分散行列を推定する方法です。1次元の正規分布と同様に、観測データが最も発生しやすいように分布のパラメータ(平均と共分散)を見つけるのが目的です。

二次元正規分布の確率密度関数

二次元正規分布の確率密度関数は、以下のように表されます。

f(\mathbf{x} \mid \boldsymbol{\mu}, \Sigma) = \frac{1}{2\pi |\Sigma|^{1/2}} \exp\left( -\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^T \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu}) \right)

ここで、

  • \mathbf{x} = \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} は2次元の観測データです。

  • \boldsymbol{\mu} = \begin{bmatrix} \mu_1 \\ \mu_2 \end{bmatrix} は2次元の平均ベクトルです。

  • \Sigma2 \times 2 の共分散行列です:

    \Sigma = \begin{bmatrix} \sigma_{11} & \sigma_{12} \\ \sigma_{21} & \sigma_{22} \end{bmatrix}

    共分散行列 \Sigma は対称行列なので、\sigma_{12} = \sigma_{21} です。

  • |\Sigma| は共分散行列 \Sigma の行列式です。

  • \Sigma^{-1} は共分散行列の逆行列です。

最尤推定

最尤推定では、与えられたデータから平均ベクトル \boldsymbol{\mu} と共分散行列 \Sigma を推定します。

1. 尤度関数

n 個の2次元データ \mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_n が観測されたとき、尤度関数は以下のように表されます。

L(\boldsymbol{\mu}, \Sigma \mid \mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_n) = \prod_{i=1}^{n} f(\mathbf{x}_i \mid \boldsymbol{\mu}, \Sigma)

対数尤度関数を取ると、計算が簡単になります。

\ell(\boldsymbol{\mu}, \Sigma) = \sum_{i=1}^{n} \log f(\mathbf{x}_i \mid \boldsymbol{\mu}, \Sigma)

具体的に展開すると、

\ell(\boldsymbol{\mu}, \Sigma) = -\frac{n}{2} \log |\Sigma| - \frac{1}{2} \sum_{i=1}^{n} (\mathbf{x}_i - \boldsymbol{\mu})^T \Sigma^{-1} (\mathbf{x}_i - \boldsymbol{\mu})

2. 最尤推定量の計算

この対数尤度関数を最大化するために、平均ベクトル \boldsymbol{\mu} と共分散行列 \Sigma についてそれぞれ微分し、最尤推定量を求めます。

平均ベクトルの最尤推定量

平均ベクトル \boldsymbol{\mu} の最尤推定量 \hat{\boldsymbol{\mu}} は、各次元のデータの平均値に等しくなります。

\hat{\boldsymbol{\mu}} = \frac{1}{n} \sum_{i=1}^{n} \mathbf{x}_i = \begin{bmatrix} \frac{1}{n} \sum_{i=1}^{n} x_{i1} \\ \frac{1}{n} \sum_{i=1}^{n} x_{i2} \end{bmatrix}

ここで、x_{i1} はデータ \mathbf{x}_i の1番目の要素、x_{i2} は2番目の要素です。

共分散行列の最尤推定量

共分散行列 \Sigma の最尤推定量 \hat{\Sigma} は、データの分散と共分散から次のように計算されます。

\hat{\Sigma} = \frac{1}{n} \sum_{i=1}^{n} (\mathbf{x}_i - \hat{\boldsymbol{\mu}})(\mathbf{x}_i - \hat{\boldsymbol{\mu}})^T

具体的に書くと、

\hat{\Sigma} = \frac{1}{n} \begin{bmatrix} \sum_{i=1}^{n} (x_{i1} - \hat{\mu}_1)^2 & \sum_{i=1}^{n} (x_{i1} - \hat{\mu}_1)(x_{i2} - \hat{\mu}_2) \\ \sum_{i=1}^{n} (x_{i1} - \hat{\mu}_1)(x_{i2} - \hat{\mu}_2) & \sum_{i=1}^{n} (x_{i2} - \hat{\mu}_2)^2 \end{bmatrix}

この行列の各要素は次のように解釈されます:

  • \sigma_{11} は1次元目のデータの分散(分布の広がり)、
  • \sigma_{22} は2次元目のデータの分散、
  • \sigma_{12} および \sigma_{21} は1次元目と2次元目の共分散です。

まとめ

  • 平均ベクトル \hat{\boldsymbol{\mu}} は、観測データの各次元の平均値に相当します。
  • 共分散行列 \hat{\Sigma} は、データの分散と共分散を使って計算されます。

このようにして、二次元正規分布の最尤推定は、与えられたデータから分布を最もよく説明するパラメータを推定することができます。

© 2024, blueqat Inc. All rights reserved