common.title

Docs
Quantum Circuit
TYTAN CLOUD

QUANTUM GAMING


autoQAOA
Desktop RAG

Overview
Terms of service

Privacy policy

Contact
Research

Sign in
Sign up
common.title

最尤推定について

Yuichiro Minato

2024/09/06 10:29

全部ChatGPT先生に書いてもらってコピペするだけになりました。。。

最尤推定について

最尤推定(Maximum Likelihood Estimation, MLE)は、統計学で広く使われる手法で、与えられたデータに最も適合するモデルのパラメータを推定する方法です。具体的には、観測されたデータが最も発生しやすいような確率分布のパラメータを見つけることが目的です。

基本概念

最尤推定の基本アイデアは、「観測データが実際に観測される確率を最大化するパラメータを探す」ことです。

  1. 確率モデルの設定:
    まず、観測データが従うと仮定する確率モデル(例えば、正規分布や二項分布など)を定義します。
    例えば、観測データ x_1, x_2, \dots, x_n が正規分布に従うと仮定すると、確率密度関数は次のようになります:

    f(x \mid \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right)

    ここで、\mu は平均、\sigma^2 は分散です。

  2. 尤度関数:
    観測データ全体が得られる確率を、パラメータ \theta を使って表現します。これを 尤度関数 と呼びます。

    L(\theta \mid x_1, x_2, \dots, x_n) = f(x_1 \mid \theta) f(x_2 \mid \theta) \cdots f(x_n \mid \theta)

    尤度関数は、観測されたデータ x_1, x_2, \dots, x_n が与えられたときに、そのデータを最も説明するパラメータ \theta を見つけるために使用されます。

  3. 対数尤度関数:
    尤度関数は通常、非常に小さい値になるため、計算が難しくなります。そのため、計算を容易にするために 対数尤度関数 を用います。対数は単調増加関数なので、尤度を最大化するのと対数尤度を最大化するのは同じことです。

    \ell(\theta) = \log L(\theta \mid x_1, x_2, \dots, x_n)
  4. 尤度最大化:
    尤度関数、または対数尤度関数を最大化するパラメータ \theta を求めます。これが最尤推定量です。

例: 正規分布の最尤推定

正規分布を仮定した場合、観測データ x_1, x_2, \dots, x_n があるとき、平均 \mu と分散 \sigma^2 を最尤推定する流れを考えます。

  • 正規分布の確率密度関数は次の通りです:

    f(x \mid \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right)
  • 尤度関数は、この確率密度関数を全データに適用したものです:

    L(\mu, \sigma^2) = \prod_{i=1}^{n} f(x_i \mid \mu, \sigma^2)
  • これを対数を取って対数尤度関数にすると次のようになります:

    \ell(\mu, \sigma^2) = -\frac{n}{2} \log(2\pi\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^{n} (x_i - \mu)^2
  • これを \mu\sigma^2 に関して微分して、最大化するような \mu\sigma^2 を求めます。この結果として、最尤推定量は以下の通りです:

    \hat{\mu} = \frac{1}{n} \sum_{i=1}^{n} x_i
    \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \hat{\mu})^2

このように、最尤推定法により観測データに基づいて分布のパラメータを推定することができます。

特徴と利点

  • 直感的: データが最も発生しやすいパラメータを選ぶという直感的な方法です。
  • 適用範囲が広い: 多くの確率分布やモデルに対して適用可能です。
  • 漸近的性質: 標本サイズが大きくなるにつれて、最尤推定量は真のパラメータに収束するという良い性質を持ちます(大標本理論に基づく)。

二次元正規分布(2D正規分布)における最尤推定は、与えられた2次元データのセットから、分布の平均ベクトルと共分散行列を推定する方法です。1次元の正規分布と同様に、観測データが最も発生しやすいように分布のパラメータ(平均と共分散)を見つけるのが目的です。

二次元正規分布の確率密度関数

二次元正規分布の確率密度関数は、以下のように表されます。

f(\mathbf{x} \mid \boldsymbol{\mu}, \Sigma) = \frac{1}{2\pi |\Sigma|^{1/2}} \exp\left( -\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^T \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu}) \right)

ここで、

  • \mathbf{x} = \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} は2次元の観測データです。

  • \boldsymbol{\mu} = \begin{bmatrix} \mu_1 \\ \mu_2 \end{bmatrix} は2次元の平均ベクトルです。

  • \Sigma2 \times 2 の共分散行列です:

    \Sigma = \begin{bmatrix} \sigma_{11} & \sigma_{12} \\ \sigma_{21} & \sigma_{22} \end{bmatrix}

    共分散行列 \Sigma は対称行列なので、\sigma_{12} = \sigma_{21} です。

  • |\Sigma| は共分散行列 \Sigma の行列式です。

  • \Sigma^{-1} は共分散行列の逆行列です。

最尤推定

最尤推定では、与えられたデータから平均ベクトル \boldsymbol{\mu} と共分散行列 \Sigma を推定します。

1. 尤度関数

n 個の2次元データ \mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_n が観測されたとき、尤度関数は以下のように表されます。

L(\boldsymbol{\mu}, \Sigma \mid \mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_n) = \prod_{i=1}^{n} f(\mathbf{x}_i \mid \boldsymbol{\mu}, \Sigma)

対数尤度関数を取ると、計算が簡単になります。

\ell(\boldsymbol{\mu}, \Sigma) = \sum_{i=1}^{n} \log f(\mathbf{x}_i \mid \boldsymbol{\mu}, \Sigma)

具体的に展開すると、

\ell(\boldsymbol{\mu}, \Sigma) = -\frac{n}{2} \log |\Sigma| - \frac{1}{2} \sum_{i=1}^{n} (\mathbf{x}_i - \boldsymbol{\mu})^T \Sigma^{-1} (\mathbf{x}_i - \boldsymbol{\mu})

2. 最尤推定量の計算

この対数尤度関数を最大化するために、平均ベクトル \boldsymbol{\mu} と共分散行列 \Sigma についてそれぞれ微分し、最尤推定量を求めます。

平均ベクトルの最尤推定量

平均ベクトル \boldsymbol{\mu} の最尤推定量 \hat{\boldsymbol{\mu}} は、各次元のデータの平均値に等しくなります。

\hat{\boldsymbol{\mu}} = \frac{1}{n} \sum_{i=1}^{n} \mathbf{x}_i = \begin{bmatrix} \frac{1}{n} \sum_{i=1}^{n} x_{i1} \\ \frac{1}{n} \sum_{i=1}^{n} x_{i2} \end{bmatrix}

ここで、x_{i1} はデータ \mathbf{x}_i の1番目の要素、x_{i2} は2番目の要素です。

共分散行列の最尤推定量

共分散行列 \Sigma の最尤推定量 \hat{\Sigma} は、データの分散と共分散から次のように計算されます。

\hat{\Sigma} = \frac{1}{n} \sum_{i=1}^{n} (\mathbf{x}_i - \hat{\boldsymbol{\mu}})(\mathbf{x}_i - \hat{\boldsymbol{\mu}})^T

具体的に書くと、

\hat{\Sigma} = \frac{1}{n} \begin{bmatrix} \sum_{i=1}^{n} (x_{i1} - \hat{\mu}_1)^2 & \sum_{i=1}^{n} (x_{i1} - \hat{\mu}_1)(x_{i2} - \hat{\mu}_2) \\ \sum_{i=1}^{n} (x_{i1} - \hat{\mu}_1)(x_{i2} - \hat{\mu}_2) & \sum_{i=1}^{n} (x_{i2} - \hat{\mu}_2)^2 \end{bmatrix}

この行列の各要素は次のように解釈されます:

  • \sigma_{11} は1次元目のデータの分散(分布の広がり)、
  • \sigma_{22} は2次元目のデータの分散、
  • \sigma_{12} および \sigma_{21} は1次元目と2次元目の共分散です。

まとめ

  • 平均ベクトル \hat{\boldsymbol{\mu}} は、観測データの各次元の平均値に相当します。
  • 共分散行列 \hat{\Sigma} は、データの分散と共分散を使って計算されます。

このようにして、二次元正規分布の最尤推定は、与えられたデータから分布を最もよく説明するパラメータを推定することができます。

© 2025, blueqat Inc. All rights reserved