この投稿は別サイトからのクロス投稿です(クロス元:https://gsnc.hatenablog.com/entr...

はじめに

ガウス過程回帰を導出する上で必要になる多次元正規分布の条件付き分布についてまとめておく.
教科書「ガウス過程と機械学習」を参考に,式変形の各ステップをなるべく省略せずに記した.

参考資料

持橋先生,大場先生の「ガウス過程と機械学習」先行公開 (γ2版)の第2章.
19年3月発売予定らしいが,サポートページにて一部公開されている.先行公開原稿が素晴らしいのに加えて,サポートページの内容の充実っぷりがすごい.
ただ,(私の勘違いかもしれないが)19年2/4現在において,公開版では後述のように微妙な誤りがあるので注意.正式版では修正されることを期待.

多次元正規分布

\(D\)次元のベクトル\(\boldsymbol{x}=\left(x_1, \cdots, x_D \right)\)が平均\(\boldsymbol{\mu}\),共分散行列\(\boldsymbol{\Sigma}\)の正規分布に従うとき,以下のように表す.

\begin{align} \boldsymbol{x}&\sim \mathcal{N}\left(\boldsymbol{x}|\boldsymbol{\mu}, \boldsymbol{\Sigma} \right) \\ \mathcal{N}(\boldsymbol{x}|\boldsymbol{\mu},\boldsymbol{\Sigma})&=\frac{1}{\left(\sqrt{2\pi}^D \sqrt{|\boldsymbol{\Sigma}|}\right)}\exp\left(-\frac{1}{2}\left(\boldsymbol{x}-\boldsymbol{\mu}\right)^T \boldsymbol{\Sigma}^{-1} \left(\boldsymbol{x}-\boldsymbol{\mu}\right)\right) \end{align}

多次元正規分布の条件付き分布

\(\boldsymbol{x}\)を二つのベクトル\(\boldsymbol{x}_1\)と\(\boldsymbol{x}_2\)に分ける.
\(\boldsymbol{x}=\left(x_1, \cdots, x_D \right)\)から,最初の\(L\)次元\(\boldsymbol{x}_1=\left(x_1, \cdots, x_L \right)\)を抜き出し,残りを\(\boldsymbol{x}_2=\left(x_{L+1}, \cdots, x_D \right)\)とする.

このとき\(\boldsymbol{x}_1\)を固定したときの条件付き分布\(p\left(\boldsymbol{x}_2|\boldsymbol{x}_1 \right)\)は次のように書ける.

\begin{align} p\left(\boldsymbol{x}_2|\boldsymbol{x}_1 \right)=\mathcal{N}\left(\boldsymbol{\mu}_2+\boldsymbol{\Sigma}_{21}\boldsymbol{\Sigma}_{11}^{-1}\left(\boldsymbol{x}_1-\boldsymbol{\mu}_1\right), \boldsymbol{\Sigma}_{22}-\boldsymbol{\Sigma}_{21}\boldsymbol{\Sigma}_{11}^{-1}\boldsymbol{\Sigma}_{12}\right) \\ \end{align}

導出

同時分布と条件付き分布の関係(乗法定理)は

\begin{align} p\left(\boldsymbol{x}_1,\boldsymbol{x}_2 \right)=p\left(\boldsymbol{x}_2|\boldsymbol{x}_1 \right)p\left(\boldsymbol{x}_1 \right)\end{align}

だった.条件付き分布は

\begin{align} p\left(\boldsymbol{x}_2|\boldsymbol{x}_1 \right)=\frac{p\left(\boldsymbol{x}_1,\boldsymbol{x}_2 \right)}{p\left(\boldsymbol{x}_1\right)} \\ \end{align}

であり,今\(\boldsymbol{x}_1\)は条件として固定されているので,\(\boldsymbol{x}_2\)の関数\(p\left(\boldsymbol{x}_2|\boldsymbol{x}_1 \right)\)は\(p\left(\boldsymbol{x}_2,\boldsymbol{x}_1 \right)\)に比例している(分母の\(p\left(\boldsymbol{x}_1 \right)\)には依存しない).
すなわち\(p\left(\boldsymbol{x}_2|\boldsymbol{x}_1 \right) \propto p\left(\boldsymbol{x}_1,\boldsymbol{x}_2 \right)\)である.

さて,\(\boldsymbol{x}\sim \mathcal{N}\left(\boldsymbol{x}|\boldsymbol{\mu}, \boldsymbol{\Sigma} \right) \)であった.同時分布\(p\left(\boldsymbol{x}_2,\boldsymbol{x}_1 \right)\)は\(\boldsymbol{x}_1\)と\(\boldsymbol{x}_2\)が「同時に」得られる確率なのだから,\(p\left(\boldsymbol{x}_2,\boldsymbol{x}_1 \right)=\mathcal{N}\left(\boldsymbol{x}|\boldsymbol{\mu}, \boldsymbol{\Sigma} \right) \)である.

\(\boldsymbol{x}\)を二つのベクトルに分割したので,\(\boldsymbol{\mu}\)と\(\boldsymbol{\Sigma}\)も二つに分割して,次のように表すことができる.

\begin{align} \boldsymbol{x}= \left( \begin{array}{c} \boldsymbol{x}_{1} \\ \boldsymbol{x}_{2} \end{array} \right) \sim \mathcal{N}\left( \left( \begin{array}{c} \boldsymbol{\mu}_{1} \\ \boldsymbol{\mu}_{2} \end{array} \right) , \left( \begin{array}{cc} \boldsymbol{\Sigma}_{11} & \boldsymbol{\Sigma}_{12}\\ \boldsymbol{\Sigma}_{21} & \boldsymbol{\Sigma}_{22} \end{array} \right) \right) \end{align}

精度行列,すなわち共分散行列の逆行列\(\Lambda\)を次のように定義する.

\begin{align} \Lambda= \left( \begin{array}{cc} \boldsymbol{\Lambda}_{11} & \boldsymbol{\Lambda}_{12}\\ \boldsymbol{\Lambda}_{21} & \boldsymbol{\Lambda}_{22} \end{array} \right) = \left( \begin{array}{cc} \boldsymbol{\Sigma}_{11} & \boldsymbol{\Sigma}_{12}\\ \boldsymbol{\Sigma}_{21} & \boldsymbol{\Sigma}_{22} \end{array} \right)^{-1} \end{align}

この精度行列を用いることによって,元の正規分布を次のように表せる.

\begin{align} \mathcal{N}\left(\boldsymbol{x}|\boldsymbol{\mu}, \boldsymbol{\Sigma} \right) = p\left(\boldsymbol{x}_2,\boldsymbol{x}_1 \right) &\propto \exp\left(-\frac{1}{2}\left(\boldsymbol{x}-\boldsymbol{\mu}\right)^T \boldsymbol{\Sigma}^{-1} \left(\boldsymbol{x}-\boldsymbol{\mu}\right)\right) \\ &= \exp\left(-\frac{1}{2}\left(\boldsymbol{x}-\boldsymbol{\mu}\right)^T \boldsymbol{\Lambda} \left(\boldsymbol{x}-\boldsymbol{\mu}\right)\right) \\ &= \exp\left(-\frac{1}{2} \left( \begin{array}{c} \boldsymbol{x}_{1} - \boldsymbol{\mu}_{1} \\ \boldsymbol{x}_{2} - \boldsymbol{\mu}_{2} \end{array} \right)^T \left( \begin{array}{cc} \boldsymbol{\Lambda}_{11} & \boldsymbol{\Lambda}_{12}\\ \boldsymbol{\Lambda}_{21} & \boldsymbol{\Lambda}_{22} \end{array} \right) \left( \begin{array}{c} \boldsymbol{x}_{1} - \boldsymbol{\mu}_{1} \\ \boldsymbol{x}_{2} - \boldsymbol{\mu}_{2} \end{array} \right) \right) \end{align}

次に\(\exp\)の括弧の中を展開したいのだが,要素がブロックに分割されたベクトルの転置については注意しておこう.次に示すように,中身を転置した上で,さらに各ブロックについて転置を取る必要がある.

\begin{align} \left( \begin{array}{c} \boldsymbol{x}_{1} - \boldsymbol{\mu}_{1} \\ \boldsymbol{x}_{2} - \boldsymbol{\mu}_{2} \end{array} \right)^T = \left( \begin{array}{cc} \left( \boldsymbol{x}_{1} - \boldsymbol{\mu}_{1} \right)^T & \left( \boldsymbol{x}_{2} - \boldsymbol{\mu}_{2} \right)^T \end{array} \right) \end{align}

\begin{align} \left( \begin{array}{c} \boldsymbol{x}_{1} - \boldsymbol{\mu}_{1} \\ \boldsymbol{x}_{2} - \boldsymbol{\mu}_{2} \end{array} \right)^T \left( \begin{array}{cc} \boldsymbol{\Lambda}_{11} & \boldsymbol{\Lambda}_{12}\\ \boldsymbol{\Lambda}_{21} & \boldsymbol{\Lambda}_{22} \end{array} \right) \left( \begin{array}{c} \boldsymbol{x}_{1} - \boldsymbol{\mu}_{1} \\ \boldsymbol{x}_{2} - \boldsymbol{\mu}_{2} \end{array} \right) &= \left( \begin{array}{cc} \left( \boldsymbol{x}_{1} - \boldsymbol{\mu}_{1} \right)^T & \left( \boldsymbol{x}_{2} - \boldsymbol{\mu}_{2} \right)^T \end{array} \right) \left( \begin{array}{c} \boldsymbol{\Lambda}_{11} \left( \boldsymbol{x}_{1} - \boldsymbol{\mu}_{1} \right) +\boldsymbol{\Lambda}_{12} \left( \boldsymbol{x}_{2} - \boldsymbol{\mu}_{2} \right) \\ \boldsymbol{\Lambda}_{21} \left( \boldsymbol{x}_{1} - \boldsymbol{\mu}_{1} \right) +\boldsymbol{\Lambda}_{22} \left( \boldsymbol{x}_{2} - \boldsymbol{\mu}_{2} \right) \end{array} \right) \\ &= \left( \boldsymbol{x}_{1} - \boldsymbol{\mu}_{1} \right)^T \boldsymbol{\Lambda}_{11} \left( \boldsymbol{x}_{1} - \boldsymbol{\mu}_{1} \right) + \left( \boldsymbol{x}_{1} - \boldsymbol{\mu}_{1} \right)^T \boldsymbol{\Lambda}_{12} \left( \boldsymbol{x}_{2} - \boldsymbol{\mu}_{2} \right)+ \\ & \hspace{14pt} \left( \boldsymbol{x}_{2} - \boldsymbol{\mu}_{2} \right)^T \boldsymbol{\Lambda}_{21} \left( \boldsymbol{x}_{1} - \boldsymbol{\mu}_{1} \right) + \left( \boldsymbol{x}_{2} - \boldsymbol{\mu}_{2} \right)^T \boldsymbol{\Lambda}_{22} \left( \boldsymbol{x}_{2} - \boldsymbol{\mu}_{2} \right) \\ &= \left( \boldsymbol{x}_{1} - \boldsymbol{\mu}_{1} \right)^T \boldsymbol{\Lambda}_{11} \left( \boldsymbol{x}_{1} - \boldsymbol{\mu}_{1} \right) + 2\left( \boldsymbol{x}_{1} - \boldsymbol{\mu}_{1} \right)^T \boldsymbol{\Lambda}_{21} \left( \boldsymbol{x}_{2} - \boldsymbol{\mu}_{2} \right)+ \\ & \hspace{14pt} \left( \boldsymbol{x}_{2} - \boldsymbol{\mu}_{2} \right)^T \boldsymbol{\Lambda}_{22} \left( \boldsymbol{x}_{2} - \boldsymbol{\mu}_{2} \right) \\ \end{align}

最後の式変形では,\(\boldsymbol{\Lambda}_{12}=\boldsymbol{\Lambda}_{21}\)であり,中央の二つの項が同一であることから導かれる.
ここで一旦,\(\exp\)の中に戻して眺めてみる.\(\exp\)の括弧内の和は,それぞれの\(\exp\)の積に分解できるから,

\begin{align} &\exp\left( \left( \boldsymbol{x}_{1} - \boldsymbol{\mu}_{1} \right)^T \boldsymbol{\Lambda}_{11} \left( \boldsymbol{x}_{1} - \boldsymbol{\mu}_{1} \right) + 2\left( \boldsymbol{x}_{1} - \boldsymbol{\mu}_{1} \right)^T \boldsymbol{\Lambda}_{21} \left( \boldsymbol{x}_{2} - \boldsymbol{\mu}_{2} \right) + \left( \boldsymbol{x}_{2} - \boldsymbol{\mu}_{2} \right)^T \boldsymbol{\Lambda}_{22} \left( \boldsymbol{x}_{2} - \boldsymbol{\mu}_{2} \right) \right)\\ &= \exp\left( \left( \boldsymbol{x}_{1} - \boldsymbol{\mu}_{1} \right)^T \boldsymbol{\Lambda}_{11} \left( \boldsymbol{x}_{1} - \boldsymbol{\mu}_{1} \right) \right) \exp\left( 2\left( \boldsymbol{x}_{1} - \boldsymbol{\mu}_{1} \right)^T \boldsymbol{\Lambda}_{21} \left( \boldsymbol{x}_{2} - \boldsymbol{\mu}_{2} \right) + \left( \boldsymbol{x}_{2} - \boldsymbol{\mu}_{2} \right)^T \boldsymbol{\Lambda}_{22} \left( \boldsymbol{x}_{2} - \boldsymbol{\mu}_{2} \right) \right)\\ \end{align}

となる.\(-\frac{1}{2}\)を省略していることに注意.

ここで\(\exp\left(
\left( \boldsymbol{x}_{1} - \boldsymbol{\mu}_{1} \right)^T
\boldsymbol{\Lambda}_{11} \left( \boldsymbol{x}_{1} - \boldsymbol{\mu}_{1} \right)
\right)\)には\(\boldsymbol{x}_2 \)が含まれておらず,\(p\left(\boldsymbol{x}_2|\boldsymbol{x}_1 \right)\)はこの項に依存しない.したがって引き続き比例関係のみに注目すれば,

\begin{align} p\left(\boldsymbol{x}_2|\boldsymbol{x}_1 \right) &\propto p\left(\boldsymbol{x}_1,\boldsymbol{x}_2 \right)\\ &\propto \exp\left( -\frac{1}{2} \left( 2\left( \boldsymbol{x}_{1} - \boldsymbol{\mu}_{1} \right)^T \boldsymbol{\Lambda}_{21} \left( \boldsymbol{x}_{2} - \boldsymbol{\mu}_{2} \right) + \left( \boldsymbol{x}_{2} - \boldsymbol{\mu}_{2} \right)^T \boldsymbol{\Lambda}_{22} \left( \boldsymbol{x}_{2} - \boldsymbol{\mu}_{2} \right) \right) \right) \end{align}

となる.\(\exp\)の括弧の中身をさらに展開しよう.

\begin{align} &2\left( \boldsymbol{x}_{1} - \boldsymbol{\mu}_{1} \right)^T \boldsymbol{\Lambda}_{21} \left( \boldsymbol{x}_{2} - \boldsymbol{\mu}_{2} \right) + \left( \boldsymbol{x}_{2} - \boldsymbol{\mu}_{2} \right)^T \boldsymbol{\Lambda}_{22} \left( \boldsymbol{x}_{2} - \boldsymbol{\mu}_{2} \right) \\ &= \boldsymbol{x}_{2}^T \boldsymbol{\Lambda}_{22} \boldsymbol{x}_{2} - \boldsymbol{x}_{2}^T \boldsymbol{\Lambda}_{22} \boldsymbol{\mu}_{2} - \boldsymbol{\mu}_{2}^T \boldsymbol{\Lambda}_{22} \boldsymbol{x}_{2} + \boldsymbol{\mu}_{2}^T \boldsymbol{\Lambda}_{22} \boldsymbol{\mu}_{2} + \\ &\hspace{15pt} 2\boldsymbol{x}_{1}^T \boldsymbol{\Lambda}_{21} \boldsymbol{x}_{2} -2\boldsymbol{x}_{1}^T \boldsymbol{\Lambda}_{21} \boldsymbol{\mu}_{2} -2\boldsymbol{\mu}_{1}^T \boldsymbol{\Lambda}_{21} \boldsymbol{x}_{2} +2\boldsymbol{\mu}_{1}^T \boldsymbol{\Lambda}_{21} \boldsymbol{\mu}_{2} \end{align}

ここで,\(\boldsymbol{x}_{2}\)が含まれていない項は,先ほどと同様に独立な\(\exp\)の項として分離することができ,ただの係数となって比例関係から無視することができる.そうすると生き残る項は

\begin{align} &\boldsymbol{x}_{2}^T \boldsymbol{\Lambda}_{22} \boldsymbol{x}_{2} - \boldsymbol{x}_{2}^T \boldsymbol{\Lambda}_{22} \boldsymbol{\mu}_{2} - \boldsymbol{\mu}_{2}^T \boldsymbol{\Lambda}_{22} \boldsymbol{x}_{2} + 2\boldsymbol{x}_{1}^T \boldsymbol{\Lambda}_{21} \boldsymbol{x}_{2} -2\boldsymbol{\mu}_{1}^T \boldsymbol{\Lambda}_{21} \boldsymbol{x}_{2} \\ &= \boldsymbol{x}_{2}^T \boldsymbol{\Lambda}_{22} \boldsymbol{x}_{2} - \boldsymbol{x}_{2}^T \boldsymbol{\Lambda}_{22} \boldsymbol{\mu}_{2} - \boldsymbol{\mu}_{2}^T \boldsymbol{\Lambda}_{22} \boldsymbol{x}_{2} + 2\left(\boldsymbol{x}_{1}^T-\boldsymbol{\mu}_{1}^T\right) \boldsymbol{\Lambda}_{21} \boldsymbol{x}_{2} \\ &= \boldsymbol{x}_{2}^T \boldsymbol{\Lambda}_{22} \boldsymbol{x}_{2} - \boldsymbol{x}_{2}^T \boldsymbol{\Lambda}_{22} \boldsymbol{\mu}_{2} - \boldsymbol{\mu}_{2}^T \boldsymbol{\Lambda}_{22} \boldsymbol{x}_{2} + 2\left(\boldsymbol{x}_{1}-\boldsymbol{\mu}_{1}\right)^T \boldsymbol{\Lambda}_{21} \boldsymbol{x}_{2} \end{align}

ここで,各項はそれぞれ内積なので,転置を取っても値が変わらない.また,精度行列は対称行列であることから,

\begin{align} \boldsymbol{\mu}_{2}^T \boldsymbol{\Lambda}_{22} \boldsymbol{x}_{2} &= \left( \boldsymbol{\mu}_{2}^T \boldsymbol{\Lambda}_{22} \boldsymbol{x}_{2} \right)^T \\ &= \boldsymbol{x}_{2}^T \boldsymbol{\Lambda}_{22} \boldsymbol{\mu}_{2} \\ 2\left(\boldsymbol{x}_{1}-\boldsymbol{\mu}_{1}\right)^T \boldsymbol{\Lambda}_{21} \boldsymbol{x}_{2} &= \left( 2\left(\boldsymbol{x}_{1}-\boldsymbol{\mu}_{1}\right)^T \boldsymbol{\Lambda}_{21} \boldsymbol{x}_{2} \right)^T \\ &= 2\boldsymbol{x}_{2}^T \boldsymbol{\Lambda}_{21} \left(\boldsymbol{x}_{1}-\boldsymbol{\mu}_{1}\right) \end{align}

となる.そうすると上の式は,次のように書ける.

\begin{align} &\boldsymbol{x}_{2}^T \boldsymbol{\Lambda}_{22} \boldsymbol{x}_{2} - \boldsymbol{x}_{2}^T \boldsymbol{\Lambda}_{22} \boldsymbol{\mu}_{2} - \boldsymbol{\mu}_{2}^T \boldsymbol{\Lambda}_{22} \boldsymbol{x}_{2} + 2\left(\boldsymbol{x}_{1}-\boldsymbol{\mu}_{1}\right)^T \boldsymbol{\Lambda}_{21} \boldsymbol{x}_{2} \\ &= \boldsymbol{x}_{2}^T \boldsymbol{\Lambda}_{22} \boldsymbol{x}_{2} - 2\boldsymbol{x}_{2}^T \boldsymbol{\Lambda}_{22} \boldsymbol{\mu}_{2} + 2\boldsymbol{x}_{2}^T \boldsymbol{\Lambda}_{21} \left(\boldsymbol{x}_{1}-\boldsymbol{\mu}_{1}\right) \\ &= \boldsymbol{x}_{2}^T \boldsymbol{\Lambda}_{22} \boldsymbol{x}_{2} -2\boldsymbol{x}_{2}^T \left( \boldsymbol{\Lambda}_{22} \boldsymbol{\mu}_{2} +\boldsymbol{\Lambda}_{21} \left(\boldsymbol{x}_{1}-\boldsymbol{\mu}_{1}\right) \right) \end{align}

見やすくするためにベクトル\(\boldsymbol{\Lambda}_{22} \boldsymbol{\mu}_{2}
+\boldsymbol{\Lambda}_{21} \left(\boldsymbol{x}_{1}-\boldsymbol{\mu}_{1}\right)\)を\(\boldsymbol{a}\)とおく.
そうして上の式を平方完成すると,

\begin{align} &\boldsymbol{x}_{2}^T \boldsymbol{\Lambda}_{22} \boldsymbol{x}_{2} -2\boldsymbol{x}_{2}^T \boldsymbol{a} = \left( \boldsymbol{x}_{2} - \boldsymbol{\Lambda}_{22}^{-1} \boldsymbol{a} \right)^T \boldsymbol{\Lambda}_{22} \left( \boldsymbol{x}_{2} - \boldsymbol{\Lambda}_{22}^{-1} \boldsymbol{a} \right) - \boldsymbol{a}^T \boldsymbol{\Lambda}_{22}^{-1} \boldsymbol{a} \end{align}

ここで,\(\boldsymbol{a}^T \boldsymbol{\Lambda}_{22}^{-1} \boldsymbol{a}\)は\(\boldsymbol{x}_{2}\)を含んでいないから,これまでと同様に独立な\(\exp\)の項として分離することができ,ただの係数となって比例関係から無視することができる.

結局,比例関係は次のようになる.

\begin{align} p\left(\boldsymbol{x}_2|\boldsymbol{x}_1 \right) &\propto p\left(\boldsymbol{x}_1,\boldsymbol{x}_2 \right)\\ &\propto \exp\left( -\frac{1}{2} \left( \boldsymbol{x}_{2} - \boldsymbol{\Lambda}_{22}^{-1} \boldsymbol{a} \right)^T \boldsymbol{\Lambda}_{22} \left( \boldsymbol{x}_{2} - \boldsymbol{\Lambda}_{22}^{-1} \boldsymbol{a} \right) \right) \end{align}

したがって,\(p\left(\boldsymbol{x}_2|\boldsymbol{x}_1 \right)\)は次の正規分布に従う.共分散行列が\(\boldsymbol{\Lambda}_{22}\)の逆行列であることに注意.

\begin{align} p\left(\boldsymbol{x}_2|\boldsymbol{x}_1 \right) &\sim \mathcal{N} \left( \boldsymbol{\Lambda}_{22}^{-1} \boldsymbol{a} , \boldsymbol{\Lambda}_{22}^{-1} \right) \\ &= \mathcal{N} \left( \boldsymbol{\Lambda}_{22}^{-1} (\boldsymbol{\Lambda}_{22} \boldsymbol{\mu}_{2} +\boldsymbol{\Lambda}_{21} \left(\boldsymbol{x}_{1}-\boldsymbol{\mu}_{1}\right) , \boldsymbol{\Lambda}_{22}^{-1} \right) \\ &= \mathcal{N} \left( \boldsymbol{\mu}_{2} +\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda}_{21} \left(\boldsymbol{x}_{1}-\boldsymbol{\mu}_{1}\right) , \boldsymbol{\Lambda}_{22}^{-1} \right) \\ \end{align}

精度行列\(\boldsymbol{\Lambda}\)を共分散行列\(\boldsymbol{\Sigma}\)に戻したいのだが,そのためにブロック行列の逆行列を求める公式を使う.
\(\boldsymbol{M}=\left(
\boldsymbol{\Sigma}_{22}-\boldsymbol{\Sigma}_{21}\boldsymbol{\Sigma}_{11}^{-1}\boldsymbol{\Sigma}_{21}
\right)^{-1}
\)とおくと,

\begin{align} \Lambda= \left( \begin{array}{cc} \boldsymbol{\Lambda}_{11} & \boldsymbol{\Lambda}_{12}\\ \boldsymbol{\Lambda}_{21} & \boldsymbol{\Lambda}_{22} \end{array} \right) = \left( \begin{array}{cc} \boldsymbol{\Sigma}_{11} & \boldsymbol{\Sigma}_{12}\\ \boldsymbol{\Sigma}_{21} & \boldsymbol{\Sigma}_{22} \end{array} \right)^{-1} \end{align}

において,

\begin{align} \boldsymbol{\Lambda}_{22} &= \boldsymbol{M} = \left( \boldsymbol{\Sigma}_{22}-\boldsymbol{\Sigma}_{21}\boldsymbol{\Sigma}_{11}^{-1}\boldsymbol{\Sigma}_{21} \right)^{-1} \\ \boldsymbol{\Lambda}_{21} &= -\boldsymbol{M}\boldsymbol{\Sigma}_{21}\boldsymbol{\Sigma}_{11}^{-1} \end{align}

となる.二つを組み合わせれば

\begin{align} \boldsymbol{\Lambda}_{22}^{-1} \boldsymbol{\Lambda}_{21} &= -\boldsymbol{\Sigma}_{21}\boldsymbol{\Sigma}_{11}^{-1} \end{align}

であるから,

\begin{align} p\left(\boldsymbol{x}_2|\boldsymbol{x}_1 \right) &\sim \mathcal{N} \left( \boldsymbol{\mu}_{2} +\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda}_{21} \left(\boldsymbol{x}_{1}-\boldsymbol{\mu}_{1}\right) , \boldsymbol{\Lambda}_{22}^{-1} \right) \\ &= \mathcal{N} \left( \boldsymbol{\mu}_{2} -\boldsymbol{\Sigma}_{21}\boldsymbol{\Sigma}_{11}^{-1} \left(\boldsymbol{x}_{1}-\boldsymbol{\mu}_{1}\right) , \boldsymbol{\Sigma}_{22}-\boldsymbol{\Sigma}_{21}\boldsymbol{\Sigma}_{11}^{-1}\boldsymbol{\Sigma}_{21} \right) \\ \end{align}

に辿り付く.これがゴールである.完.

誤植?

19年2/4現在において,参考資料の先行公開版では微妙な誤りが見られた.少し混乱してしまったので,一応まとめておく.(私の勘違いだったらご指摘ください)

平方完成の直前,式(2.57)の6行目

\(exp\)の中身にだけ注目する.

\begin{align} \boldsymbol{x}_{2}^T \boldsymbol{\Lambda}_{22} \boldsymbol{x}_{2} -2\boldsymbol{x}_{2}^T \left( \boldsymbol{\Lambda}_{22} \boldsymbol{\mu}_{2} +\boldsymbol{\Lambda}_{21} \left(\boldsymbol{x}_{1}-\boldsymbol{\mu}_{1}\right) \right) \end{align}

のはずであるが,これが

\begin{align} \boldsymbol{x}_{2}^T \boldsymbol{\Lambda}_{22} \boldsymbol{x}_{2} -2 \left( \boldsymbol{\Lambda}_{22} \boldsymbol{\mu}_{2} +\boldsymbol{\Lambda}_{21} \left(\boldsymbol{x}_{1}-\boldsymbol{\mu}_{1}\right) \right)\boldsymbol{x}_{2} \end{align}

となっていた.

式(2.58)以降,精度行列で表された正規分布

正しくは

\begin{align} p\left(\boldsymbol{x}_2|\boldsymbol{x}_1 \right) &\sim \mathcal{N} \left( \boldsymbol{\mu}_{2} +\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda}_{21} \left(\boldsymbol{x}_{1}-\boldsymbol{\mu}_{1}\right) , \boldsymbol{\Lambda}_{22}^{-1} \right) \\ \end{align}

だと思うが,

\begin{align} p\left(\boldsymbol{x}_2|\boldsymbol{x}_1 \right) &\sim \mathcal{N} \left( \boldsymbol{\mu}_{2} +\boldsymbol{\Lambda}_{22}^{-1}\boldsymbol{\Lambda}_{21} \left(\boldsymbol{x}_{1}-\boldsymbol{\mu}_{1}\right) , \boldsymbol{\Lambda}_{22} \right) \\ \end{align}

となっていた.共分散行列は\(\boldsymbol{\Lambda}_{22}\)の逆行列\(\boldsymbol{\Lambda}_{22}^{-1}\)になるはずである.

関連記事

この記事へのコメント

まだコメントはありません
+1
0
ギャラクシースーパーログ
このエントリーをはてなブックマークに追加