以前は技術を概観しました。今回は実装を見てみたいと思います。 [論文解説]3Dガウシアンスプラッティング<a href="https://blueqat.com/yuichiro_minato2/627fb949-37d7-463c-a2ff-57a3bb0e95f5" rel="noopener noreferrer" target="_blank">https://blueqat.com/yuichiro_minato2/627fb949-37d7-463c-a2ff-57a3bb0e95f5</a> あと、なんかものすごいわかりやすい解説を見つけました。投稿されたばかりのようです。 3D Gaussian SplattingはNeRFをこえるかトレンドになるか？複数視点の画像から3D空間を再現する最新手法論文解説！<a href="https://qiita.com/RyeWiskey/items/9ccc862db91e38e8bbc9" rel="noopener noreferrer" target="_blank">https://qiita.com/RyeWiskey/items/9ccc862db91e38e8bbc9</a> さて、こちらにPython実装がありました。 notebook形式で<a href="https://github.com/thomasantony/splat/" rel="noopener noreferrer" target="_blank">https://github.com/thomasantony/splat/</a> 上記のnotebook形式のもとのpythonコード<a href="https://github.com/limacv/GaussianSplattingViewer/tree/main" rel="noopener noreferrer" target="_blank">https://github.com/limacv/GaussianSplattingViewer/tree/main</a> コード自体はファイルが三つで両方とも同じです。 main.pyutil.pyutil_gau.py のファイルとなっていました。この実装では、基本的には学習済みの3Dガウス関数のパラメータを読み込み、それを元にレンダリングを行うという実装になっています。 util.pyファイルには「カメラのセッティング」が入っています。 <pre class="ql-syntax" spellcheck="false">from OpenGL.GL import *
import OpenGL.GL.shaders as shaders
import numpy as np
import glm
import ctypes
</pre> また、util_gau.pyファイルにはガウス関数の読み込みや設定値が書いてあります。 <pre class="ql-syntax" spellcheck="false">import numpy as np
from plyfile import PlyData
from dataclasses import dataclass
</pre> 例えば、 <pre class="ql-syntax" spellcheck="false">  xyz: np.ndarray
  rot: np.ndarray
  scale: np.ndarray
  opacity: np.ndarray
  sh: np.ndarray
</pre> のようになっていて、xyzの座標、回転方向？、スケール、不透明度、SH係数（spherical harmonicsで球面調和関数のようです）となっていました。 あとは、初期値でしょうか？ <pre class="ql-syntax" spellcheck="false">def naive_gaussian():
  gau_xyz = np.array([
    0, 0, 0,
    1, 0, 0,
    0, 1, 0,
    0, 0, 1,
  ]).astype(np.float32).reshape(-1, 3)
  gau_rot = np.array([
    1, 0, 0, 0,
    1, 0, 0, 0,
    1, 0, 0, 0,
    1, 0, 0, 0
  ]).astype(np.float32).reshape(-1, 4)
  gau_s = np.array([
    0.03, 0.03, 0.03,
    0.2, 0.03, 0.03,
    0.03, 0.2, 0.03,
    0.03, 0.03, 0.2
  ]).astype(np.float32).reshape(-1, 3)
  gau_c = np.array([
    1, 0, 1,
    1, 0, 0,
    0, 1, 0,
    0, 0, 1,
  ]).astype(np.float32).reshape(-1, 3)
  gau_c = (gau_c - 0.5) / 0.28209
  gau_a = np.array([
    1, 1, 1, 1
  ]).astype(np.float32).reshape(-1, 1)
  return GaussianData(
    gau_xyz,
    gau_rot,
    gau_s,
    gau_a,
    gau_c
  )
</pre> 色の情報がどこに入っているかはわかりませんでしたが、どうやら後の方のファイルでSHから色を計算しているようでした。 あとは、シンプルで今回の3Dガウシアンスプラッティング向けのplyファイルを読み込む関数がありました。 <pre class="ql-syntax" spellcheck="false">def load_ply(path):
</pre> 補助のファイルはこの二つだけでかなりシンプルです。 次にメインのファイルを見てみます。今回の例題ファイルで読み込むツールは、 <pre class="ql-syntax" spellcheck="false">import numpy as np
import matplotlib.pyplot as plt
import scipy as sp

import util
from util import Camera
from util_gau import load_ply, naive_gaussian, GaussianData
</pre> 極めてシンプルですね。わかりやすくて好感が持てました。ちなみにrequirements.txtの中は、 <pre class="ql-syntax" spellcheck="false">glfw
PyGLM
imgui
PyOpenGL
numpy
imageio
plyfile
tqdm
scipy
matplotlib
</pre> となっています。シンプルで好きです。自分の環境では、google colabでは動かなかったので、localでjupyternotebookを立ち上げてそちらで実行したらうまくいきました。 メインのGaussianのクラスの中には、 これは三次元ガウス関数の共分散行列を返すための関数でしょうか<pre class="ql-syntax" spellcheck="false">  def compute_cov3d(self):
    cov3D = np.diag(self.scale**2)
    cov3D = self.rot.as_matrix().T @ cov3D @ self.rot.as_matrix()
    return cov3D
</pre> こちらは三次元の共分散行列とカメラからカメラに向かって二次元の共分散行列を取り出すための関数<pre class="ql-syntax" spellcheck="false">  def get_cov2d(self, camera):
    view_mat = camera.get_view_matrix()
    g_pos_w = np.append(self.pos, 1.0)
 （略）
</pre> こちらは深度？<pre class="ql-syntax" spellcheck="false">  def get_depth(self, camera):
    view_matrix = camera.get_view_matrix()
     
    position4 = np.append(self.pos, 1.0)
    g_pos_view = view_matrix @ position4
    depth = g_pos_view[2]
    return depth
</pre> なんか円錐を作っている模様？<pre class="ql-syntax" spellcheck="false">  def get_conic_and_bb(self, camera):
    cov2d = self.get_cov2d(camera)

    det = np.linalg.det(cov2d)
    if det == 0.0:
      return None
     
    det_inv = 1.0 / det
 （略）
</pre> こちらは色です。どうやらやはり球面調和関数と方向から色を取るようです。<pre class="ql-syntax" spellcheck="false">  def get_color(self, dir) -&gt; np.ndarray:
    &#34;&#34;&#34;Samples spherical harmonics to get color for given view direction&#34;&#34;&#34;
    c0 = self.sh[0:3]  # f_dc_* from the ply file)
    color = SH_C0 * c0
 （略）
</pre> ここまでが基本的なGaussianのクラスの中身でした。次は普通の関数が続きます。作った円錐を配置するみたいです。引数にはgaussianのオブジェクトとカメラが格納されていますので、レンダリングの前準備のようです。 <pre class="ql-syntax" spellcheck="false">def plot_conics_and_bbs(gaussian_objects, camera):
</pre> その次の関数は、どうやら最終的に画像を作る直前の状態を作る関数みたいですね。入れる引数はガウシアンのオブジェクト、カメラ情報、出力画像のサイズなどです。 <pre class="ql-syntax" spellcheck="false">def plot_opacity(gaussian: Gaussian, camera: Camera, w: int, h: int, bitmap: np.ndarray, alphas: np.ndarray):
</pre> 最後に、これが最終的に絵を出すための関数のようです。中にplot_opacityが連続で呼び出されていて、plot_opacityの中でplot_conics_and_bbsが連続で呼び出されていました。 <pre class="ql-syntax" spellcheck="false">def plot_model(camera, gaussian_objects):
    print(&#39;Sorting the gaussians by depth&#39;)
    indices = np.argsort([gau.get_depth(camera) for gau in gaussian_objects])
    
    print(&#39;Plotting with&#39;, len(gaussian_objects), &#39;gaussians&#39;)
    bitmap = np.zeros((h, w, 3), np.float32)
    alphas = np.zeros((h, w), np.float32)
    
    for idx in tqdm(indices):
        plot_opacity(gaussian_objects[idx], camera, w, h, bitmap, alphas)
    
    return bitmap
</pre> ここまでがファイルの関数などの一式となっていて、これらを使って画像を作ります。 まず、モデルファイルですが、自分でも作れると思いますが、学習ができないので、一般に出回っているファイルを使いました。いろんなところに落ちています。3D Gaussian Splattingのページからこのアルゴリズム向けのplyファイルをダウンロードして使います。 このページのUsageからリンクがありますが、13GBくらいあります。<a href="https://github.com/limacv/GaussianSplattingViewer" rel="noopener noreferrer" target="_blank">https://github.com/limacv/GaussianSplattingViewer</a> 正直かなりファイルのサイズが大きいので気をつけてください。ファイルをダウンロードしたら、point_cloud.ply（もしくは名前変更したファイル）を読み込みます。load_plyはutil_gau.pyに入ってます。 <pre class="ql-syntax" spellcheck="false">model = load_ply(&#39;point_cloud_bike.ply&#39;)
from tqdm import tqdm

print(&#39;Loading gaussians ...&#39;)
gaussian_objects = []
for (pos, scale, rot, opacity, sh) in tqdm(zip(model.xyz, model.scale, model.rot, model.opacity, model.sh)):
  gaussian_objects.append(Gaussian(pos, scale, rot, opacity, sh))
</pre> 上記、計算のためにgaussian_objectsのリストにひたすら読み込んだファイルからガウシアンの情報を格納していますね。最後に画像サイズを指定し、カメラ情報とターゲットとなる座標を決めれば画像が出ます。plot_modelからbitmapを出力し、表示します。 <pre class="ql-syntax" spellcheck="false">(h, w) = (720, 1280)
camera = Camera(h, w, position=(-0.57651054, 2.99040512, -0.03924271), target=(-0.0, 0.0, 0.0))

bitmap = plot_model(camera, gaussian_objects)

plt.figure(figsize=(12, 12))
plt.imshow(bitmap, vmin=0, vmax=1.0)
plt.show()
</pre> これで3Dガウシアンススプラッティングの実装ができました。ガウシアンの配置や学習は今回のレンダリングのフェーズとは完全に独立して作れますので、それは興味があればそのうちやろうと思います。 今回の計算は見た感じでは完全にCPUで行っているのでかなり時間がかかります。ガウシアンの読み込みでは、 <pre class="ql-syntax" spellcheck="false">6131954it [03:49, 26738.95it/s]
</pre> 600万近くのポイントを読み込むのに、3分49秒かかりました。あとはガウシアンのソートに多少時間がかかり、その後、プロットに時間がかかっています。 <pre class="ql-syntax" spellcheck="false">Sorting the gaussians by depth
Plotting with 6131954 gaussians
</pre> <pre class="ql-syntax" spellcheck="false"> 78%|█████████████████████▋ | 4757265/6131954 [2:19:32&lt;1:25:48, 267.02it/s]
</pre> 自分のマシンがかなり非力な2016のmacbook12なので、最新マシンならもっと早いと思います。 <s>（まだ画像が出てないので出たら掲載します。）</s> なんか絵が上手く出なかったので、28万ガウシアンのモデルで勘弁してください。 <pre class="ql-syntax" spellcheck="false">Loading gaussians ...
281498it [00:19, 14727.80it/s]
</pre> <pre class="ql-syntax" spellcheck="false">Sorting the gaussians by depth
Plotting with 281498 gaussians
100%|██████████████████████████████████| 281498/281498 [23:09&lt;00:00, 202.53it/s]
</pre> <img src="https://assets.blueqat.com/public/uploads/us-east-2:4805ff4b-c3cc-4344-b165-86544c34d0bf/2023/11/18/00_Gaussian_…-JupyterLab.png"/> モデルも大小があるので、小さいモデルなら比較的早く出力されます。以上です。

3D Gaussian SplattingのPython実装を見る

Yuichiro Minato