任意の人の声でテキストを読ませるText-to-Speechモデル「SpeechX」 米Microsoftの研究者らが開発
https://www.techno-edge.net/article/2023/08/21/1773.html
「本研究では「SpeechX」という多様な音声編集タスクを処理できるモデルを提案します。このモデルは、クリーンな音声信号だけでなく、ノイズのある音声信号でも、さまざまな音声合成タスクを処理できます。例えば、以下のようなことを可能にします。
- ゼロショットTTS(指定したスタイルで文章を音声合成)
- 音声コンテンツ編集(間違った言葉を自然言語で修正)
- 背景を保持した音声コンテンツの編集(背景音を保持したまま、会話を自然言語で修正)
- ノイズの除去(録音に混入した不要な背景音を除去)
- 目標話者の選択(混声の中で一人の人物に照準を合わせる)
- スピーチの削除(人の声を自然に消す)
」
プロジェクトページ
https://www.microsoft.com/en-us/research/project/speechx/
SpeechX: Neural Codec Language Model as a Versatile Speech Transformer
Xiaofei Wang, Manthan Thakker, Zhuo Chen, Naoyuki Kanda, Sefik Emre Eskimez, Sanyuan Chen, Min Tang, Shujie Liu, Jinyu Li, Takuya Yoshioka
https://arxiv.org/abs/2308.06873
引用:https://arxiv.org/pdf/2308.06873.pdf
図1. SpeechXの概要。SpeechXは、ノイズの抑制、音声の削除、ターゲットスピーカーの抽出、ゼロショットTTS、クリーンスピーチの編集、ノイジーなスピーチの編集など、複数の音声テキストベースの音声生成タスクを処理します。これらのタスクは、テキストと音響トークンストリームに依存したニューラルコーデック言語モデルを使用して行われます。一部のタスクではテキストの入力はオプションです。
「図1は、SpeechXアーキテクチャの概要を示しています。
VALL-Eで導入された原則を基に構築されたSpeechXは、Transformersに基づくニューラルコーデック言語モデルを使用しています。このモデルは、2つの入力プロンプト、テキストプロンプトTと音響プロンプトAに基づいて、ニューラルコードシーケンス(Oと表記)の条件付き生成を学習します。ニューラルコードは音響トークンとも呼ばれることがあります。
テキストプロンプトTは、入力テキストに対してグラフェムから音素への変換を適用して得られる音素のシーケンスです。テキストプロンプトは意味情報を伝えるため、セマンティックトークンと呼ばれます。逆に、音響プロンプトAは入力音声信号の音響情報を包括しています。これは、ニューラルコーデックモデルのエンコーダを使用して、入力オーディオを音響トークンのシーケンスに変換することによって得られます。さらに、実行するタスク、または同等の出力を指定するために、音響プロンプトに追加のトークンを組み込みます。詳細については、第III-C節で説明します。出力Oは、望ましい信号のニューラルコードのシーケンスであり、その後、コーデックデコーダで波形信号に変換されます。」
VALL-E Xについてです。
https://blueqat.com/yuichiro_minato2/ecd3b1bc-3f44-4376-8871-4d18fae30c20
「前の研究に従って、私たちはニューラルコーデックモデルとしてEnCodec [32] を使用しています。EnCodecは、エンコーダーデコーダーアーキテクチャを基にしており、Lの量子化層を持っています。私たちの実験では、[16] の構成と一貫性を保つために、L = 8 を使用しています。EnCodecモデルの各層は、サンプリングレートが75 Hzで構成され、1024のエントリからなる離散コードを生成します。
私たちは、この提案されたシンプルなアーキテクチャが、ニューラル言語モデリングアプローチのエンドツーエンドモデリング能力を活用していることを強調します。他のゼロショットTTSや音声生成方法とは異なり、このアプローチは、ニューラルコーデックモデル以外の別個のモデル(スピーカー埋め込みモデルやデュレーションモデルなど)を必要としません。この鍵となる特性により、SpeechXは異なる要件と入出力関係を持つ多様なタスクの知識を獲得できるため、多様で高度に拡張可能な音声生成プロセスを容易にします。」
ニューラルコーデック言語モデル
「VALL-E [16] と同様に、SpeechXは自己回帰(AR)および非自己回帰(NAR)Transformerモデルを使用しています。具体的には、ARモデルは、EnCodecの最初の量子化層に対応するニューラルコードを出力するために使用されます。一方、NARモデルは、最初の層以外のすべての層、つまり2番目から8番目の層のニューラルコードを生成します。ARモデルとNARモデルを組み合わせることで、[16] で議論されているように、生成の柔軟性と推論速度の合理的なトレードオフが提供されます。」
なんかタスクベースのプロンプトが採用されていてパラメータ?らしきものが一覧でまとまっていました。
全体的に自分にはオーディオ関連の知識がかなり不足していましたが、SpeechXやVALL-Eなどの資料を横断的に読み込むことで必要な人は学べそうな雰囲気がありました。以上です。