お客様からの要望で、RAGのシステムを利用する傍ら、議事録の書き起こし需要もあるということで、音声合成と逆に、音声認識の文字起こしを用意しました。こちらも弊社のGPUで動いています。基本的に文章はエンコーダーデコーダーモデルで行われており、質の高い音声認識を実現しています。まだ日本語に関して学習の余地がありますが、LLMと併用して精度を上げることができています。
現在、多くの音声フォーマットに対応しており、日本語の業務の会議議事録を音声から書き起こすことができます。現在はクラウドでの提供をしていますが、希望のお客様にはオンプレでの社内での利用に限った形でデータを外に出さない書き起こしも提供可能です。
クラウドでは利用時間に応じて、月額500円程度からの提供を予定しています。こちらもblueqat.comのシステムに統合された形での提供を予定しています。(画面は開発中の画面です)
議事録の書き起こしや電話応対での文字起こしなどさまざまなシーンで利用が考えられますので、ぜひ利用のアイデアを広げて活用してみてください。以上です。