ロボット Sota（ソータ）音声合成まとめ

・音声合成とは

前回の記事（Sota 音声認識まとめ）では、音声⇒テキスト変換する技術である音声認識について書きましたが、音声合成はその逆で、テキスト⇒音声に変換する技術です。
テキスト読み上げシステム（TTS：Text To Speech）とも言われます。
これにより、事前に個別で音声ファイルを用意する必要なく、ロボットがその時に応じた言葉を話すことが出来ます。

ただ、思い通りの話し方（抑揚、速度、区切りなど）にするのは難しいようで、いかに自然な話し方をできるかが重要となってきます。
徳島では阿波弁が使われますが、そういった方言のイントネーションの違いも再現できるようになってくると、より親しみを持ってロボットと話せそうですね。
個人的にはロボットの場合、少しくらいカタコトの方が良いのかなとも思ったりします。

・Sotaのできること

＜音声合成＞
指定したテキストを音声合成して、音声ファイルを作成し、それを再生します。
作成されたファイルは、/var/sota/tts/ にキャッシュされ、以降同じテキストがきた際に再利用されます。

＜音声合成して保存＞
指定したテキストの音声ファイルを作成して、指定したファイル名で /var/sota/ に保存します。再生はしません。

＜発話＞
基本動作は＜音声合成＞と同じですが、話しながら顔や腕がランダムに動作します。
棒立ちのまま話をするのも寂しいので、動きをつけたい時に便利な機能ですね。

ソータのソフト開発環境VstoneMagicにて利用できる対話機能

・注意事項

音声認識・音声合成ともにですが、Sotaがネットワークに接続されている必要があります。各変換する部分はネットワーク上のサーバで行い、その結果をもらっているようです。また、これら機能は、2016年5月末まではβ版として無償で利用可能ですが、それ以降は別途クラウド利用契約（有償と思われる）が必要となります。

2016/02/22時点で、Vstone Magic はVer.1.2.0ですが、SotaはVer.1.2.3にアップデートされ、実行時に差異があるとメッセージが表示されます。
ただ、SotaがVer.1.2.3になってからと思われるのですが、以前の記事（Sota 受付用アプリ作成1）で記載した音声合成の問題点が解消されているようです。

・使ってみた感想

かわいい声で話すので、少しくらい抑揚などが間違っていても気になりません。
ロボットが自分の顔と名前を教えておき、こっちを見た時に名前を呼んでくれるだけでも楽しいです！作成例は以前の記事（Sota 受付用アプリ作成2）をご覧ください。

今後のアップデートで、抑揚や速度なども設定になれば良いなーと期待しています。
徳島で活躍するロボットになるため、阿波弁も教えていこうと思います！

ロボット＠徳島

徳島からロボットのアプリ開発情報をメインに発信するブログ

ロボット Sota（ソータ）音声合成まとめ

・音声合成とは

・Sotaのできること

・注意事項

・使ってみた感想