ロボット@徳島

徳島からロボットのアプリ開発情報をメインに発信するブログ

ロボット Sota(ソータ) 音声合成まとめ

音声合成とは

前回の記事(Sota 音声認識まとめ)では、音声⇒テキスト変換する技術である音声認識について書きましたが、音声合成はその逆で、テキスト⇒音声に変換する技術です。
テキスト読み上げシステム(TTS:Text To Speech)とも言われます。
これにより、事前に個別で音声ファイルを用意する必要なく、ロボットがその時に応じた言葉を話すことが出来ます。

ただ、思い通りの話し方(抑揚、速度、区切りなど)にするのは難しいようで、いかに自然な話し方をできるかが重要となってきます。
徳島では阿波弁が使われますが、そういった方言のイントネーションの違いも再現できるようになってくると、より親しみを持ってロボットと話せそうですね。
個人的にはロボットの場合、少しくらいカタコトの方が良いのかなとも思ったりします。

・Sotaのできること

音声合成
指定したテキストを音声合成して、音声ファイルを作成し、それを再生します。
作成されたファイルは、/var/sota/tts/ にキャッシュされ、以降同じテキストがきた際に再利用されます。

音声合成して保存>
指定したテキストの音声ファイルを作成して、指定したファイル名で /var/sota/ に保存します。再生はしません。

<発話>
基本動作は<音声合成>と同じですが、話しながら顔や腕がランダムに動作します。
棒立ちのまま話をするのも寂しいので、動きをつけたい時に便利な機能ですね。

ソータのソフト開発環境VstoneMagicにて利用できる対話機能

・注意事項

音声認識音声合成ともにですが、Sotaがネットワークに接続されている必要があります。各変換する部分はネットワーク上のサーバで行い、その結果をもらっているようです。また、これら機能は、2016年5月末まではβ版として無償で利用可能ですが、それ以降は別途クラウド利用契約(有償と思われる)が必要となります。

2016/02/22時点で、Vstone Magic はVer.1.2.0ですが、SotaはVer.1.2.3にアップデートされ、実行時に差異があるとメッセージが表示されます。
ただ、SotaがVer.1.2.3になってからと思われるのですが、以前の記事(Sota 受付用アプリ作成1)で記載した音声合成の問題点が解消されているようです。

・使ってみた感想

かわいい声で話すので、少しくらい抑揚などが間違っていても気になりません。
ロボットが自分の顔と名前を教えておき、こっちを見た時に名前を呼んでくれるだけでも楽しいです!作成例は以前の記事(Sota 受付用アプリ作成2)をご覧ください。

今後のアップデートで、抑揚や速度なども設定になれば良いなーと期待しています。
徳島で活躍するロボットになるため、阿波弁も教えていこうと思います!