コールセンターガイダンスや産業機器の操作指示に使われる合成音声は、入力したテキストが明瞭かつ自然な抑揚で発音されることが求められる。
不自然な抑揚で作られた合成音声は、販売窓口電話のような契約に直結する電話応答では、コンバージョンの機会喪失にもつながることになる。
今般、NECは、入力された文章を、自然で豊かな抑揚やリズムで滑らかに読み上げることができる、高精度なテキスト音声合成技術を開発した。
本技術は、大量の音声データから抽出した抑揚やリズムなどの情報を利用することで、従来は単調になったり不自然になる場合のあった合成音声を、聞きやすく高い品質で生成できるようにするものである。
開発した技術の特長は、まず、音声データベースから抽出した、典型的な抑揚やリズムの情報を利用大量の音声データベースから、前後の単語や文の長さなどを基に、文章中の単語をどのような抑揚やリズムで読み上げるべきかを抽出して利用する。
音声合成時には、従来の人手で作成した少数のパターンルールと組み合わせることで、自然でバリエーションの豊かな合成音声を安定的に生成できる方式を実現した。
さらに、データベースから直接抽出した音声素片に加え、音声データベースに含まれない音声素片を、口や声道の動き方など人間が音声を生成する仕組みに基づいて推定し利用する。
これらの素片を適切に選択して繋ぐことで、多様な抑揚やリズムを高品質な合成音声で生成可能。
合成音声の場合、これまでは意味的に重要な言葉の発音が単調になってしまうという欠点があった。
特に危険を知らせる「停止」「スイッチオフ」などの音素は強調して表現する必要があるが、今回同社が開発した技術は、こうしたニーズにも適合するものであり、産業機器などへの応用が待たれるところである。
(TechinsightJapan編集部 真田裕一)