writer : techinsight

映像ソースへの迅速な字幕付与のために 高度な音声認識技術を採用したシステムを開発 KDDI研究所

近年、放送業界では、ユニバーサル・アクセスを指向し生放送を含む可能な全てのテレビ番組への字幕付与が求められており、高度な字幕付与技術を持つ専門業者に注文が集中するなど、字幕付与の需要が高まっている。
このたび、KDDI研究所と京都大学学術情報メディアセンター河原研究室は、遠隔地でのイベント映像の視聴を想定した字幕生成・配信システムを共同開発した。

本システムは、最新の話し言葉音声認識技術の導入により、従来システムの課題であった字幕付与に必要な人員確保の問題を解決する。

従来の音声認識技術では難しかった話し言葉音声や専門性の高い話題を、高精度で認識することが可能となった。

高精度の音声認識結果を字幕生成の補助情報として用いることで、特殊技術を持たない人でもパソコンを使って短時間で字幕を生成できる。

映像と字幕をオンラインで同期させるアルゴリズムの導入により、従来技術では映像と字幕の同期に必要だった人手による字幕挿入のタイミング調整や特殊な再生装置が不要となる。

生成した字幕と映像の自動的な同期、パソコンで再生できる形式での配信が可能となり、映像の収録途中でも、字幕を生成し映像との同期が完了し次第、配信できるようになった。

なお、京都大学で2010年11月27日 (土) に開催される「『聴覚障害者のための字幕付与技術』シンポジウム2010」 にて、本システムのデモンストレーションが実施され、同期した字幕と映像を会場内で見ることができる。
(TechinsightJapan編集部 真田裕一)