{ 日本語 / English }
調音特徴とは人間が発話するときの口の形や舌の位置を表すデータのことを指します. 人間の口の動きをモデル化した合成方式ですので,調音特徴の利用によって,より人間に 近い発話のシミュレーションが可能になります.例えば,特定の音素の調音を変化させる ことによって,風邪をひいた時の鼻声や,発音を完全に習得していない幼児の発声を 模倣するなど,利便性の高い合成システムの構築が期待できます.
本方式では,調音特徴から,話者の声質をモデル化した「声道形状パラメータ」への変換に ニューラルネットワークを用いています.音声合成における話者依存の部分をこのニューラル ネットワークに集約させることによって,少量のデータで音声合成システムを構築することを 可能にしています.また,このニューラルネットワークを他の話者の物に変換することによって 話者変換が実現できます.話者変換にはDeep Neural Networkを用いています.
今後は本合成モデルを用いた音声認識の研究にも取り組む予定です.
AAM (Active Appearance Models)とは,顔画像モデルに基づいて合成した顔画像を 認識対象の顔画像と比較し,その差がなくなるよう合成画像を修正していく事に より顔画像を認識する顔画像処理法です.
合成顔画像をフィッティングしていく過程で,合成に必要なパラメータが 取得でき,これを表情認識等に用いることができます.本研究では顔画像モデルを 構成する際の個人性と表情の分離,および特徴点決定の自動化について検討しています.
また,唇の動きから発話内容を認識する読唇システムについても開発を進めています.
web技術の発展に伴い,音声や動画コンテンツを利用する機会が増えています. web上の音声データを効率的に利用するには音声検索技術が必要ですが, google等のテキスト検索と比較して,音声検索の分野ではあまり高速なものが 提案されていません.
そこで,大規模音声データベースから瞬時にキーワードを検索する方法を 研究しています.本研究では以下の各技術を組み合わせることで,高速な キーワード検索を実現します.
これらの技術により,10,000時間程度の音声データベースから数十ミリ秒〜 数秒でキーワードを検索することを目指しています.
人間同士の対話では,音声以外にもジェスチャや視線,表情といった 多様な情報チャンネルが用いられています.こういった多様なチャンネル を用いた対話を「マルチモーダル対話(Multi-Modal Interaction)」と いいます.
マルチモーダル対話を人とコンピュータ間で実現するために,これまでに様々な システムが開発されてきましたが,広く利用されるようになっていません. その一つの理由が,導入コストの高さです. これまでのシステムでは,マルチモーダル対話を行うために特別なソフトウェアの インストールが必要でした.
そこで我々はマルチモーダル対話の普及を目標に,一般に広く使われている ウェブブラウザをインターフェースとしたMMIシステムを開発しています. このシステムは,JavaScript,Flashといった標準技術のみを用いているため, ユーザは特別なソフトウェアをインストールする必要がなく,標準的な パソコンのブラウザからwebページにアクセスするだけでマルチモーダル対話を 体験することが可能になります.
トップページに戻る