研究のページ

Last Update Sep. 2. 2016

{ 日本語 / English }

最近の研究

研究テーマ１：調音特徴を用いた音声合成・音声変換に関する研究

調音特徴とは人間が発話するときの口の形や舌の位置を表すデータのことを指します．人間の口の動きをモデル化した合成方式ですので，調音特徴の利用によって，より人間に近い発話のシミュレーションが可能になります．例えば，特定の音素の調音を変化させることによって，風邪をひいた時の鼻声や，発音を完全に習得していない幼児の発声を模倣するなど，利便性の高い合成システムの構築が期待できます．

本方式では，調音特徴から，話者の声質をモデル化した「声道形状パラメータ」への変換にニューラルネットワークを用いています．音声合成における話者依存の部分をこのニューラルネットワークに集約させることによって，少量のデータで音声合成システムを構築することを可能にしています．また，このニューラルネットワークを他の話者の物に変換することによって話者変換が実現できます．話者変換にはDeep Neural Networkを用いています．

今後は本合成モデルを用いた音声認識の研究にも取り組む予定です．

研究テーマ２：AAMを利用した顔画像認識に関する研究

AAM (Active Appearance Models)とは，顔画像モデルに基づいて合成した顔画像を認識対象の顔画像と比較し，その差がなくなるよう合成画像を修正していく事により顔画像を認識する顔画像処理法です．

合成顔画像をフィッティングしていく過程で，合成に必要なパラメータが取得でき，これを表情認識等に用いることができます．本研究では顔画像モデルを構成する際の個人性と表情の分離，および特徴点決定の自動化について検討しています．

また，唇の動きから発話内容を認識する読唇システムについても開発を進めています．

研究テーマ３：大規模音声データベースからの高速キーワード検索に関する研究

web技術の発展に伴い，音声や動画コンテンツを利用する機会が増えています． web上の音声データを効率的に利用するには音声検索技術が必要ですが， google等のテキスト検索と比較して，音声検索の分野ではあまり高速なものが提案されていません．

そこで，大規模音声データベースから瞬時にキーワードを検索する方法を研究しています．本研究では以下の各技術を組み合わせることで，高速なキーワード検索を実現します．

高速でかつ必要なメモリが小さいSuffix Arrayの導入
曖昧な検索を実現するためのDPマッチングによる音素単位のマッチング
確度の高いあいまい検索を行うための音素弁別特徴の利用
長いキーワードを高速に検索するためのキーワード分割
精度の高い結果を高速に提示するための反復深化探索

これらの技術により，10,000時間程度の音声データベースから数十ミリ秒～数秒でキーワードを検索することを目指しています．

研究テーマ４：webベースマルチモーダル対話システムに関する研究

人間同士の対話では，音声以外にもジェスチャや視線，表情といった多様な情報チャンネルが用いられています．こういった多様なチャンネルを用いた対話を「マルチモーダル対話（Multi-Modal Interaction）」といいます．

マルチモーダル対話を人とコンピュータ間で実現するために，これまでに様々なシステムが開発されてきましたが，広く利用されるようになっていません．その一つの理由が，導入コストの高さです．これまでのシステムでは，マルチモーダル対話を行うために特別なソフトウェアのインストールが必要でした．

そこで我々はマルチモーダル対話の普及を目標に，一般に広く使われているウェブブラウザをインターフェースとしたMMIシステムを開発しています．このシステムは，JavaScript，Flashといった標準技術のみを用いているため，ユーザは特別なソフトウェアをインストールする必要がなく，標準的なパソコンのブラウザからwebページにアクセスするだけでマルチモーダル対話を体験することが可能になります．

昔の研究

トップページに戻る