中鹿亘准教授 NAKASHIKA Toru

情報システム基盤学専攻
情報システム基礎学講座
nakashika(at)uec.ac.jp

研究室サイト

研究内容について

私たちは物を見て音を聴き、脳で情報を処理しています。その結果周囲にあるものを認識したり、状況を理解し、判断することができます。システム（コンピュータ・ロボットなど）に同様のことを行わせることができれば、どれほど素晴らしいことでしょう。自分で物事を考え、人の意図を理解しながら行動するシステムの実現も遠い未来ではないかもしれません。私は、このように人と共存するためのシステムの"理解する"部分を研究しています。具体的には音声認識、画像認識を始めとしたメディア情報処理及びそれを実現するための統計的モデリングや機械学習アルゴリズムなどが挙げられます。

研究の具体例

教師なしディープラーニングを用いた音素体系の自動獲得

赤ちゃんが私たちの会話を聴いて言葉を覚えていく過程と同様に、システムに音声の基礎要素である音素（「あ」や「い」など）のパターンを学習させる研究です。近年ディープラーニングが盛んに研究されていますが、その多くは識別的なアプローチとして使用されています。本研究では生成的な観点からディープラーニングを用います。これは、通常の音声とは音素体系の異なる音声を認識する場合などに役立ちます。例えば幼児は、調音器官や調音方法の未発達に伴って「振動」を「チンロウ」のように発話してしまいます。このような音声を認識したい場合、通常の音素体系を用いるよりも、その発話者に合わせた独自の音素体系に基づいて認識モデルを学習をした方が適切であると考えられます。本研究では、ディープラーニングの教師なし学習によって音声信号から独自の音素体系を獲得しようと試みています。

適応型制限ボルツマンマシンによる任意話者声質変換

声質変換とは、発話内容はそのままに、あたかも別の人が話しているかのように音声を修正する技術です。声質変換に関する多くの研究では、変換元となる話者（入力話者）と変換先となる話者（出力話者）の関係性をモデル化し、入力話者の音声が出力話者の音声となるようにモデルの学習を行います。この際、フレーム単位で対応付けされた入力話者音声・出力話者音声の対データ（パラレルデータ）が必要となります。しかし、パラレルデータを用いると、学習されたモデルはその入力話者・出力話者の対に限定される、発話内容が入力話者・出力話者ともに同一のものでないといけないといった様々な問題が存在します。そこで私は、パラレルデータを一切必要としない、かつ誰から誰への変換も容易に行える声質変換について研究しています。本研究ではパラレルデータを必要としない声質変換を実現するため、適応型制限ボルツマンマシンと呼ばれるモデルを定義しています。これは、私たちが音声を聴いたときに、その人が何と言っているのかだけではなく、誰が話しているのかということも同時に理解しているという事実からヒントを得たモデルです。複数の話者の音声を用いて話者に依存しないパラメータと話者に依存したパラメータを同時推定することで、その結果音韻に関する情報と話者性に関する情報が分離可能となります。入力した音声に対して、音韻情報はそのままに、話者情報のみを目的のものに切り換えるだけで声質変換が実現されます。

今後について

人間の理解機構を解明し、アルゴリズムで模倣させることによって、人と馴染みやすい、人間と共存できるシステムの基盤となる研究を第一の目標としています。更には、人間ではできないけれど人に役立つような技術に関する研究を目指していきます。

中鹿 亘 准教授 NAKASHIKA Toru

研究内容について

研究の具体例

教師なしディープラーニングを用いた音素体系の自動獲得

適応型制限ボルツマンマシンによる任意話者声質変換

今後について

中鹿亘准教授 NAKASHIKA Toru