このページの先頭です

メニューを飛ばして本文を読む

ここから本文です

サイト内の現在位置

教員紹介

川野 秀一 准教授 KAWANO Shuichi

  • 社会知能情報学専攻
  • 知識創産システム学講座
  • skawano(at)is.uec.ac.jp

1.ビッグデータ時代とデータ解析技術

近年の計算機環境ならびにデータ取得技術の高度な発展には目を見張るものがあります。日々膨大な量のデータが取られ、そのデータはテラバイト、ペタバイトを有する記憶装置に蓄積され続けています。これら超大規模データはビッグデータと呼ばれ、ビッグデータの利活用はビジネス、医学、工学、心理学等のさまざまな分野においてパラダイムシフトを引き起こすものと期待されています。実際に生命科学分野においては、唾液を採取して遺伝子検査を行い、ゲノムビッグデータを得て活用し、個別化医療に繋げる取り組みがはじまっています。

さて、ビッグデータを利活用するためには、超大規模データを何らかの方法で解析して、そこから有用な情報や知識を抽出しなければなりません。そこで必要になってくるのがデータ解析技術です。データ解析技術に関する研究はそれこそ数十年前からあるものですが、ビッグデータの出現により近年最もホットな研究分野の1つとなっています。現に、ある企業では、数百人単位でデータ解析技術の研究者を雇っていることは有名な話です。

2.研究内容

データ解析技術に関する研究と一口に言っても、さまざまなものがありますが、私は、統計科学や機械学習の考えに基づいたデータ解析手法の開発研究を行っています。開発した解析手法を、ゲノム科学、医学、材料科学、古典文学等のさまざまな分野に応用することにより、その有用性を「実際に役に立つ」という観点から研究を行っています。それでは、もう少し具体的に、私の研究内容を紹介していきたいと思います。

(1)多様なデータ形式に対する解析手法の開発
今日まで、データを数値ベクトルとして表現し、ベクトルデータを基本としたデータ解析手法が発展してきました(例えば、統計学の多変量解析等)。しかし、近年ではデータの形式が、関数、立体構造、ネットワークといったように多様になり、新たなデータ解析手法の開発が求められています。私は、各データの形式の特徴をよく捉えた上で、統計科学や機械学習に基づいた解析手法について研究しています。

(2)統計的モデル選択問題
ある現象が観察され、それを説明する要因がいくつか考えられるとします。例えば、ある現象が「インフルエンザに罹ったかどうか」で、それを説明する要因が「熱、咳、季節、・・・」を想像してもらえればと思います。このとき、特に現象に影響を与えている要因を特定したいことがあります。これが、統計学における変数選択問題と呼ばれるものであり、より広い枠組みでは統計的モデル選択問題と呼ばれています。この問題に対し、情報量やベイズ理論の観点から,得られたデータに依存しない客観的な基準を作り、新たな選択方法について研究しています。

(3)スパース学習
(2)では、現象を説明する要因の選択方法について述べましたが、ゲノムデータに代表されるように、近年取得されるデータの特徴として、その説明要因の個数が数千や数万になることがあります。このとき、上述した変数選択法を実行すると計算量的に破綻します。スパース学習は、従来の変数選択法に取って代わる形で導入された新たな選択法であり、要因が多い場合でも実行可能です。また、この研究では、大規模な問題を解くことが多くなるため、最適化理論に関する知識が必要となってきます。統計科学、機械学習、最適化理論の三分野が織り成す様は非常に面白く興味が尽きません。

3.学生の皆さんへ

自分自身の大学院生活を振り返ってみると、色々な不安でいっぱいでした。修士論文は書けるのか、博士論文は書けるのか、就職はできるのか等々。このような悩みを抱えている学生はたくさんいると思いますが、解決方法は結局「今を精一杯頑張る」、これしかないと思います。皆さんが努力する過程において、道標を行うなど少しでも力になっていければと思います。

教員紹介