2008.09.10 作成
2009.12.03 更新
撮影メディア・伝達メディアの多様化に伴い,現代社会には大量の映像データが氾濫している. それらの内容を分析し,様々な形で人間の活動を支援することが重要である. しかし,大規模な映像群に対する処理においては,その規模ゆえに従来の画像内容理解やパターン認識の手法をそのまま適用することは困難である. そこで,大規模な映像群に対して,効率的かつ効果的にその内容を理解し,検索や閲覧を実現したり,潜在している知識を抽出したりすることを目指している.
映像の代表的なものとして,放送映像が挙げられる. 放送映像は人間社会を克明に記録した人類共通の資産と考えられるが,散逸の危機に瀕している. 近年になりアーカイブの構築が進みつつあるが,大量に蓄積された映像群から目的の映像を検索したり,何らかの有用な情報を抽出する手法はいまだに確立していない.
そこで,放送映像のなかでも特に記録として価値の高いニュース映像に注目し,数100時間規模のニュース映像群を対象とした下記のテーマに関する研究に取り組んでいる.
関連するニューストピックの遷移を追跡するために,出来事の時系列的な因果関係を表す「スレッド構造」を自動抽出し,その構造に基づいて話題を追跡するための閲覧インタフェースを提供することで,利用者により指定されたトピックの効率的かつ効果的な内容理解の支援を目指している.
映像によるニュースの伝達における最大の利点は,活字(新聞・雑誌)や音声(ラジオ放送)では伝わりにくい視覚情報の存在が挙げられる. 特に演説など,被写体が自己の意志を表明するために肉声で発話している映像からは,話者の表情や雰囲気など放送映像ならではの情報が得られるため,人物が発言しているシーンを自動収集し,検索や要約を実現することを目指している.
ニュース映像中の人物の出現状況に基づき,アナウンサによる解説などで明示的に言及されない登場人物の人間関係の自動抽出を目指している. また,このようにして得られた知識を用いて,ニュース映像の内容を更に良く理解することを考えている.
国や放送局によってニュースの紹介の仕方は異なる. そのため,音声・テキスト情報のみでは,必ずしも他の国や放送局で放送されたニュース映像を検索することはできない. そこで,画像情報も手がかりにして,同一のイベントを扱うニュースを検索することを目指している. このような技術により,実社会で起きている事象を多面的に理解することが可能になる.
またこれらの実現に必要な画像・テキスト・音声の各メディアにおけるパターン認識技術の研究にも取り組んでいる. その代表的なものとして、最近は準同一(near-duplicate)映像検出に取り組んでいる。 準同一映像とは、CMなどのように完全に同一な映像のほか、同一素材に字幕を重畳するなどして加工したニュース映像などのように、ほぼ同一の映像のことである。 詳細は以下のページで紹介する。
利用者からの様々な問い合わせに応じて的確に回答できるようなシステム,たとえば自動的にドキュメンタリ映像を製作することなどを考えている.
ニュース映像以外に,これまで下記のような映像を対象とした研究に取り組んできた.
また,本研究とは別に,下記のテーマにも取り組んできた.