書誌


著者名(漢字) 井手 一郎
著者名(カナ) イデ イチロウ
論文タイトル 映像への自動索引付けに関する研究 : 統合メディア処理による索引付けとそのニュース映像への適用
報告番号 甲15130
学位授与年月日 2000.03.29
学位の種別 課程博士
学位の種類 博士(工学)
学位記番号 博工第4625号
論文審査委員 主査 東京大学 教授 田中 英彦
東京大学 教授 原島 博
東京大学 教授 坂内 正夫
東京大学 教授 安達 淳
東京大学 助教授 坂井 修一
東京大学 助教授 相澤 清晴

内容要旨


 近年の電気通信技術の飛躍的な発展に伴い,放送媒体の多様化や多チャンネル化が進行し,視聴者に提供される映像量は着実に増加している.このような増加を背景とし,コンテンツ不足を補うための再利用や,視聴者による番組選択のための検索を考慮して,映像を整理して蓄積する必要が急速に高まっている.殊に,ニュース番組は,その内容の重要性と利用価値の観点から,索引付けを行う価値が高い.しかし,索引付け作業の大半は,放送台本などをもとに人手に頼っているのが現状であり,付与単位も一般的には話題単位の大雑把なものでしかない.そのため,時々刻々増え続ける情報に対する速報性,そして,話題よりも細かい単位でのきめ細かな検索要求に応えるためにも,ニュース映像への索引付けの自動化が求められている.

 このような要請を受け,近年,映像への自動索引付けに関する研究が盛んに行われている.その実現手段として,従来の画像認識による正攻法ではなく,いわゆる統合メディア処理,つまり様々なメディアを統合的に処理する手法によるものが1990年代中頃以降特に注目されるようになった.その背景としては,1980年代以降の計算機による処理能力の飛躍的な向上に伴い,従来は計算量的に非現実的とみなされていた処理が可能になり,複数メディアを統合的に扱う余裕ができてきたことや,各メディア単体での処理に対する手法的限界が見えてきたことが挙げられるだろう.人間による外界の認識がいわゆる五感から総合的に行われることを考えても,複数メディアからの情報を統合的に利用することの利点は大きい.

 これらの研究の多くはテキスト中の語の出現や,出現頻度や話題中の相対的な「珍しさ」を基準にした統計的な索引の抽出を行う単純な手法である.他方,テキストに対する全文検索的手法で検索を行い,そもそも索引付けを行わない手法すら存在する.これらの手法は比較的単純かつ高速に実現可能であり,その点においては実用的である.しかし,映像データベースとして重要であるはずの,索引と画像内容との具体的な対応を必ずしも機構的には保証していない.

 このように,画像とテキストの統合処理を謳っている索引付け手法の多くは,画像にテキストから得られる情報を単純に付与しているに過ぎない.また,具体的な画像内容と索引との対応を考慮した手法であっても,人物の顔など,特定の事物のみを対象としたものが主流である.

 本研究では,このような従来の索引付け手法の問題点をふまえて,日本語テレビニュース映像において,映像中に含まれる画像情報とそれに付随するテキスト情報の双方を統合的に利用した統合メディア処理による索引付けの自動化を目指した.

 単純ではあるが実用的な従来手法とは異なる手法により,画像内容と具体的に対応した索引をあらかじめ付与しておく意義としては,主に以下の2点が挙げられる.

  1. 膨大な量の映像に対する検索結果の絞り込みや要約が重要な課題となっているが,最初の検索結果そのものをより精選することができる.
  2. 具体的事象に関する画像というよりは,映像中の話題そのものに興味がある一般利用者を対象としたデータベースにおいては,必ずしも具体的事物が検索結果の画像中に存在する必要はない.しかし,映像の再利用や編集を行う製作者を対象とする場合においては,効率的に具体的事象が存在する画像を検索できる.

 また,このような映像内容を考慮した索引付けを実現するために必要ないくつがの要素技術,特に,以下の2点について重点的に述べる.

  1. 索引候補のテキストとして利用する字幕の語義属性解析  
  2. ニュース映像における頻出場面・典型的構図の多さに着目した事例に基づく画像内容解析

 1.の実現にあたり,「人物」,「場所・組織」,「時相」を示し得る接尾辞を収集した辞書を形態素解析済みテキストコーパスから作成し,辞書の性能評価をかねて,実際の字幕の語義解析を行った.その結果,全体的に見て,高再現率・低適合率の結果が得られた.これは,後段の統合処理時に雑音を除去できることを考えると,実用的な結果である.

 2.については,まず明示的に分類条件を記述して表現した典型的ショットを複数設定し,実際のニュース映像の分類実験を行ったところ,高適合率・低再現率の結果が得られた.この理由として,顔領域の存在を分類条件に含む典型的ショットに対し,顔領域検出の困難さが悪影響を及ぼしていることが挙げられる.また,画像特徴量と画像内容の対応関係を用いた内容解析の実例として,ニュース映像に頻出する国内政治関連の場面の推定を行った.この際,ニュース映像に人物像が頻出することを考慮して,人物領域を除去した背景領域の画像特徴量を用いた場面推定を行ったところ,除去しなかった場合と比較して正確に行うことができた.

 最後に,1.及び2.の結果を統合した最終的な索引付けにより,事例数の少なさにより実用的な水準の性能は示されなかったものの,比較的簡単な特徴量のみを利用したにもかかわらず,属性別の具体的事物に関する索引付けに成功した.

 以上の結果,従来手法にはない映像内容を考慮した自動索引付け機構実現への道筋を示すとともに,必要となるいくつかの重要な要素技術の提案とその有効性を示した.

審査要旨


 本論文は、「映像への自動索引付けに関する研究-統合メディア処理による索引付けとそのニュース映像への適用-」と題し、7章からなる。映像情報は日々テレビを中心として多量に生成されており現代社会の情報の重要な部分を占めている。しかし、それらを蓄積しておいて、後ほど利用しようとすると、放送日時程度のタグしか付けられておらず、画像内容に応じた検索が困難である。本論文は、映像を処理し、自動的に内容に応じた索引を付ける手法について論じたものである。

 第1章「序論」は、本研究の背景と目的、並びに本論文の構成をまとめたものである。

 第2章「映像データベースと統合メディア処理」は、一般的な映像の定義とその構成を述べ、次いで既存の映像検索手法を、問い合わせとデータ表現形式で分類して概観し、それらの特徴を整理している。

 第3章「映像内容を考慮した統合メディア処理による索引付け」は、提案システム全体について述べたもので、ニュース映像を対象とし、画像と、それに付随しているキャプションや説明文などのテキスト、とを用いた統合処理システムであって、テキストに対する自然言語処理部、映像に対する画像処理部、それらの結果を統合する統合処理部の3部分からなる。このシステムにより、映像にたいして4W、すなわちwhen,where,who,whatの4つの属性を付与することを目指している。すなわち、テキストに自然言語処理を施して、これらの値を求めるとともに、画像に施した特徴解析の結果から画像内容の推定(who,where,when)をおこなう。画像内容解析には、多くの画像データから得られた知識ベースを用い、典型的なショットから行為(what)を推定したり、顔画像抽出(who)や場面(where)推定が可能なときは、その画像とテキストとの対応を取ることによってお互いの判断を補い合い、最終的な索引を構成している。

 第4章「接尾辞に基づく字幕の語義属性解析」は、テキストに対する処理として、字幕の語義属性解析について述べたもので、まず、字幕データを多量に集めて分析した結果、具体的事物を指示する名詞句が多いことを明らかにし、次にその文法や内容の特徴を利用した名詞句の語義属性解析手法として、接尾辞に着目した手法を提案している。それには、時相名詞、人物名詞、場所・組織名詞などの辞書が必要となるが、それをRWCテキストコーパスと、京都大学テキストコーパスの二つから作成している。次に、この解析手法の実装について述べ、評価実験の結果、いずれの語義属性においても、Jumanなどの既存技術に比して非常に高い再現率が得られたことを述べ、本手法の有効性を主張している。ただし、人物字幕以外の例では適合率が低いことがあり、その原因を分析して、辞書や、要素技術として用いた構文解析プログラムJumanの改良が必要であることを明らかにしている。

 第5章「画像特徴量に基づく画像内容理解」は、画像処理について述べたもので、まず、画像特徴量としては、色彩に関する色出現頻度分布と、色共起度分布、たらびに顔に関する特徴量としての顔の数、位置、面積などを用いることとし、キャスタショットのような大きな人物映像の場合は、それを顔、胴体、背景の3領域に分割して、それらの中における色彩の特徴量を求めている。それらの特徴量から画像内容を推定する機構としては、あらかじめ訓練事例画像からそれらの対応関係知識を獲得しておき、それを引くことによって内容を得るものとしている。このシステムを実装し、典型的なショットの分類を、演説、キャスタ、人の集合、コンピュータグラフィックスの4つとした場合の分類実験結果や、場面推定実験結果を示し、頻出場面の推定に有効であることを示している。

 第6章は、「テキストと画像の属性を考慮した索引付け」で、前章迄に述べた二つの処理を統合したシステムの実装について論じるとともに、それを実験によって評価したものである。システムは、索引付け対象画像との画像的類似度が高いショット中に出現するテキスト情報から、人物および場所の属性を考慮して選択したものを索引とする方式であり、817ショットを事例群として索引付けを行なった結果、人物に関する索引が付いたものの内、適合度が1位のものが正答であった割合は80%程度となった。しかし、全ショットに対する適合度1位のものが正解である割合は40%程度で低いが、同一人物検出を実装することによりかなりの向上が期待できる。また、場面に関する索引付けは、余り成功していないが、適合度の上位を示す索引にはかなり多くの正解が含まれており、今後の改良によって精度が向上する可能性があると述べている。

 第7章は、「結論と今後の課題」である。

 以上、これを要するに本論文は、映像にテキスト処理と画像処理とを組み合わせることによって、映像の内容に応じた自動的な索引付けを行なうシステムを提案し、それを実装・評価したもので、問題を完全に解決した訳ではないが、従来方式に比して精度の高い索引付けに成功しており、この領域における大きな進歩となっており、電子情報工学上貢献する所少なくない。

 よって、本論文は、博士(工学)の学位請求論文として合格と認められる。