研究概要
|
Web班では,インターネット上にある膨大な情報を収集,解析,編集することで 新たな知識を創出することを主たる目的とし, 研究活動を行っています.
|
|
|
研究の背景と目的
|
近年,情報技術の発展と通信環境の整備に伴い,急速にインターネットが普及しました.また,ブログや掲示板,SNS(Social Networking
Service)などのサービスの台頭によって,誰もが容易にインターネットを介して情報発信できるようになりました.さらに,GyaOやYouTubeなどに代表される動画サービス,GoogleMapのような地図サービス,Amazon.comをはじめとした通販サービスなど,インターネットを介し,様々なサービスが利用できるようになりました.以上から,現在,インターネット上には,多種多様な情報やサービスが日々提供されているといえます.しかし,近年,インターネット上の情報量が膨大になりすぎて,必要な情報を見つけられないといった弊害が大きな問題となっています.そこで,インターネット上の様々な情報を分析し,もっとユーザが使いやすいように整理・編集・加工する技術が求められるようになりました.
我々田中研究室Web研究班は,インターネットの利便性向上を目指し,以下のような研究を行っています.
|
|
|
|
研究事例
|
マイクロブログから抽出したユーザの習慣に基づく行動推定に関する研究
|
携帯端末の普及に伴い,ユーザの生活や行動に応じて様々な情報を提供するサービスに注目が集まっている.そのため,携帯端末に搭載された各種センサやマイクロブログなどのCGM(Consumer
Generated Media)を用いて,ユーザの生活や行動を分析,推定する研究が行われている.既存研究では,ユーザの行動推定にGPS(Global Positioning
System)から取得した位置情報を用いる手法やCGMの投稿内容を用いる手法が提案されている.しかし,前者の手法では,GPSをオフにしている場合や位置情報を取得できない場所にいる場合に行動を推定できない.また,後者の手法では,投稿内容に行動に関する情報が含まれていない場合や,CGM上にユーザの投稿が存在しない場合に行動を推定できない.このように,既存研究では,推定に必要となる情報が取得できない場合に対応できない問題がある.そこで,本研究ではユーザの日々の行動の多くが習慣的な行動(以下,習慣行動)であることに着目し,ユーザの行動推定に習慣行動を用いる方策を検討する.現代社会では,時間を基準に行動することが多く,習慣行動を抽出できれば,情報を取得できない場合でもユーザの行動を推測できると考えられる.そこで,本研究ではマイクロブログを対象に,ユーザの投稿履歴から習慣行動を解析し,その結果に基づき各時間の行動を推定する手法を提案する.これにより,投稿内容に行動に関する情報が含まれていない場合や投稿が存在しない場合においても,習慣行動に基づき行動を推定することが可能である.
|
|
|
|
CGMにおけるトピックの評価指標に関する研究
|
SNS(Social Network Service),ブログや掲示板などのCGM(Consumer Generated Media)が普及し,インターネットに流通する情報が増加している.これらの情報には,様々なトピックに対する意見,感想や情報提供といった消費者や企業にとって有用な情報が多く含まれている.その一方で,既知の情報や文字数の少ない利用者の反応情報など,有用性の低い情報も含まれている.そのため,有用な情報を発見するには,利用者が膨大な情報から取捨選択する必要があり,多くの時間と労力を要する.注目度の高い情報を抽出する既存研究として,リアルタイムバースト解析手法が提案されている.既存研究を用いてバーストの有無を判定することで,注目されているトピックや情報の取捨選択が可能である.しかし,既存研究では,情報そのものの価値を評価していないため「情報に価値がない場合でも評価値が高くなる」問題と「情報に価値がある場合でも多くの利用者が発見していない場合は評価値が低くなる」問題がある.そこで,本研究では,これらの問題を解消するために,リアルタイムバースト解析手法の解析結果に対して,トピックに関連する情報の価値を評価する指標を組み合わせることで,情報の重要性を考慮したリアルタイムな情報評価指標を提案する.
|
|
|
|
信頼性を考慮したCGMマイニング手法の提案
|
情報機器の普及と通信インフラの発展に伴い,ブログやマイクロブログなどのCGM(Consumer Generated Media)を介した情報発信が活発化している.これらのメディアでは,公や企業が提供する情報では不足しがちな消費者目線の情報や即時性が高い情報が含まれている.そのため,これらのCGMから有用な知見を抽出することを目的とした研究が盛んに取り組まれている.しかし,Web上から情報を適切に抽出するためには,以下の2つの課題を解決する必要がある.1つ目の課題は,Web上に投稿されるスパムのフィルタリングである.アフィリエイトの仕組みが普及するに伴い,スパムの質も変化しており,適切なスパム判定手法が必要となる.2つ目の課題は,情報の正確性である.CGMに投稿される情報は,十分なチェックがなされない場合が多いことから,情報そのものが正しくない場合への対処が必要となる.そこで,著者は,これらの課題を解決し,CGMから信頼性の高い情報を取得する手法について研究を行ってきた.本論文は,これらの検討内容と研究成果についてまとめたものである.
|
|
|
|
マイクロブログにおけるユーザ属性を考慮した情報伝播の解析に関する研究
|
インターネットを介した風評被害の拡大が問題となっている.これは,リアルタイム情報が高速に伝播する性質をもつマイクロブログの普及[1]が一因であると考えられる.そこで,著者らは,マイクロブログにおける風評被害の拡大を防止するための手法について研究を行っている.風評被害の拡大の防止には,風評の把握と風評に反応するユーザ層を把握し,各ユーザに特化した情報戦略を実施することが効果的であると考えられる.マイクロブログから風評を抽出するための研究として,トピック抽出手法[2][3]が提案されており,一定の精度で風評に関わる話題を抽出可能であると考えられる.また,風評に反応するユーザ層の把握には,ブログの投稿内容から属性を推定する研究[4][5]が適用できると考えられる.これらの手法に加えて,リアルタイムに情報が発信されるマイクロブログの特性に基づき,投稿時間の傾向からユーザの生活サイクルを考慮し,ユーザの属性を推定する手法を考案した.本研究では,以上の手法を組み合わせて,風評に反応したユーザの属性を推定する.そして,入力した風評に対し,どのようなユーザ層が反応しているかなどの情報伝播状況を提示するシステムを開発する.
|
|
|
|
Webリソースと地理情報を活用した新店舗情報の自動収集に関する研究
|
近年,カーナビゲーションを代表とする地理空間情報サービスが普及しています .しかし,地理空間情報サービスの基盤となる地理情報の整備は人手による現地
踏査に依存しているため,新店舗の開店などの実空間の情報変化に地図情報が追 従できていない問題があります.そこで,本研究では,Web上の自然言語から店舗 名,住所や業種などの店舗情報の自動収集をおこないます.業種ごとに学習用デ
ータを用意し特徴語を学習することに加えて,単語の連接関係と店舗の業種と出 店場所の地理的特性の相関を考慮します.
|
|
|
|
ミニブログからのユーザ嗜好に基づく新たなコミュニティの発見に関する研究
|
近年,ミニブログと呼ばれるサービスの普及に伴い,ユーザの独り言や議論が配 信されています.それらの中には,他のユーザにとって有益な情報が存在するた
め,ミニブログにおける情報検索に対するニーズが高まっています.しかし,キ ーワードやタグによる検索では,複数の発言に渡って存在する情報を検索できな い問題があります.そこで,本研究では,返信表現と引用表現を基にして,関連
性の高い発言を抽出し,官憲性の高い発言群と1つの発現の関連性を見ることで, 複数の発現に渡って村債する情報を通出する手法を提案しました.
|
|
|
教師データ自動収集と違法情報の特性を考慮したフィルタリング手法に関する研究
|
近年,インターネットの普及に伴い,青少年がインターネットを利用する機会が 増加すると同時に,悪意のあるインターネットの利用者により,青少年がトラブ
ルに巻き込まれる事件が増加しています.そのため,平成21年4月から,インター ネット環境整備法が施行され,青少年の安全なインターネット利用環境整備に向 けた施策の促進が行われています.しかし,実場面に適応した場合,不十分な点
もあります.そこで,本研究では,「違法情報の特性を考慮したフィルタリング 手法」と「教師データ収集の省力化方法」の2つの手法について提案し,インター ネット上の違法・有害な情報を効率的にフィルタリングすることで,セキュアな
インターネット環境の実現を目指しました.
|
|
|
マイクロブログからの地域の話題抽出に関する研究
|
近年,位置情報を基に周辺の地域情報を提供する地理情報システム(GIS)が注目 されており,社会の基盤として確立されつつあります.しかし,既存の地理情報
システムに用いられる地理情報はリアルタイム制に乏しい問題があるだけでなく ,リアルタイム性の高い話題を抽出する手法もまだ確立されていません.そこで ,本研究では,マイクロ風呂部の文書中に含まれる単語を検索エンジンに入力し
,検索結果のWebページに含まれる単語群を用いて単語間の類似性を評価すること で,造語,省略語や未知語を考慮したリアルタイム性の高い地域の話題を抽出す る手法を提案しました.
|
|
|
|
カテゴリ分類と時系列情報に基づくブログスパム判定手法の提案
|
誰もが気軽に情報発信を行う手段として,ブログが注目されている.しかし,それらの機能を対象として,広告や他サイトへの誘導を目的とするスパム投稿の増加が問題となっていることから,投稿のスパム判定を効果的に行うフィルタリング手法が求められている。既存研究では,メールのフィルタリングにおいて,スパムに出現する単語の特徴からスパム判定を行うベイジアンフィルタの研究が成果をあげている。しかし,これをブログに適応した場合,評価値を更新しスパム判定精度を維持するための長期的な人的コスト
が必要となる問題と,ブログ上の出現単語数の多さからすべての単語の相対的な出現回数 が少なくなるためスパム判定の精度が低下するという問題がある。そこで,本研究では,これらの課題
に対して,Webから自動的に取得した情報を用いてスパム判定の評価値を自動更新する手法,単語の 相対的な出現回数の少なさに対応するため各単語の評価値をカテゴリ別に算出する手法と時系列情報から
単語のスパム確率を補正する手法を用いることで,ブログスパムに適した判定手法の提案を目指す。
|
|
|
|