- 138 名前:vz ◆AOg0i44PYI mailto:sage [2010/01/09(土) 20:40:36 ]
- >>137
いや、プログラムは出来てるしデータも出てます。 自分が作ったのは↓の研究の追試みたいなもんで cl.aist-nara.ac.jp/~ryu-i/papers/NL165-4.pdf 商品のレビュー記事に含まれる文から、どの単語が商品の 「どの部分」(属性)が「どう」(評価)であるのか、という 評価の中心的な情報を{属性,評価}ペアって形式で抽出するって研究です。 ( イメージとしては(カメラのレビュー): 「実際見てみたんだけど、操作性が信じられないぐらい劣悪だし、 画質に至っては最低だったわwwwありえねーwww」) ⇒{属性,評価} = {操作性, 劣悪}, {画質,最低} 機能的には ・レビュー記事の文中の各単語を{属性語、評価語、それ以外}の 3クラスに分類する多クラス分類器の機械学習による実現しました。 具体的な実装としては、 ・各レビュー記事中の文を構文解析・係り受け解析して 得られた構文木の構造や、各単語のレビュー記事カテゴリ内における TFIDF値、分類語意表における単語のカテゴリなどを 2値(0,1)の多次元ベクトルとして「単語ごと」に作成しました。 ・各単語ごとに得られたベクトルを特徴量として、予め人手でラベル付けさせた データの一部を用いて機械学習アルゴリズム(NB)を用いた分類器を学習させました。 ・ラベル付けさせた残りのデータをテストデータとして、学習させた 分類器によるクラス付けのと、人手で付けたクラスとを比較し 適合度(precisoin)と再現度(recall)を求めました。 加えて、ラベル付けされた各属性語と評価語の各単語間で対と なっているものの判別も↑と同じような方法で実現。
|

|