【IT】グーグルが大規模な日本語の解析データ「N-gramデータ」を公開、「20%ルール」の成果［07/11/01］

【IT】グーグルが大規模な日本語の解析データ「N-gramデータ」を公開、「20%ルール」の成果［07/11/01］ at BIZPLUS

1:やるっきゃ騎士φ ★
07/11/02 11:33:49
グーグルは2007年11月1日、「N-gramデータ」と呼ばれる、語と語の
つながりやすさを示すデータを公開した。例えば「グーグルで」という
言葉の後には、「検索」という語が使われることが最も多い、といった
ことが分かるデータだ。インターネットで収集した膨大な日本語データを
解析することで作成した。勤務時間の20％を自分の好きなことに使える
同社のルール（いわゆる「20％ルール」）によって生まれた成果だという。

N-gram言語モデルとは、N-1個の語のつながりから、N個目に来る語を
予測する手法。例えば「グーグル」と「で」という2つの語に続く、3語目の
言葉を予想するのは、3-gramに相当する。この手法は、ひらがなから正しい
漢字を推定するかな漢字変換や、音声データから文字を推定する音声認識
などの処理において、有効に活用されている。今回グーグルは、この手法で
使われるデータを作成、公開した。

どの語とどの語が連続して出現しやすいかは、膨大な量の言語データを解析
して導き出すのが一般的。グーグルでは、200億文に上る日本語データを
解析したという。含まれている単語は、約2550億個。1-7gramのデータを
公開しており、例えば7-gramのデータは11億種類以上にも上る。

データは、特定非営利活動法人言語資源協会の「言語資源流通サービス」を
利用して公開。団体／個人の区別なく利用できるという。

データを作成したのは、同社のソフトウエア・エンジニアである工藤拓氏と
賀沢秀人氏。いずれも自然言語処理などの分野で実績のある技術者である。

ソースは
URLﾘﾝｸ(itpro.nikkeibp.co.jp)

依頼を受けてたてました。

レスを読む