自然言語処理スレッド その3
at TECH
76:71
09/09/28 14:14:58
>>75
ABCDEFG・・・は2バイト文字とする。
ABC、BCD、CDE・・はそれぞれ一回ずつ出現する。出現した物をカウントする。
すると、2の48乗次元ベクトル空間が得られる。
似ている文書では、同じ箇所がカウントされやすくそのベクトルの類似がはかれる。
これでは、計算量の点から、クラスタリングが困難なので
直行している基底をいくつか選んで射影をとってクラスタする。
すると、20次元くらいなどにおさえられる。
次ページ続きを表示1を表示最新レス表示スレッドの検索類似スレ一覧話題のニュースおまかせリスト▼オプションを表示暇つぶし2ch
5413日前に更新/48 KB
担当:undef