- 214 名前:デフォルトの名無しさん [2005/11/11(金) 22:09:52 ]
- 最近暇だったので bayes とか弄ってた。
英語コーパスを元に、thisisapen を this/is/a/pen に区切ってみたり。 "t-h" の確率を "t- -h" の確率と比較して正規化して合計するだけだが、 未知語もそれなりに上手く分けられる予感。超遅いが。 で、これをどうやって日本語の形態素解析に応用すればいいのかが 分からん。英語みたいに既に区切られた分けられた情報に頼るってのも、 結局辞書を人様が作ってるみたいで、なんかヤダ。 教えてエラい人!
|

|