- 897 名前:名無しさん@お腹いっぱい。 mailto:sage [2006/10/12(木) 14:05:02 ID:wcjlsRxk]
- プトレマイオス朝時代のエジプトには、当時世界最大の図書館「アレクサンドリア大図書館」があり、
70万もの蔵書を誇っていたという。 蔵書のほとんどは巻物だったが、1巻200ページ相当として、300dpiでスキャンした場合、1頁500KBとして 1巻100MB、それが70万巻ということは70TBか。 TeraStation 2GBを35台つなげればアレクサンドリア図書館に匹敵するデジタルアーカイブが完成するな。 文字数を見ると、1頁に2000文字のアルファベットが書き込めるとすると、 2000文字×200頁×70万=280,000,000,000文字の知識が詰まっていたということになる。 1文字1バイトなら280GB、UTF-8みたいに1文字3バイトなら840GBか。テキストだけ抜き出せば 個人のPCでも何とかなりそうだな。 さて、これを全文検索かけるとなるとNamazuの場合、対象ファイル数は90万弱が限界みたいだから www.namazu.org/FAQ.html#index-scale 何とかなるかも。 Hyper Estraierの場合、 hyperestraier.sourceforge.net/uguide-ja.html#tips にあるように「一つのインデックスに登録できる文書の総量の目安は、プレーンテキストなら300GB」 とのことなので、1文字1バイトならぎりぎりいけそう。UTF-8なら3つくらいにインデックスを分けて P2P連係させないといけなくなる。
|

|