- 1 名前:名無しさん@お腹いっぱい。 mailto:sage [2009/10/24(土) 17:52:41 ID:8lJsGQUO0]
- お勧めの重複、類似、近似画像処理ソフトについて語りましょう
前スレ お勧めの重複・類似・近似画像処理ソフト2 pc12.2ch.net/test/read.cgi/software/1145546190/ 重複 UnDup(シェア、ただし実質フリーのカンパウェア) ttp://www.vector.co.jp/soft/win95/util/se257656.html AikoWin(フリー) ttp://nomal.que.ne.jp/kohi/freesoft.shtml 類似、近似 pickpix2(シェア、未レジの場合でも機能・試用期間制限なし。) ttp://magarchive.halfmoon.jp/ AbleCV(シェア) ttp://www.vector.co.jp/soft/win95/art/se083427.html PiCo(フリー) ttp://www.vector.co.jp/soft/win95/art/se187574.html Dup Detector(フリー)(海外) ttp://www.prismaticsoftware.com/Utility/Utility.html Dup Detector日本語パッチ ttp://www.kawachi.zaq.ne.jp/goemon/patch_room/patch_list.html
- 252 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/03/20(土) 06:49:53 ID:AvukQUCM0]
- 破損してるファイルだけどサイズも一緒で破損箇所までバイナリも一緒
っていうの探すんじゃね?
- 253 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/03/20(土) 08:04:08 ID:lghXesTk0]
- 部分一致ってJaneのキャッシュみたいにヘッダがあるファイルのヘッダだけを比較とかに使うんじゃない?
まあ、可変長だからJaneのキャッシュは無理だが…
- 254 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/03/20(土) 11:21:08 ID:o65vciaR0]
- >>251
例えば1TBのファイルの中身を頭から尻尾まで調べ上げるのと、100kBのファイルを調べるのではかかる時間が違うでしょ? DNA鑑定をする時にすべての配列を調べたりしないのと同じ プレーンテキストなんかは無理だろうけど普通のファイルはある程度の範囲がバイナリ一致すれば同一とみなせる物がほとんど 範囲の指定は自分でできるからヘッダだけ比較することも頑張れば可能かもね 逆にJPGだとヘッダを無視するオプションもあるみたいだけど(純粋に画像の中身のみ比較したい人向けに)
- 255 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/03/20(土) 23:11:34 ID:VvY3CR4s0]
- こんな認識してる
1.完全一致検索 ( 1pass ) 同じサイズのファイルをリストアップ リストアップされた同じサイズのファイルどうしを先頭から最後まで比較する(以下全比較) 同じサイズのファイルが10個あったら9*8*7*6*5*4*3*2回全比較する (全比較中に違いを見つけたら中断) 2.完全一致検索 ( 2pass ) 同じサイズのファイルをリストアップ リストアップされたファイルのCRCを計算する 最後に同じサイズで同じCRCのファイルがあったら全比較する 3.簡易検索 (CRC32) 同じサイズのファイルをリストアップ リストアップされたファイルのCRCを計算する 4.サイズを無視(部分一致) 1〜3は同じサイズのものがあったファイルしか開かないのに対し、これは指定したサイズ範囲の上限 以上の大きさのファイルを全て開き部分一致チェックする ※1〜3は「部分一致検索をする」にチェックを入れても無視される 2と3は拾い集めた画像フォルダ等、同じファイルが多数存在する可能性がある場合に有効 拾い集めた画像フォルダなら3で十分 サイズとCRCの両方が万が一一致してしまうのがいやな完璧主義なら2を使う 1はファイル構成が同じはずもしくはほぼ同じ(バックアップとか)のフォルダ同士を比較する時等に有効 同ファイルが基本的に1対1ならCRCの計算と全比較の両方やるのはムダ それ以前にフォルダ比較ツールでも使った方がいい 拾い集めた画像フォルダでもまめに一致検索をしている人は同じファイルが多数存在している 可能性が低いのでこっちを使った方がいいかも
- 256 名前:255 mailto:sage [2010/03/20(土) 23:13:57 ID:VvY3CR4s0]
- 4は1〜3のどれかで同ファイルを処分した後、一部破損で不一致になったファイルやダウンロード
ミスで途中で切れてしまっているファイルを探したい時に有効 指定したサイズ範囲以上の全ファイルを開くので大量にある画像フォルダより、でかいゴミとなる 動画等の大きなサイズのファイル向き より完璧にしたいなら比較範囲をずらして2回やる その際、指定した範囲が動画等のヘッダ部にかぶってしまうと違うファイルでも一致してしまう 可能性があるので、多少先頭からずらした位置を指定する 拾い集めた画像の場合一度目で見てキャッシュになっているものを保存するので途中で切れている 可能性はまず無いし、ヘッダのみが違っているファイルはたいがいファイルサイズも違うので無意味 (ヘッダを無視を使った方がいい)
- 257 名前:255 mailto:sage [2010/03/20(土) 23:23:25 ID:VvY3CR4s0]
- 訂正
×9*8*7*6*5*4*3*2回 ○9+8+7+6+5+4+3+2回
- 258 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/03/21(日) 00:31:20 ID:VCxUSgn70]
- >>255
とりあえず、その1から4はそれぞれ比較方法の一つであって(UnDupには7通りの比較方法がある) オプションである「部分一致検索をする」と同列に話すのはどうかなあとは思う あと、「サイズを無視」には「部分一致検索をする」オプションが必ずセットでついてくるだけの話で、 基本的には(おそらく)全てのファイルを対象にCRC32での簡易検索をするものかと 他の比較方法の時はしたい人だけ「部分一致検索をする」にチェックを入れればいいよと 正直「部分一致検索をする」の使い道があまり思いつかなかったんだけど、確かに破損ファイルは探せるかもねえ 一度比較して重複をなくした後、部分一致検索してもし一致するファイルが有れば破損・不完全ファイルの可能性はあるね 少量の動画ファイルくらいならエクスプローラ上でファイル名やサイズでソートして人の目で確かめた方が速い事が多いだろうけど
- 259 名前:名無しさん@お腹いっぱい。 [2010/03/21(日) 04:15:23 ID:M0W9f3rM0]
- 難しい
CRCもよくわからんから読んでも理解できんわ
- 260 名前:255 mailto:sage [2010/03/21(日) 04:24:24 ID:KXz/0NQ40]
- >>258
>あと、「サイズを無視」には「部分一致検索をする」オプションが必ずセットでついてくるだけの話で、 >基本的には(おそらく)全てのファイルを対象にCRC32での簡易検索をするものかと >他の比較方法の時はしたい人だけ「部分一致検索をする」にチェックを入れればいいよと 全て違うサイズで1対だけわざと部分一致したファイル(サイズは違う)を入れたフォルダに対して 「サイズを無視」検索をやると当然1組の重複として表示されるけど、1〜3は「部分一致検索をする」に チェックを入れてもヒットしないし、File Monitorで見ても1ファイルも開いてないよ だから、 「>基本的には(おそらく)全てのファイルを対象にCRC32での簡易検索をするものかと」 は× (「サイズを無視」は全ファイル開いてる) 1〜4以外の名前とかサイズとか日付とかのオプションを選択した時は「部分一致検索をする」がグレーに なって使えなくなるから「部分一致検索をする」は「サイズを無視」以外では無効ってことだね も1度訂正 ○9+8+7+6+5+4+3+2+1回
- 261 名前:255 mailto:sage [2010/03/21(日) 06:30:52 ID:KXz/0NQ40]
- すまん、間違ってた
1〜3で「部分一致検索をする」にすると、同じサイズのファイルがあったらそれらの部分比較をするみたい ファイルをコピーして片方の一部を意図的に変更して比較実行すると1〜3ともヒットする 1は指定範囲のみの完全一致 2は指定範囲のみのCRCと完全一致 3は指定範囲のみのCRCの一致 ということかな? ファイルサイズが同じものだけしか比較しないから一部破損とかフォーマットが決められたサイズ固定の データの部分比較とかに使えるかな? でも上限値がキロバイトでしか指定できないからデータ等には使いにくそう
|

|