1 名前:たのも〜 [2001/01/10(水) 15:02] 最近、PGFをコレクション始めたのだが、httpで連番のファイルを一気にダウンロードする ソフトやスクリプトがあれば教えてけれ。
554 名前:名無しさん@お腹いっぱい。 mailto:sage [03/03/21 12:31] ファイルの保管で悩んでるのよ。長いけど聞いてくれ。 たまった画像および動画を外部メディアに保存する。でその時に、暗号化… というか、めくらましをしときたい。また、取得は Unix、鑑賞は Win の パターンが多いので、両方で使えるのが望ましい。 win and unix>手軽さ>速度>>>>暗号強度(>圧縮) で、なるべく透過型なのがいい。ふつーのファイルみたいに見えるやつ。 PGP disk (仮想ファイルシステム)はほとんど理想なんだけど、残念な ことに RO media からの mount ができない。DVD-R への保存ができない。 # でもこれはこれでいい。万人に薦める。 zip による暗号化はファイル名がばっちりなので意味がない。また、伸長 処理が一段階入っちゃうのがとても気に入らない。 君たちはどうしてるかね。つーか Win で loop device が使えればばっちり なのだがー。意見求む。
555 名前:名無しさん@お腹いっぱい。 mailto:sage [03/03/21 23:13] >>554 暗号化うんぬんとズレるけど、ファイル名を機械的に変更するのはどう? 実は漏れ、ファイルの整理の為に、md5 の結果をファイル名にしてるのだ。 #! /bin/sh IFS=" " for i in `find $1 -type f -print`; do mv "$i" `dirname "$i"`/`md5sum.exe $i | sed -e "s/ \*.*$//"`.`echo $i | sed -e "s/^.*\.//"` done
556 名前:555 mailto:sage [03/03/21 23:18] cygwin 上で動かしてるので md5sum.exe になってたりするが気にしないようにw。 後、md5 の表示形式によって微妙にスクリプト変えないといけないのも注意。
557 名前:名無しさん@お腹いっぱい。 mailto:sage [03/03/22 16:30] 透過型というか、先頭32K部分とかに XOR でもかけて、 % xor 32000 <ファイル名> | mediaplayer とかできるとありがたい。 もしくは先頭部分にダミー放りこんで、32K後から読み込むようにするとか。 これと >>555 の md5 作戦を組み合わせれば DVD そこらに置きっ ぱなしにしたりしても(まぁ)安全。扱いも楽。 しかし、 Unix ならまだしも Windows でこゆことできるのかな。 子供さんがおられるひととかいない? お父さんなにこれ、とか言われ る前に備えが必要では? などと不安を煽ってさらにアイデア募集。
558 名前:山崎渉 mailto:(^^) [03/04/17 12:16] (^^)
559 名前:名無しさん@お腹いっぱい。 mailto:sage [03/04/17 17:00] いつのまにか*nixでラブマ結合出来るソフト公開されてるのね。 感謝感謝。
560 名前:名無しさん@お腹いっぱい。 [03/04/18 09:13] >>559 詳細キボンヌ
561 名前:名無しさん@お腹いっぱい。 mailto:sage [03/04/18 10:06] >>559 さんくす。 >>560 Google
562 名前:あぼーん mailto:あぼーん [あぼーん] あぼーん
563 名前:1 [03/04/23 19:21] xxx.xxx.com/eroero/[01-25].jpg xxx.xxx.com/eroero2/[26-50].jpg と書かれたlistファイルから xxx.xxx.com/eroero/01.jpg … xxx.xxx.com/eroero2/50.jpg と展開したnewlistファイルを作るスクリプト。とりあえず[]内二桁までしか対応していない。 誰か改良してくれ。 #!/bin/sh exec < list while read URL do n=`echo $URL | awk -F[ '{print $2}' | awk -F- '{print $1}'` if [ $n -lt 10 ]; then n=`echo $n | sed 's/^0//'` fi LAST=`echo $URL | awk -F[ '{print $2}' | awk -F- '{print $2}' | awk -F] '{print $1}' ` while [ $n -le $LAST ] do if [ $n -lt 10 ] ; then echo $URL | sed "s/\[[0-9][0-9]-[0-9][0-9]\]/0$n/" >> newlist else echo $URL | sed "s/\[[0-9][0-9]-[0-9][0-9]\]/$n/" >> newlist fi n=`expr $n + 1` done done
564 名前:名無しさん@お腹いっぱい。 mailto:sage [03/04/23 20:21] 誤爆しちまったい。これでどないだ perl -ne 'chop; ($base, $first, $last, $ext) = m@(.+ )/\[(\d+)-(\d+)\]\.(\S+)@; for($first..$last){printf "$base/$_.$ext\n"}' list
565 名前:名無しさん@お腹いっぱい。 mailto:sage [03/04/23 21:36] >>564 誤爆先を見つけてしまったよ…… ていうかなんであんなところに誤爆してるんだYO!(w
566 名前:名無しさん@お腹いっぱい。 mailto:sage [03/04/23 21:51] unix でラブマ教えてプリーズ
567 名前:名無しさん@お腹いっぱい。 mailto:sage [03/04/23 22:20] unlov を使いたまえ
568 名前:名無しさん@お腹いっぱい。 mailto:sage [03/04/23 22:23] >>567 サンクスコ!
569 名前:名無しさん@お腹いっぱい。 [03/04/23 22:46] Linuxバイナリかよ。 unixじゃないじゃn
570 名前:名無しさん@お腹いっぱい。 mailto:sage [03/04/23 22:53] 偽装の仕様は公開してくれないの? あれば自分で作りたいんだけど。
571 名前:名無しさん@お腹いっぱい。 mailto:sage [03/04/23 23:26] >>570 「偽装」の目的を考えれば、公開する訳がない気がする…
572 名前:名無しさん@お腹いっぱい。 mailto:sage [03/04/23 23:33] 偽装の目的ってなんなのかな。 jpg ファイルに埋め込めればいいとかじゃなくて? 結合ツールが出回ってるのに公開しない理由とわ?
573 名前:名無しさん@お腹いっぱい。 mailto:sage [03/04/24 00:23] >>572 安全保障上の理由とおもわれ。
574 名前:名無しさん@お腹いっぱい。 mailto:sage [03/04/24 12:14] >>563 これじゃだめなのか? #!/bin/sh len=2 fmt="%s%0${len}d%s\\n" IFS='[]- ' cat list | while read base beg end sfx; do i=$beg while [ $i -le $end ]; do printf $fmt $base $i $sfx i=`expr $i + 1` done done >newlist
575 名前:名無しさん@お腹いっぱい。 mailto:sage [03/04/24 18:47] >>570 ハックという言葉は知っているかね?
576 名前:名無しさん@お腹いっぱい。 mailto:sage [03/04/24 19:43] ハックの大事なものを知ってるよ 友達どうしの約束と涙の止まるおまじない
577 名前:名無しさん@お腹いっぱい。 mailto:sage [03/04/25 01:38] >>575 ロリ.hackハァハァ
578 名前:名無しさん@お腹いっぱい。 mailto:sage [03/04/25 20:09] 日替わりに動画を更新するエロサイトでは、URL はほぼ固定で日付に相当する 部分だけを変えるところも多い。 で、そういうサイトの動画を楽にまとめて落とすスクリプトを書いてみた。date の書式を 利用しているので手抜きができる。使う種類は限られていると思うが、例えば %m は月に %d は日にそれぞれ置換される。 以下のような感じで、データの追加も簡単だし、一時的にチェックから外したければ、 END 以下に移動させてコメントアウトしておけばいい。単純な割にはめちゃ便利かも #!/bin/sh cat <<END | while read i; do wget $(date "+$i"); done www.nantoka/~abc/defg%m-%d.zip www.kantoka/~hij/klmn%m-%d.zip www.doko/~op/qr_stu%m-%d.zip www.kasiko/~vw/xyz99%m-%d.zip END
579 名前:名無しさん@お腹いっぱい。 [03/04/26 06:19] このスレは素晴らしいですね! ところで、上の方でもつぶやいていた方がいましたが、 yahoo groops(eGroup)の記事や画像を自動ダウンすることは可能なのでしょうか? winのオートパイロットソフトなども試したのですが、認証が越えられずダメでした・・。 wgetでもダメならば、cygwinのlynxならば認証を受けることができるので、 lynxをスクリプトで自動で操作してダウンする、などということは可能なのでしょうか? wgetはwinのIEのクッキーではダメなんですよね?
580 名前:あぼーん mailto:あぼーん [あぼーん] あぼーん
581 名前:名無しさん@お腹いっぱい。 [03/04/26 06:45] $ wget --help|grep cookie --cookies=off don't use cookies. --load-cookies=FILE load cookies from FILE before session. --save-cookies=FILE save cookies to FILE after session.
582 名前:名無しさん@お腹いっぱい。 mailto:sage [03/04/28 01:37] >552 このスレのちょっと前に出てた、ディレクトリ以下のインデックス一覧表示を 追加して使わせて貰ってます。 ディレクトリの中に.jpgがない場合のエラー処理が要るような気もするけど まぁいいや。 #ソースの折り返しとかについては勘弁ね。 #!/bin/sh DIR=`pwd` FN=`basename $PWD` URL_HEAD='www. 漏れのティンコ.co.jp' echo "<html><head><title>$FN</title><head><body>" > index.html echo "<div align=center><font size=4>$FN</font></div>" >> index.html for i in `ls` do if [ -d $i ] ; then cd $i ls |grep "[jJ][pP][gG]"| sed 's%\(.*\)%<a href="\1" alt="\1"><im g src="\1" height=120 width=80></a>%' > index.html n=`ls | grep "[jJ][pP][gG]" | head -1` cd $DIR echo "<IMG SRC=\"$URL_HEAD/$i/$n\" HEIGHT=\"120\" WIDTH=\"80\">< a href=\"$URL_HEAD/$i/\" target=\"_blank\"><font size=1>$i</font></a>" >> index. html fi done echo "</body></html>" >> index.html
583 名前:名無しさん@お腹いっぱい。 mailto:sage [03/04/28 03:14] うーむ。 index.html あたりからリストを生成して、wget を 10 個くらいで一気に fetch してくる perl スクリプトってない?
584 名前:名無しさん@お腹いっぱい。 mailto:sage [03/04/28 03:51] 何を取ってきたいのか判らんのにどうしろと
585 名前:583 mailto:sage [03/04/28 03:58] HTML::LinkExtor URI::URL LWP::UserAgent HTTP::Request でリスト作って、2chJpgGetter の wget_down を回してやればいいことに 気がついて、ほぼ実装完了。
586 名前:名無しさん@お腹いっぱい。 mailto:sage [03/04/28 04:33] >>582 grep -i .jpg を使わない理由があるんだろうか
587 名前:583 mailto:sage [03/04/28 05:28] ヘタレな index 作るより、thumbnail_index を回せば 何も苦労しなくていいわけだが。
588 名前:名無しさん@お腹いっぱい。 mailto:sage [03/04/29 02:20] Yahoo! Groupsにコマンドラインからログインする方法を試行錯誤してたら ログイン失敗しすぎてアカウント一時停止された…半日おあずけ。 もしかしてhttpsでコマンドラインからLynxとかでpostするときは コマンドラインに渡す文字列の時点で暗号化されてないとダメだったんだろうか… いや、そんなことしなくてもいちどLynxでSSLログインして そのクッキーをwgetに流用すればよかったんではないだろーか… とか(w
589 名前:名無しさん@お腹いっぱい。 mailto:sage [03/04/29 16:32] Yahoo! groupsのメーリングリストアーカイブからファイルを持ってくるPerlScriptならあった。 www.lpthe.jussieu.fr/~zeitlin/yahoo2mbox.html ログインと年齢チェックのとこを借りればfilesやalbumsは問題なさげ。 つーかLynxやw3mでのpostとwgetを組み合わせようとするのは漏れには難しいよママン…
590 名前:579 mailto:sage [03/04/30 02:01] ヤフーグループのことを質問したものです。 おぉ!いろいろ試してくださったんですね!!情報をくださった方まで! 超感謝です! アルバムはgethttpというプロクシサーバーを立てて、 スライドショーにすると、そんなに手間がかからず保存できます。 ファイルはなぜかダウンロードマネージャーでダウンできることも多いんですよ。 それなんで、一番大きな問題はメッセージだったのです。 紹介していただいたスクリプトを使ってみます。
591 名前:579 mailto:sage [03/04/30 02:49] うーん・・。なぜかダウンロードが始まらない・・。 0kbのファイルができるだけで・・。
592 名前:582 mailto:sage [03/05/03 00:28] >586 >grep -i .jpg を使わない理由があるんだろうか いや、grep -i の方が正しいと思いやす。
593 名前:名無しさん@お腹いっぱい。 [03/05/06 04:06] >>589 のやつ、うまくいった人いますか?
594 名前:あぼーん mailto:あぼーん [あぼーん] あぼーん
595 名前:あぼーん mailto:あぼーん [あぼーん] あぼーん
596 名前:名無しさん@お腹いっぱい。 mailto:sage [03/05/22 08:43] 自分にとっては、今までのスクリプトのなかで>>578 が実用度が一番高い。 単純な割にいいね
597 名前:名無しさん@お腹いっぱい。 mailto:sage [03/06/02 18:44] 質問があります。javaなどのScriptがアクセスするページの画像をダウンロードできるソフトって ありますか? できれば連番で・・・
598 名前:名無しさん@お腹いっぱい。 mailto:sage [03/06/02 18:46] >>597 具体的にどこよ。
599 名前:名無しさん@お腹いっぱい。 mailto:sage [03/06/02 21:14] >>598 「みてみて」っていうサイトです
600 名前:名無しさん@お腹いっぱい。 mailto:sage [03/06/02 21:31] ↑ ttp://www.mitemite.ne.jp/
601 名前:名無しさん@お腹いっぱい。 mailto:sage [03/06/03 17:52] ↑無理?
602 名前:名無しさん@お腹いっぱい。 mailto:sage [03/06/03 17:55] >>589 市販のオートパイロットではエラーがでちゃうんです
603 名前:名無しさん@お腹いっぱい。 [03/06/14 22:39] ごぶさたあげ
604 名前:名無しさん@お腹いっぱい。 mailto:sage [03/06/17 20:47] 外出かもしれんが、ワードのマクロで連番のアドレス書いているのは俺だけだろうか? www.xxxx.001.jpg なら←×4・BS・数を入力を繰り返して・・・・で、100位までつくってあるんだが そしてIriaにはりつけ
605 名前:ななす mailto:sage [03/06/17 21:20] >>604 言ってる意味が理解できないが ワードのマグロ?なんか青いオサカナ泳ぐういんどーずのヤシか イチリアとか言うヤシは張り付けのクリップボードなのか この板の香具師は概ねwgetのjpg狩りで 最悪連番必要でもwgetと好みのシェルの機能で[0-9]連番指示をだすわけで wget -c www.eroero.uhiuhi.com/{cyapa,ozeu,hitoduma}/00[0-9].jpg
606 名前:名無しさん@お腹いっぱい。 mailto:sage [03/06/26 09:43] 連番生成・・・cygwin上でシェルスクリプト ダウンロード・・・Irvine POSTを喋らしたりcookie食わせるなら、perlでUAつかって書く やっぱWindows上じゃないとねこーいうのは。
607 名前:名無しさん@お腹いっぱい。 mailto:sage [03/06/26 09:55] 連番生成 : jot ダウンロード : wget POST や Cookie : Perl でも Ruby でも Python でも何でも なんで Windows?
608 名前:名無しさん@お腹いっぱい。 mailto:sage [03/06/26 18:31] >>606 >>607 >>605 の方法が漏れには一番簡単に見えるんだが。 というか,プログラムを書く必要ってあるのか? Cookie を食べる必要があるなら w3m でやればいいし。
609 名前:名無しさん@お腹いっぱい。 mailto:sage [03/06/26 20:58] >>607 は >>606 に突っ込んでみたかっただけだよん
610 名前:名無しさん@お腹いっぱい。 mailto:sage [03/06/30 19:18] unlov が Google から消えた…誰か詳細きぼんぬ。
611 名前:名無しさん@お腹いっぱい。 mailto:sage [03/07/02 00:01] Googleから消えた理由は知らんが、サイトはまだあるよ。
612 名前:名無しさん@お腹いっぱい。 mailto:sage [03/07/02 00:48] jot って BSD 用なの?
613 名前:610 mailto:sage [03/07/02 08:32] >>611 URL きぼんぬ。
614 名前:名無しさん@お腹いっぱい。 mailto:sage [03/07/07 07:47] takehost が Accept-Language: も見るようになったような気配を感じる。
615 名前:名無しさん@お腹いっぱい。 [03/07/07 08:14] >614 拙者の記憶によると日本時間で4日の昼間からでござる。 入れ替わりにcookieを見なくなったように思わるれ。
616 名前:あぼーん mailto:あぼーん [あぼーん] あぼーん
617 名前:名無しさん@お腹いっぱい。 mailto:sage [03/07/22 06:57] .
618 名前:610 mailto:sage [03/07/22 10:30] 誰か教えてくれぇ〜(´Д`)
619 名前:名無しさん@お腹いっぱい。 mailto:sage [03/07/22 11:43] >>618 作れ。
620 名前:名無しさん@お腹いっぱい。 mailto:sage [03/07/22 18:36] >>610 まず誠意をみせろ。おれが自宅に戻れる22:00以降に。 話はそれからだ。
621 名前:610 mailto:sage [03/07/23 19:58] 誠意っヽ(`Д´)ノ ttp://houston.ddo.jp/~pitt/bakuf/2201.zip ttp://houston.ddo.jp/~pitt/bakuf/2202.zip ttp://houston.ddo.jp/~pitt/bakuf/2203.zip ttp://houston.ddo.jp/~pitt/bakuf/1701.zip ttp://houston.ddo.jp/~pitt/bakuf/1702.zip ttp://www.hh.iij4u.or.jp/~hancock/rm/000.dat ttp://www.pp.iij4u.or.jp/~fizz/rm/001.dat ttp://houston.ddo.jp/~pitt/ousyo2/002.dat ttp://houston.ddo.jp/~pitt/ousyo2/003.dat ttp://houston.ddo.jp/~pitt/ousyo2/004.dat ttp://houston.ddo.jp/~pitt/ousyo2/005.dat ttp://www.hh.iij4u.or.jp/~hancock/rm/ousyo22.rez ttp://www.hh.iij4u.or.jp/~hancock/rm/ousyo22.crc ttp://homepage2.nifty.com/ysau/1/movie/a001/a001.bat ttp://homepage2.nifty.com/ysau/1/movie/a001/a001.001 ttp://homepage2.nifty.com/ysau/1/movie/a001/a001.002 ttp://www.kk.iij4u.or.jp/~rouge/rm/tanpan2.zip ttp://www.pp.iij4u.or.jp/~custom/rm/tanpan4.zip ttp://www.nn.iij4u.or.jp/~jelly/rm/tobibako1.zip ttp://www.ff.iij4u.or.jp/~clio/rm/tobibako2.zip ttp://www.ff.iij4u.or.jp/~magnet/rm/roring1.zip ttp://www.hh.iij4u.or.jp/~blanc/rm/roring2.zip ttp://www.kk.iij4u.or.jp/~cosmic/rmm/mituami1.zip ttp://www.hh.iij4u.or.jp/~starz/rmm/rock1.zip ttp://www.nn.iij4u.or.jp/~coaster/rmm/rock2.zip
622 名前:きっと騙されているに一票 mailto:sage [03/07/24 03:00] >>621 ゴチ
623 名前:名無しさん@お腹いっぱい。 [03/07/27 23:48] >>621 落ちてこないよ〜
624 名前:名無しさん@お腹いっぱい。 mailto:sage [03/07/28 00:31] こんなん動ナビとか動画普及委員会チェックしてれば毎日ゲットできるぞ。
625 名前:名無しさん@お腹いっぱい。 mailto:sage [03/07/28 17:52] >>620 に騙された哀れな >>610 がいるスッドレはここですか?
626 名前:名無しさん@お腹いっぱい。 mailto:sage [03/07/28 23:40] 動ナビ死んでませんか
627 名前:名無しさん@お腹いっぱい。 mailto:sage [03/07/29 05:38] 動ナビは死んでないが、iij を使った結構な数のエロサイトから ファイルが落とせなくなっているな
628 名前:名無しさん@お腹いっぱい。 mailto:sage [03/07/29 14:45] >>626-627 ほかでやれ
629 名前:ぼるじょあ ◆yBEncckFOU mailto:(^^) [03/08/02 05:03] ∧_∧ ∧_∧ ピュ.ー ( ・3・) ( ^^ ) <これからも僕たちを応援して下さいね(^^)。 =〔~∪ ̄ ̄ ̄∪ ̄ ̄〕 = ◎――――――◎ 山崎渉&ぼるじょあ
630 名前:名無しさん@お腹いっぱい。 mailto:sage [03/08/04 13:20] wget の --timeout って、 相手がファイアウォールでパケットを捨ててるときには機能しないような気がする。 というか、そもそもそういう目的で使うオプションではないのか? まあ、squidを経由すれば問題ないんだけど。
631 名前:620 mailto:sage [03/08/04 13:38] >>610 遅くなって正直スマンかった。 望みのモノだよ。 saeto.deep-ice.com
632 名前:名無しさん@お腹いっぱい。 mailto:sage [03/08/04 14:13] >>610 おめ
633 名前:名無しさん@お腹いっぱい。 mailto:sage [03/08/04 14:58] 動ナビURLはこっちに www.i-like-movie.com/
634 名前:名無しさん@お腹いっぱい。 [03/08/13 12:19] 2ちゃんで話題になった「みーほ」女子○学生 B86 W57 H88(○5歳) がこのHP内のギャラリーで何を考えているんだか、衝撃的なセルフのヌードを晒してます!! 削除される前に早めに見ておいた方がいいとおもいます!マジでやば過ぎ!! neeez.com/~miho-room/
635 名前:名無しさん@お腹いっぱい。 mailto:sage [03/08/13 16:58] 不覚にもワロタ
636 名前:あぼーん mailto:あぼーん [あぼーん] あぼーん
637 名前:あぼーん mailto:あぼーん [あぼーん] あぼーん
638 名前:名無しさん@お腹いっぱい。 mailto:sage [03/08/27 02:13] {from..to}
639 名前:名無しさん@お腹いっぱい。 mailto:sage [03/08/27 02:15] {10..20,30..40} みたいにはできないの?
640 名前:名無しさん@お腹いっぱい。 mailto:sage [03/08/27 03:38] >639 zsh: {{10..20},{30..40}}
641 名前:名無しさん@お腹いっぱい。 mailto:sage [03/08/27 08:40] ( ・∀・)つ〃∩ ヘェーヘェーヘェー
642 名前:639 mailto:sage [03/08/27 19:15] >>640 ありがdごぜいます
643 名前:名無しさん@お腹いっぱい。 mailto:sage [03/10/26 18:10] そろそろ2ヶ月もカキコがない…。 おまえら満足してますか?
644 名前:名無しさん@お腹いっぱい。 mailto:sage [03/10/26 22:21] >おまえら満足してますか? してねぇっす・・・。 ダウンロード成果物をいかにユニークに保存するかってトコロで 頭痛めてたりする。 とりあえず、ファイルのMD5をpostgres上のテーブルにinsertしといて、 ダウンロード成果物をそいつとチェックして適宜ハネるって運用してるん だけど、どうしても明らかに重複する奴が出てくる。 理由はいくつかあるんだけど、この辺が泥臭くかつ難しいね・・・。 最終的には画像の類似性をうんぬんって世界にしないと仕方ないのか? 誰か「漏れはコレだ!」って奴を教えてくれぃ。
645 名前:名無しさん@お腹いっぱい。 mailto:sage [03/10/27 02:18] >>644 > 最終的には画像の類似性をうんぬんって世界にしないと仕方ないのか? > 誰か「漏れはコレだ!」って奴を教えてくれぃ。 今まで何を試したか書いてくれ。 例示した後で「それはもう使ってみた」って言われるのはやだ。
646 名前:名無しさん@お腹いっぱい。 mailto:sage [03/10/27 04:18] おれは単純に時間とディレクトリで分類してる。 ファイルのタイムスタンプとユニークなID,簡単なメモを 名前に付けてリネームするスクリプト書いて、 適当なディレクトリにとりあえず放り込む。ここまではほぼ自動。 あとは実際に見てる時に必要なら分類し直す。 おれ的にはファイル名がユニークであれば、それで足りてる。 全ての画像に等しい価値がある訳でないので、 必要な時の手作業の分類で間に合う。
647 名前:名無しさん@お腹いっぱい。 mailto:sage [03/10/27 04:30] 俺はディレクトリと連番だな。もちろんスクリプトで。
648 名前:login:Penguin mailto:sage [03/10/27 14:31] >>610 再うpきぼん
649 名前:名無しさん@お腹いっぱい。 mailto:sage [03/10/27 20:36] >>644 wget -x で URL のまま保存してる。
650 名前:名無しさん@お腹いっぱい。 mailto:sage [03/10/28 00:30] >>648 > >>610 > 再うpきぼん >>631 > >>610 > 遅くなって正直スマンかった。 > > 望みのモノだよ。 > saeto.deep-ice.com
651 名前:644 mailto:sage [03/10/28 12:03] >今まで何を試したか書いてくれ。 少しずつ積み重ねてるから、そんないろいろな方法試してるわけでも ないんだわ。 で、今のところこんな仕組み。 前提:ファイルはすべて.jpg。 対象は、ディレクトリごとにファイルがまとまっていると想定。 (ディレクトリひとつに1ファイルは無視) -- 日々。 (1) wget -x でディレクトリごとdownload (2) jpeginfoで壊れたファイルを削除 -- 月次。 (3) ディレクトリ階層をn階層 -> 2階層へ変換 (4) 指定バイト数以下のファイルやディレクトリを削除 (サムネイル対策) (5) 過去にダウンロードしたファイルのmd5と比較し、新規ファイルが 含まれているディレクトリは保存用ディレクトリへ移動。 (6) 保存用ディレクトリへ移動したものは、md5をpostgres上のテーブルへ insertする。 (次からのダウンロード重複チェック用) --適当なタイミングで。 (6) そこそこたまってきたら、CD-Rを使ってお掃除。 上記(6)以外はすべて自動実行。 で、こうやってて素朴に思うのが、「ここまでやらないかんのか?」てところ。 これという方法も無いような気がするんだけどね。
652 名前:644 mailto:sage [03/10/28 22:21] 続き。 重複する理由ってのが、だいたい (a) jpgファイルが壊れてて、md5が違ってる。 (b) 見た目おんなじ画像で壊れてもいないjpgファイルだけど、何故かmd5が違う。 (c) 素材はおんなじだけど、画像ファイル化したヒトが違うヒト といったところかなと。 んで、(a)はjpeginfoでどうにかなるとして(といっても再度ダウンロードで補うことが できればだけどね)、(b),(c)はどうしたものかなと。 完全自動化を目指してるんで、この辺クリアできないかなと考えてます。
653 名前:名無しさん@お腹いっぱい。 mailto:sage [03/10/29 00:51] そこまでしてローカルにあらゆる画像を保存したいの? 画像の類似性を判別するソフトがあったような気もするけど。
654 名前:名無しさん@お腹いっぱい。 mailto:sage [03/10/29 02:28] GQview とか