1 名前:たのも〜 [2001/01/10(水) 15:02] 最近、PGFをコレクション始めたのだが、httpで連番のファイルを一気にダウンロードする ソフトやスクリプトがあれば教えてけれ。
701 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/08 14:32] リンクを解析して辿り、目的の拡張子だけをダウソするPerlスクリプトを書いたんですが・・・再発明ですか? 個人的には十分楽しんだからウマーだけど。
702 名前:あぼーん mailto:あぼーん [あぼーん] あぼーん
703 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/08 15:29] 先生!!>>702 の頭の悪さが直っていません!
704 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/08 15:50] HTML::LinkExtor とか使えばいいのに。 出力は、fork しまくって wget を同時に走らすスクリプトに渡すと。 まあ、手元にあるんだが、希望者がいれば公開してあげます。
705 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/08 17:50] >>704 公開希望
706 名前:名無しさん@お腹いっぱい。 mailto:sage マジでいてーよ [04/02/08 18:24] 今痔が出来て痛くてたまらないからAA貼り付けようかな
707 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/08 22:22] 僕もがんばってみた。「はじめてのC言語」とそれから「関数の使いかた」少しよんだ。 #include <stdio.h> #include <string.h> #include <math.h> #define MAXSTRING 255 struct address{ char preaddr[MAXSTRING]; char scope[MAXSTRING]; char aftaddr[MAXSTRING]; int statnum; int endnum; int digit; }; /* 続く */
708 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/08 22:23] void numaddr( struct address *p ) { char cset[] = "-"; p->digit = strcspn( p->scope, cset ); p->statnum = atoi( strtok( p->scope, cset )); p->endnum = atoi( strtok( NULL, cset )); } void printaddr( struct address *p ) { int i, n, t; for ( n = p->statnum; n <= p->endnum; n++ ) { fprintf( stdout, "%s", p->preaddr ); if ( n == 0 ) i = 0; else i = log10(n); for ( t = i; t < p->digit - 1; t++ ) fprintf( stdout, "0"); fprintf( stdout, "%d%s\n", n, p->aftaddr ); } } /* 続く */
709 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/08 22:24] int main( int argc, char *argv[] ) { int i; char cset[] = "[]"; struct address multiaddr[argc]; if ( argc <= 1 ) fprintf( stdout, "%s [word]...\n", argv[0] ); else { for ( i = 1; i < argc; i++ ) { strcpy ( multiaddr[i].preaddr, strtok( argv[i], cset )); strcpy ( multiaddr[i].scope, strtok( NULL, cset )); strcpy ( multiaddr[i].aftaddr, strtok( NULL, cset )); numaddr(&multiaddr[i]); printaddr(&multiaddr[i]); } } return 0; } /* おしまい */
710 名前:707 mailto:sage [04/02/08 22:28] math.h をつかうと #gcc -o getopai getopai.c -lm と -lm つけるのなんでだろ?
711 名前:707 mailto:sage [04/02/08 22:35] >>709 やっぱこう↓しとく "s/\[word\]/opai\[001-100\].jpg/"
712 名前:699 [04/02/08 23:49] 700さん ここむずかしいですね。どういう仕組みなんだろう、このHP。 画像もたくさんあるみたいなんだけど、すぺてPHPで開いてきます。 wget -r --user-agent=Mozilla --referer celeb.goldengate.hu celeb.goldengate.hu/ 当然 これでは無理ですね だめぽ…
713 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/09 12:51] 難しくはない。ただ、ファイル名が結構適当なので面倒臭い。 wget celeb.goldengate.hu//celebs_foreign_pic/Dido/dido{043..045}.jpg
714 名前:名無しさん@お腹いっぱい。 [04/02/09 13:03] >>712 動画ウィンドウの表示にはJavaScriptを利用してるみたいなので wgetだけでは無理かと
715 名前:699 [04/02/09 23:45] うん どうやってするのがスマートな解決なんでしょうか。 僕には皆目検討もつきません。 やっぱ 一つ一つ落すしかないのかな。
716 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/10 03:47] --user-agentの指定ってどういうとき必要になるの?
717 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/10 03:56] 偽装したい時
718 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/10 08:30] >>716 指定しないと落とせないとき。
719 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/10 10:44] アクセスログ読んでる奴に嫌がらせしたいとき。
720 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/11 12:14] >>718 --user-agentを指定しアクセス制限を回避することは 不正アクセス禁止法の第3条2項2号に違反するため、 一年以下の懲役又は五十万円以下の罰金に処されます。
721 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/11 13:22] >>720 user agentは不正アクセス禁止法の識別符号には該当しない。
722 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/11 15:23] 詳しい人100人集めたら90人くらいまではそう言うと思うけど、裁判所的にはどうだろね。 URLと一緒で意図絡んでるからトチ狂った判断出される可能性はなきにしもあらずげ。
723 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/11 20:32] >>721 MS的にはおもしろくないだろうよ?
724 名前:720 mailto:sage [04/02/11 23:11] >720はネタなんで無視してくれて構いません。 ただ、一応補足しておくと… >>721 識別符号を使用した不正アクセス行為を規定しているのは第3条2項1号。 第3条2項2号は識別符号以外の情報を使用した不正アクセスについて 規定しています。 www.ipa.go.jp/security/ciadr/law199908.html
725 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/12 00:07] もしかして、厳密にいうと違反なわけ?
726 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/12 01:51] >>725 誰かがUA偽装のみで訴えられて裁判所が何らかの判断下すまで違反だとは誰も断言できない。 条文にアクセス方法についてもうちょい具体的に書いておいてくれりゃよかったんだけどね。
727 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/12 05:09] telnetしたり自分でUA組んだ時、 打ち間違えたりリテラル書き間違えてたらタイーフォか。ありえねー。 標準で偽装可能な Opera はタイーフォだな。(w 大体、クライアント側が偽装してるかどうかを立証する方法がないわな。 ただ裁判官はこの手の知識は絶無だし、腐った弁護士は少なくないからなぁ。 やな世の中だ。
728 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/12 15:31] なんか変な人が。 >>727 UserAgentを普段書き換えることや書き換え機能がついてること自体は問題ない。 * UserAgentでアクセスの制限をしているサイト * へ、UserAgentを書き換えて アクセスしたことが問題(になるかもしれないのはやだなあ)という話。
729 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/12 19:11] なる可能性はあるな。国内の法律では不正アクセス行為の禁止等に関する法律の 第3条3項に以下の記述がある >三 電気通信回線を介して接続された他の特定電子計算機が有するアクセス制御機能に >よりその特定利用を制限されている特定電子計算機に電気通信回線を通じてその >制限を免れることができる情報又は指令を入力して当該特定電子計算機を作動させ、 >その制限されている特定利用をし得る状態にさせる行為 ここの「制限を免れることが出来る情報」にuseragentが含まれるかどうかが争点だろう。 俺としてはUAはそもそも信憑性にないものだし,UAによるアクセス制御自体が 無効だと思ってる。ケータイのサイトなんかでよくあるけど,CDMAなんかopenwave.com からブラウザ拾ってきて使えばPCでMobile Browserのagentが出せる。 この場合は有罪?無罪? アクセス制御にはIPアドレスなどを使うべきだろう。 俺の結論 合法と解釈する。
730 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/12 22:13] アクセス制限とは認証のことであり、UAのチェックは認証としての要件を満たさない 以上終了
731 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/13 00:28] >>730 前提を示す必要があるな。
732 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/13 02:39] もまえら暇だなぁ。
733 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/13 03:27] そんなことより違法なエロ画像の URL 下さい。
734 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/13 04:16] 「うらぼん」でぐぐればいいのでは?
735 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/13 07:56] これですか?? ttp://www.chuouji.or.jp/urabon/urabon.htm ありがとうございます!
736 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/13 08:48] おお、これは本当にありがたい。ありがたやありがたや (一人一) ナムー
737 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/13 12:12] これどうやっておとすのでしょう wget --referer では落とせません URLリストをテキストに出力して別のGUIダウンローダにコピペすれば落とせるのですが。 ちなみにwget -iでは無理でした ttp://www.free-adult-hosting.net/bookoff014/book/text4.htm の真ん中右Sampleってやつです01〜41 お願いします
738 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/13 12:25] user-agentだろどうせ
739 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/13 12:34] cookie利用の可能性も
740 名前:名無しさん@お腹いっぱい。 [04/02/13 12:40] % wget --user-agent=Mozilla www.free-adult-hosting.net/bookoff014/BOOK010_004/0{01..41}.jpg
741 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/13 14:27] 連番の蓮画像を一気にダウンロードする スレに見えた。
742 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/13 14:34] >>741 3年前から同じスレタイですが。
743 名前:741 mailto:sage [04/02/13 15:02] ようするに見る側の問題ってこった。
744 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/13 15:11] >740 ありがとぉ
745 名前:名無しさん@お腹いっぱい。 [04/02/14 00:51] ttp://kawaii.clawz.com/hentv/max.html ここってどうやって巡回すればいい? ヘッダがないからwgetじゃエラーになるんだけど
746 名前:名無しさん@お腹いっぱい。 [04/02/14 03:58] よ〜するに、M$IEもMozillaを騙っているので偽装であると...φ(.. )
747 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/14 04:25] ,. -‐- 「`Y´| ヽ 〜 Y⌒ソノノリ)) )〉 i (ll (〔i ,i〕{ノ __ リ从ゝ~ (フ/ {{゙ァ‐ 、 '⌒ T `ーへ ヽ ィ ! ー' ,ノ , , ´ '/ . ,.、 ! ヽ' / ヽ. /ヽ. ヽ ー'´\ ' /ヽ ヽ ー' \ ヽ _ ヽ. ヽ'´ / \ _/ 【小学6年】山手線(渋谷駅)で全裸の少女が補導 part12【昼間から(画像有り)】 pc.2ch.net/test/read.cgi/pcnews/1074297496/l50
748 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/14 04:28] urlがpcnewsでは開いて見る気もせんが、 AAは良い出来だから今回だけは許してやろう。
749 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/14 12:30] pcnewsに飛ばすならせめて ネットで公開して本人補導とかそういうのにしてくれないとな。
750 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/15 04:28] >>735 功徳は生きてるうちに
751 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/17 17:54] smmonkey.pwp.blueyonder.co.uk/zxa1.html H画像ではない (連番ではある) けどこれはむっ、と思った。 この手で対処されたらお手上げっぽくね? # ちなみに違法ページではないよ。Amstrad社のケツの穴はデカいなあ
752 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/18 23:10] ttp://www.macromedia.com/software/flash/open/licensing/fileformat/ 一応仕様は公開はされてるけどな。
753 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/20 04:08] あんまりサーバに負荷かけちゃ駄目だよ。 #!/bin/bash if [ ! -d ./OUT ]; then mkdir OUT fi URL="thebbs.jp " GETNUM="1024" UA="Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; .NET CLR 1.1.4322)" wget -U "$UA" -N "${URL}/up1/" LIST=$(cat index.html | egrep '[0-9]+\.html' | sed 's/.*href=\"\([0-9][0-9]*\.html\)\".*/\1/g') PAGES=$(for name in ${LIST} ; do echo "${URL}/up1/${name}" ; done ) wget -U "$UA" -N -nv -w 1 --random-wait ${PAGES} for name in $(grep 'href=/sum.html\?' 1[0-9]*.html \ | sed 's+.*href=.*/\([0-9][0-9]*\.\(jpg\|png\|bmp\|gif\)\) .*+\1+g'\ | sort | tail -n ${GETNUM} ) do wget -N -nv -U "$UA" -w 4 --random-wait -O ./OUT/${name} "thebbs.jp/up1/img/${name} " done でもここから選別するのが大変な罠。
754 名前:753 mailto:sage [04/02/20 04:40] あ、そうそう。 急に変なアクセス増えて何かの対策とられたりしないように次の事くらいは守って使って。 UAは絶対変える。 GETNUMは増やさない。 -w は減らさない。 --random-waitは外さない。 管理者に迷惑かからないようにしてな。まじで。 一晩くらいかけてマターリ落して細く長く楽しむのが吉だべよ。 つっても楽しめる画像があんまり無いんだけど。
755 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/21 01:23] 自分で生HDDをつけるということは、少なくてもパーティションの作成から ファイルシステムやswapの作成というところから始めなきゃいけない訳だし unix未経験者にはハードル高いんじゃないかな、少なくてもvi使えないと話にならんし。 でもこれから勉強したい人には良いかもね。
756 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/21 01:38] ↑なかなか上品なレスだけど、頭の中ではエロエロなことばかり考えているんですね。
757 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/21 16:20] 誤爆かと思った罠
758 名前:名無しさん@お腹いっぱい。 mailto:sage [04/02/22 07:14] エロは*習熟の源です
759 名前:名無しさん@お腹いっぱい。 [04/03/12 00:34]
760 名前:名無しさん@お腹いっぱい。 [04/03/15 03:48] ほしゅ
761 名前:名無しさん@お腹いっぱい。 mailto:sage [04/04/16 21:19] ほしゅほしゅ
762 名前:名無しさん@お腹いっぱい。 mailto:sage [04/04/22 20:59] hosyu
763 名前:名無しさん@お腹いっぱい。 mailto:sage [04/05/07 11:36]
764 名前:名無しさん@お腹いっぱい。 mailto:sage [04/05/07 23:19] hosyu
765 名前:名無しさん@お腹いっぱい。 mailto:sage [04/05/08 00:26] なんかネタ無いの? wgetで複数ファイルの同時ダウンロードするシェルスクリプト書いてたまに使ってるけど、 curlを使うperl,ruby,python等のスクリプトの方がよくない? shは遅いし、wgetは終了時のエラーコードとか細かい部分がダメぽい。
766 名前:名無しさん@お腹いっぱい。 mailto:sage [04/05/08 05:48] エロには飽きた。
767 名前:名無しさん@お腹いっぱい。 mailto:sage [04/05/08 06:19] 画像に飽きた奴が小説に流れるパターンだな
768 名前:名無しさん@お腹いっぱい。 mailto:age [04/05/23 11:48] もう一度、エロのパワーを!!!
769 名前:名無しさん@お腹いっぱい。 mailto:sage [04/05/28 13:14] 保守
770 名前:sage mailto:sage [04/06/21 21:23] 誰か俺が使ってるスクリプト見たい人いる?汚いけど。
771 名前:名無しさん@お腹いっぱい。 mailto:sage [04/06/21 21:30] 参考にしてみたいな
772 名前:770 mailto:sage [04/06/21 22:09] こんなかんじ。 urlをテキストに並べておいて、ファイル名を引き数に指定して使ってます。 urlにリンクされているjpgを勝手にフォルダ掘ってそこにdlしていきます。 フォルダ名はurlから拾ってます。 #!/usr/bin/perl use LWP::UserAgent; use HTML::LinkExtor; use URI::URL; use strict; use POSIX ":sys_wait_h"; $| = 1;#OUTPUT_AUTOFLUSH my $iframe_ref=''; my $base_tag = '';
773 名前:770 mailto:sage [04/06/21 22:09] while(!eof()) { my $url = <>; $iframe_ref = ''; my %downloads = (); chomp $url; next unless $url; print "Checking $url¥n"; if ( map{ $downloads{$_} = 0 } getlinks($url) ) { $url = $iframe_ref if $iframe_ref; dl2( $url,[sort keys %downloads] ); print "¥n"; } else { print "there are no JPG¥n"; } }
774 名前:770 mailto:sage [04/06/21 22:10] my @imgs = (); my $iframe = ''; sub callback { my($tag, %attr) = @_; $iframe = $attr{"src"} if $tag eq 'iframe'; $base_tag = $attr{"href"} if $tag eq 'base'; return if $tag ne 'a'; push(@imgs, $attr{"href"}); }
775 名前:770 mailto:sage [04/06/21 22:10] sub getlinks { $base_tag = ''; @imgs = (); $iframe = ''; my $url = $_[0]; my $ua = LWP::UserAgent->new( Agent => "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;)"); my $p = HTML::LinkExtor->new(¥&callback); my $res = $ua->request(HTTP::Request->new(GET => $url), sub {$p->parse($_[0])}); my $base = $base_tag || $res->base; if ($iframe and !@imgs) { print "Found iframe. recheck >> $iframe¥n"; $_ = url($iframe,$base)->abs; $iframe_ref = $_; $iframe = ''; return getlinks($_); } @imgs = map { $_ = url($_, $base)->abs; } @imgs; @imgs = grep{/.[jJ][pP][gG]$/} @imgs; return @imgs; }
776 名前:770 mailto:sage [04/06/21 22:11] sub dl { my $uri = $_[0]; my $ref = $_[1]; my ($dummy,$dir) = ($uri =~ /.*¥/([^¥/]+)¥/([^¥/]+)¥/[^¥/]*$/); opendir(A,$dir) || mkdir $dir; closedir A; chdir $dir; `curl -s -O $uri -e $ref`; chdir "../"; }
777 名前:770 mailto:sage [04/06/21 22:12] sub dl2 { my $max = 4;#プロセス数 my $ref = shift; my @str = @{shift(@_)}; my($pid, @slot); my $tick=0; while(@str){ for(0..($max-1)){ if($slot[$_] != 0 and waitpid($slot[$_], &WNOHANG)!=0){ $slot[$_] = 0; } }
778 名前:770 mailto:sage [04/06/21 22:12] for(0..($max-1)){ if($slot[$_] == 0){ my $url = shift(@str); last unless defined $url; chomp($url); if($pid=fork()){ $slot[$_] = $pid; } elsif (defined $pid) { print "Start Download >> $url¥r"; dl($url,$ref); exit; } else { die "Can't fork: $!¥n"; } } } sleep(1); } for(0..($max-1)){ waitpid($slot[$_], 0); } }
779 名前:770 mailto:sage [04/06/21 22:13] 以上です。
780 名前:770 mailto:sage [04/06/21 22:29] 余計なのはいってた; my $tick; を削除してください; バーが回るヤツつけようと書き換えている最中の貼ってしまいました;
781 名前:名無しさん@お腹いっぱい。 mailto:sage [04/06/22 14:41] wget -r -A .jpg に URL を渡して回せば良いのでは? と言ってみるテスト。
782 名前:名無しさん@お腹いっぱい。 mailto:sage [04/06/22 17:35] wgetの--page-requisitesを使ってお絵かき掲示板の絵をコメントごと収集しようと思ってます。 しかし、しぃアプレットを使っている掲示板からは--page-requisitesで画像を持って来れませんでした。 例として、どこでもいいんですが思い切り無関係なところでこことか↓ ttp://www15.big.or.jp/~baroque/nharuna/oekaki/bbsnote.cgi 1) wgetの設定がまずい 2) こっちのネットワークの何かがまずい 3) CGI側で何かしてるのでwgetでは無理 なにがよろしくないんでしょう。wgetがHTMLを解析してくれてない感じなんですが。
783 名前:名無しさん@お腹いっぱい。 mailto:sage [04/06/22 18:03] >>782 1) -p option ついたの最近よ? あと実装始めのころのはバグってた気もした 2) これっぽい。君のサイトが撥ねられてるとか、proxy とか 3) んなこたー、ない % wget --page-requisites www15.big.or.jp/~baroque/nharuna/oekaki/bbsnote.cgi (略) % ls www15.big.or.jp/~baroque/nharuna/oekaki/data/ IMG_003579.jpg IMG_003582.jpg IMG_003585.jpg IMG_003587_2.jpg IMG_003581.jpg IMG_003584.jpg IMG_003586.jpg IMG_003588.jpg % wget --version GNU Wget 1.9.1
784 名前:名無しさん@お腹いっぱい。 mailto:sage [04/06/22 18:06] ゼンゼン関係あるけどこのサイトは感動した www.geocities.jp/futaba136241/baseball01.html
785 名前:名無しさん@お腹いっぱい。 mailto:sage [04/06/22 18:18] >>782-783 漏れも画像のダウンロードができなかった -m -l1オプションでもダメだった % wget --version GNU Wget 1.8.2 wget 1.9は~の処理が変わったので使ってない
786 名前:782 mailto:sage [04/06/22 18:33] でも、infoseek.co.jp にあるのも candybox.to にあるのも x-beat.com にあるのも駄目。指定ファイルしか落ちてこない。 Webブラウザでは普通に見れるし… --recursive とかもこのサイトに効かないんだよなあ。 $ wget -nv --page-requisites www15.big.or.jp/~baroque/nharuna/oekaki/bbsnote.cgi 18:15:34 URL:www15.big.or.jp/%7Ebaroque/nharuna/oekaki/bbsnote.cgi [28106] -> "www15.big.or.jp/%7Ebaroque/nharuna/oekaki/bbsnote.cgi" [1] 終了しました --18:15:34-- ダウンロード: 28,106 バイト(ファイル数 1) $ wget --version GNU Wget 1.8.1 Windows版。 >wget -nv --page-requisites www15.big.or.jp/~baroque/nharuna/oekaki/bbsnote.cgi 18:15:20 URL:www15.big.or.jp/%7Ebaroque/nharuna/oekaki/bbsnote.cgi [28106] -> "www15.big.or.jp/~baroque/nharuna/oekaki/bbsnote.cgi" [1] FINISHED --18:15:20-- Downloaded: 28,106 bytes in 1 files >wget --version GNU Wget 1.9.1 なんででしょね?
787 名前:770 mailto:sage [04/06/22 21:39] >781 おお。スマートだし。自分が恥ずかしくなってきた。 でもこれ、サムネールとか広告まで保存しちゃいますね。 保存先も深くなっちゃうし。
788 名前:770 mailto:sage [04/06/23 05:05] >782 wget --page-requisites --follow-tags=IMG でいけました。 あと自己レスなんですが wget -r -A.jpg -nd -np -I 1 -H --ignore-tags=img -P dir でやりたかった通りに出来ました。
789 名前:名無しさん@お腹いっぱい。 mailto:sage [04/06/23 10:56] >>788 でもあんま根本的な原因究明にはなってないな(w 解析が難しいHTMLの書き方にでもなってるのか?
790 名前:名無しさん@お腹いっぱい。 mailto:sage [04/06/23 11:48] wgetよりcURLの方が便利だ。
791 名前:名無しさん@お腹いっぱい。 mailto:sage [04/06/23 16:46] 使い方キボン.
792 名前:770 mailto:sage [04/06/25 09:06] >789 CGIが吐くHTMLの最初の方に <META name="ROBOTS" content="NOINDEX,NOFOLLOW"> とあり、wgetがこのタグのNOFOLLOWを理解して探索をやめてしまうから。
793 名前:名無しさん@お腹いっぱい。 mailto:sage [04/06/29 18:13] がーん。wget って --timestamping と --no-clobber を同時指定ってできないんだ… 「ローカルより新しいファイルならサーバからダウンロードするが ファイルは上書きせずに通し番号などをつけて区別して保存する」 という芸はできないのか。
794 名前:名無しさん@お腹いっぱい。 mailto:sage [04/06/30 13:09] >>793 サーバー上のファイルと比較すべきローカルのファイルを どれにするのが適当なのかがよくわからない、というのが原因なんだろうね。 --timestampingで更新ダウンロードした時に スクリプトでリネーム退避しておく、という手くらいしか思いつかないや。 …wgetが更新ダウンロードしたことを検知する方法ってなんかあるっけ。 ログを書き出す設定にしてgrepする以外にあるかな?
795 名前:名無しさん@お腹いっぱい。 [04/07/04 16:58] 優秀なポマエラに質問でつ このサイトの画像を自動で保存するにはどうすればいいでつか? www.sweetnote.com/board/chidle/hoshiinanase/ ページの最後にCSSで隠した画像があって、 その画像にアクセスするとアクセス禁止になってしまうので wgetだと保存できません ちなみに、巡回ソフト対策みたいなのですが、 CSSに対応してないブラウザで見ると表示されてしまうし、 Operaでスペース押していくと画像を順番に表示していくので CSSで隠した画像にもアクセスしてしまいます
796 名前:名無しさん@お腹いっぱい。 mailto:sage [04/07/04 17:14] そういえば、昔作ったスクリプトには grep -v BBLhGdTS 何ていうのが入っていたな。
797 名前:名無しさん@お腹いっぱい。 mailto:sage [04/07/04 17:18] ん? えーと、コレは単に ……。しまった。CSS云々ってコレか。繋ぎ変えよう
798 名前:795 mailto:sage [04/07/04 17:23] >>797 面倒なことさせてしまってすみません FirefoxなどでCSSを無効にすると 一番下に同じサムネイルが2枚表示されていて その下の画像のリンクにアクセスするとアクセス禁止になってしまいます
799 名前:名無しさん@お腹いっぱい。 mailto:sage [04/07/04 17:30] う、うまく書けない。まあいいや。 えーとね、Lynxかなにかで全リンクを抽出して、grepで/images/を含む行を取り出す。 これは「1行目は本物画像リンク、2行目はCSSで隠された罠リンク」の順番になってるので 偶数行目だけ削除するフィルタを何かで書いて(初心者が急いでるので挫折)、 そのURLリストをUserAgentがIEでrefererが当該ページなwgetで回せばいい。はず。たぶん。
800 名前:名無しさん@お腹いっぱい。 mailto:sage [04/07/04 18:10] bbs.coolnavi.com/16627 ↑のようにcookie強制する画像サイトは難しい。
801 名前:名無しさん@お腹いっぱい。 mailto:sage [04/07/04 18:36] wget --load-cookies --save-cookies .... でOKでは。