連番のＨ画像を一気にダウンロードする

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 901- 1001- 2chのread.cgiへ]
Update time : 03/30 20:58 / Filesize : 246 KB / Number-of Response : 1002
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

連番のＨ画像を一気にダウンロードする

1 名前：たのも～ [2001/01/10(水) 15:02]: 最近、PGFをコレクション始めたのだが、httpで連番のファイルを一気にダウンロードする
ソフトやスクリプトがあれば教えてけれ。
712 名前：699 [04/02/08 23:49]: 700さん
ここむずかしいですね。どういう仕組みなんだろう、このHP。
画像もたくさんあるみたいなんだけど、すぺてPHPで開いてきます。
wget -r --user-agent=Mozilla --referer celeb.goldengate.hu celeb.goldengate.hu/
当然これでは無理ですね
だめぽ…
713 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/09 12:51]: 難しくはない。ただ、ファイル名が結構適当なので面倒臭い。
wget celeb.goldengate.hu//celebs_foreign_pic/Dido/dido{043..045}.jpg
714 名前：名無しさん＠お腹いっぱい。 [04/02/09 13:03]: >>712
動画ウィンドウの表示にはJavaScriptを利用してるみたいなので
wgetだけでは無理かと
715 名前：699 [04/02/09 23:45]: うんどうやってするのがスマートな解決なんでしょうか。
僕には皆目検討もつきません。
やっぱ一つ一つ落すしかないのかな。
716 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/10 03:47]: --user-agentの指定ってどういうとき必要になるの？
717 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/10 03:56]: 偽装したい時
718 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/10 08:30]: >>716
指定しないと落とせないとき。
719 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/10 10:44]: アクセスログ読んでる奴に嫌がらせしたいとき。
720 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/11 12:14]: >>718
--user-agentを指定しアクセス制限を回避することは
不正アクセス禁止法の第3条2項2号に違反するため、
一年以下の懲役又は五十万円以下の罰金に処されます。
721 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/11 13:22]: >>720
user agentは不正アクセス禁止法の識別符号には該当しない。
722 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/11 15:23]: 詳しい人100人集めたら90人くらいまではそう言うと思うけど、裁判所的にはどうだろね。
URLと一緒で意図絡んでるからトチ狂った判断出される可能性はなきにしもあらずげ。
723 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/11 20:32]: >>721
MS的にはおもしろくないだろうよ？
724 名前：720 mailto:sage [04/02/11 23:11]: >720はネタなんで無視してくれて構いません。
ただ、一応補足しておくと…

>>721
識別符号を使用した不正アクセス行為を規定しているのは第3条2項1号。
第3条2項2号は識別符号以外の情報を使用した不正アクセスについて
規定しています。
www.ipa.go.jp/security/ciadr/law199908.html
725 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/12 00:07]: もしかして、厳密にいうと違反なわけ？
726 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/12 01:51]: >>725
誰かがUA偽装のみで訴えられて裁判所が何らかの判断下すまで違反だとは誰も断言できない。

条文にアクセス方法についてもうちょい具体的に書いておいてくれりゃよかったんだけどね。
727 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/12 05:09]: telnetしたり自分でUA組んだ時、
打ち間違えたりリテラル書き間違えてたらタイーフォか。ありえねー。
標準で偽装可能な Opera はタイーフォだな。(w
大体、クライアント側が偽装してるかどうかを立証する方法がないわな。

ただ裁判官はこの手の知識は絶無だし、腐った弁護士は少なくないからなぁ。
やな世の中だ。
728 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/12 15:31]: なんか変な人が。

>>727
UserAgentを普段書き換えることや書き換え機能がついてること自体は問題ない。
* UserAgentでアクセスの制限をしているサイト * へ、UserAgentを書き換えて
アクセスしたことが問題（になるかもしれないのはやだなあ）という話。
729 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/12 19:11]: なる可能性はあるな。国内の法律では不正アクセス行為の禁止等に関する法律の
第3条3項に以下の記述がある

>三　電気通信回線を介して接続された他の特定電子計算機が有するアクセス制御機能に
>よりその特定利用を制限されている特定電子計算機に電気通信回線を通じてその
>制限を免れることができる情報又は指令を入力して当該特定電子計算機を作動させ、
>その制限されている特定利用をし得る状態にさせる行為

ここの「制限を免れることが出来る情報」にuseragentが含まれるかどうかが争点だろう。

俺としてはUAはそもそも信憑性にないものだし，UAによるアクセス制御自体が
無効だと思ってる。ケータイのサイトなんかでよくあるけど，CDMAなんかopenwave.com
からブラウザ拾ってきて使えばPCでMobile Browserのagentが出せる。
この場合は有罪?無罪?

アクセス制御にはIPアドレスなどを使うべきだろう。

俺の結論　合法と解釈する。
730 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/12 22:13]: アクセス制限とは認証のことであり、UAのチェックは認証としての要件を満たさない

以上終了
731 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/13 00:28]: >>730
前提を示す必要があるな。
732 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/13 02:39]: もまえら暇だなぁ。
733 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/13 03:27]: そんなことより違法なエロ画像の URL 下さい。
734 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/13 04:16]: 「うらぼん」でぐぐればいいのでは？
735 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/13 07:56]: これですか？？
ttp://www.chuouji.or.jp/urabon/urabon.htm
ありがとうございます！
736 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/13 08:48]: おお、これは本当にありがたい。ありがたやありがたや (一人一) ﾅﾑｰ
737 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/13 12:12]: これどうやっておとすのでしょう
wget --referer では落とせません
URLリストをテキストに出力して別のGUIダウンローダにコピペすれば落とせるのですが。
ちなみにwget -iでは無理でした
ttp://www.free-adult-hosting.net/bookoff014/book/text4.htm
の真ん中右Sampleってやつです01～41
お願いします
738 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/13 12:25]: user-agentだろどうせ
739 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/13 12:34]: cookie利用の可能性も
740 名前：名無しさん＠お腹いっぱい。 [04/02/13 12:40]: % wget --user-agent=Mozilla www.free-adult-hosting.net/bookoff014/BOOK010_004/0{01..41}.jpg
741 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/13 14:27]: 連番の蓮画像を一気にダウンロードする
スレに見えた。
742 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/13 14:34]: >>741
3年前から同じスレタイですが。
743 名前：741 mailto:sage [04/02/13 15:02]: ようするに見る側の問題ってこった。
744 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/13 15:11]: >740
ありがとぉ
745 名前：名無しさん＠お腹いっぱい。 [04/02/14 00:51]: ttp://kawaii.clawz.com/hentv/max.html
ここってどうやって巡回すればいい?
ヘッダがないからwgetじゃエラーになるんだけど
746 名前：名無しさん＠お腹いっぱい。 [04/02/14 03:58]: よ～するに、M$IEもMozillaを騙っているので偽装であると...φ(.. )
747 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/14 04:25]: 　　　　　　　　 ,.　-‐-
　　　　　　　　「｀Ｙ´|　　　ヽ～
　　　　　　　　 Y⌒ｿノﾉﾘ）) ）〉
　　　　　　　　　 i　(ll (〔ｉ　,i〕{ﾉ
　　　　　__　　　ﾘ从ゝ~ (ﾌ／
　　　　 {{ﾞｧ‐　､　　'⌒　T
　　　　 `ーへ　ヽィ　　 !
　　　　　　　　　ｰ' ,ﾉ　　,
　　　　　　　　 , ´ 　 '/
.　　　　 ,.､　　 ! 　ヽ'
　　　　/　　ヽ. /ヽ. 　ヽ
　　　ｰ'´＼　'　 /ヽ　　ヽ
　　　　　　　　　ｰ'　　＼　ヽ　　 _
　　　　　　　　　　　　　　ヽ.　ヽ'´ /
　　　　　　　　　　　　　　＼　_/

【小学6年】山手線（渋谷駅）で全裸の少女が補導 part12【昼間から(画像有り)】
pc.2ch.net/test/read.cgi/pcnews/1074297496/l50
748 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/14 04:28]: urlがpcnewsでは開いて見る気もせんが、
AAは良い出来だから今回だけは許してやろう。
749 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/14 12:30]: pcnewsに飛ばすならせめて
ネットで公開して本人補導とかそういうのにしてくれないとな。
750 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/15 04:28]: >>735
功徳は生きてるうちに
751 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/17 17:54]: smmonkey.pwp.blueyonder.co.uk/zxa1.html
H画像ではない (連番ではある) けどこれはむっ、と思った。
この手で対処されたらお手上げっぽくね？

# ちなみに違法ページではないよ。Amstrad社のケツの穴はデカいなあ
752 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/18 23:10]: ttp://www.macromedia.com/software/flash/open/licensing/fileformat/
一応仕様は公開はされてるけどな。
753 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/20 04:08]: あんまりサーバに負荷かけちゃ駄目だよ。

#!/bin/bash

if [ ! -d ./OUT ]; then
mkdir OUT
fi

URL="thebbs.jp"
GETNUM="1024"
UA="Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; .NET CLR 1.1.4322)"

wget -U "$UA" -N "${URL}/up1/"
LIST=$(cat index.html | egrep '[0-9]+\.html' | sed 's/.*href=\"$[0-9][0-9]*\.html$\".*/\1/g')
PAGES=$(for name in ${LIST} ; do echo "${URL}/up1/${name}" ; done )

wget -U "$UA" -N -nv -w 1 --random-wait ${PAGES}

for name in $(grep 'href=/sum.html\?' 1[0-9]*.html \
| sed 's+.*href=.*/$[0-9][0-9]*\.\(jpg\|png\|bmp\|gif$\) .*+\1+g'\
| sort | tail -n ${GETNUM} )
do
wget -N -nv -U "$UA" -w 4 --random-wait -O ./OUT/${name} "thebbs.jp/up1/img/${name}"
done

でもここから選別するのが大変な罠。
754 名前：753 mailto:sage [04/02/20 04:40]: あ、そうそう。
急に変なアクセス増えて何かの対策とられたりしないように次の事くらいは守って使って。
UAは絶対変える。
GETNUMは増やさない。
-w は減らさない。
--random-waitは外さない。

管理者に迷惑かからないようにしてな。まじで。
一晩くらいかけてマターリ落して細く長く楽しむのが吉だべよ。
つっても楽しめる画像があんまり無いんだけど。
755 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/21 01:23]: 自分で生HDDをつけるということは、少なくてもパーティションの作成から
ファイルシステムやswapの作成というところから始めなきゃいけない訳だし
unix未経験者にはハードル高いんじゃないかな、少なくてもvi使えないと話にならんし。
でもこれから勉強したい人には良いかもね。
756 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/21 01:38]: ↑なかなか上品なレスだけど、頭の中ではエロエロなことばかり考えているんですね。
757 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/21 16:20]: 誤爆かと思った罠
758 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/02/22 07:14]: エロは*習熟の源です
759 名前：名無しさん＠お腹いっぱい。 [04/03/12 00:34]
760 名前：名無しさん＠お腹いっぱい。 [04/03/15 03:48]: ほしゅ
761 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/04/16 21:19]: ほしゅほしゅ
762 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/04/22 20:59]: hosyu
763 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/05/07 11:36]
764 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/05/07 23:19]: hosyu
765 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/05/08 00:26]: なんかネタ無いの？
wgetで複数ファイルの同時ダウンロードするシェルスクリプト書いてたまに使ってるけど、
curlを使うperl,ruby,python等のスクリプトの方がよくない？
shは遅いし、wgetは終了時のエラーコードとか細かい部分がダメぽい。
766 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/05/08 05:48]: エロには飽きた。
767 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/05/08 06:19]: 画像に飽きた奴が小説に流れるパターンだな
768 名前：名無しさん＠お腹いっぱい。 mailto:age [04/05/23 11:48]: もう一度、ｴﾛのﾊﾟﾜｰを！！！
769 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/05/28 13:14]: 保守
770 名前：sage mailto:sage [04/06/21 21:23]: 誰か俺が使ってるスクリプト見たい人いる？汚いけど。
771 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/06/21 21:30]: 参考にしてみたいな
772 名前：770 mailto:sage [04/06/21 22:09]: こんなかんじ。
urlをテキストに並べておいて、ファイル名を引き数に指定して使ってます。
urlにリンクされているjpgを勝手にフォルダ掘ってそこにdlしていきます。
フォルダ名はurlから拾ってます。

#!/usr/bin/perl

use LWP::UserAgent;
use HTML::LinkExtor;
use URI::URL;
use strict;
use POSIX ":sys_wait_h";

$| = 1;#OUTPUT_AUTOFLUSH

my $iframe_ref='';
my $base_tag = '';
773 名前：770 mailto:sage [04/06/21 22:09]: while(!eof()) {
my $url = <>;
$iframe_ref = '';
my %downloads = ();
chomp $url;
next unless $url;
print "Checking $url¥n";
if ( map{ $downloads{$_} = 0 } getlinks($url) )
{
$url = $iframe_ref if $iframe_ref;
dl2( $url,[sort keys %downloads] );
print "¥n";
} else {
print "there are no JPG¥n";
}
}
774 名前：770 mailto:sage [04/06/21 22:10]: my @imgs = ();
my $iframe = '';
sub callback {
my($tag, %attr) = @_;
$iframe = $attr{"src"} if $tag eq 'iframe';
$base_tag = $attr{"href"} if $tag eq 'base';
return if $tag ne 'a';
push(@imgs, $attr{"href"});
}
775 名前：770 mailto:sage [04/06/21 22:10]: sub getlinks
{
$base_tag = '';
@imgs = ();
$iframe = '';
my $url = $_[0];
my $ua = LWP::UserAgent->new( Agent => "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;)");
my $p = HTML::LinkExtor->new(¥&callback);
my $res = $ua->request(HTTP::Request->new(GET => $url),
sub {$p->parse($_[0])});
my $base = $base_tag || $res->base;
if ($iframe and !@imgs) {
print "Found iframe. recheck >> $iframe¥n";
$_ = url($iframe,$base)->abs;
$iframe_ref = $_;
$iframe = '';
return getlinks($_);
}
@imgs = map { $_ = url($_, $base)->abs; } @imgs;
@imgs = grep{/.[jJ][pP][gG]$/} @imgs;
return @imgs;
}
776 名前：770 mailto:sage [04/06/21 22:11]: sub dl {
my $uri = $_[0];
my $ref = $_[1];
my ($dummy,$dir) = ($uri =~ /.*¥/([^¥/]+)¥/([^¥/]+)¥/[^¥/]*$/);
opendir(A,$dir) || mkdir $dir;
closedir A;
chdir $dir;
`curl -s -O $uri -e $ref`;
chdir "../";
}
777 名前：770 mailto:sage [04/06/21 22:12]: sub dl2 {
my $max = 4;#プロセス数

my $ref = shift;
my @str = @{shift(@_)};
my($pid, @slot);
my $tick=0;

while(@str){
for(0..($max-1)){
if($slot[$_] != 0 and waitpid($slot[$_], &WNOHANG)!=0){
$slot[$_] = 0;
}
}
778 名前：770 mailto:sage [04/06/21 22:12]: for(0..($max-1)){
if($slot[$_] == 0){
my $url = shift(@str);
last unless defined $url;
chomp($url);
if($pid=fork()){
$slot[$_] = $pid;
} elsif (defined $pid) {
print "Start Download >> $url¥r";
dl($url,$ref);
exit;
} else {
die "Can't fork: $!¥n";
}
}
}

sleep(1);
}

for(0..($max-1)){
waitpid($slot[$_], 0);
}
}
779 名前：770 mailto:sage [04/06/21 22:13]: 以上です。
780 名前：770 mailto:sage [04/06/21 22:29]: 余計なのはいってた；
my $tick;
を削除してください；

バーが回るヤツつけようと書き換えている最中の貼ってしまいました；
781 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/06/22 14:41]: wget -r -A .jpg
に URL を渡して回せば良いのでは？と言ってみるテスト。
782 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/06/22 17:35]: wgetの--page-requisitesを使ってお絵かき掲示板の絵をコメントごと収集しようと思ってます。
しかし、しぃアプレットを使っている掲示板からは--page-requisitesで画像を持って来れませんでした。
例として、どこでもいいんですが思い切り無関係なところでこことか↓
ttp://www15.big.or.jp/~baroque/nharuna/oekaki/bbsnote.cgi

　　1)　wgetの設定がまずい
　　2)　こっちのネットワークの何かがまずい
　　3)　CGI側で何かしてるのでwgetでは無理

なにがよろしくないんでしょう。wgetがHTMLを解析してくれてない感じなんですが。
783 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/06/22 18:03]: >>782
1) -p option ついたの最近よ？あと実装始めのころのはバグってた気もした
2) これっぽい。君のサイトが撥ねられてるとか、proxy とか
3) んなこたー、ない

% wget --page-requisites www15.big.or.jp/~baroque/nharuna/oekaki/bbsnote.cgi
（略）
% ls www15.big.or.jp/~baroque/nharuna/oekaki/data/
IMG_003579.jpg IMG_003582.jpg IMG_003585.jpg IMG_003587_2.jpg
IMG_003581.jpg IMG_003584.jpg IMG_003586.jpg IMG_003588.jpg
% wget --version
GNU Wget 1.9.1
784 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/06/22 18:06]: ゼンゼン関係あるけどこのサイトは感動した
www.geocities.jp/futaba136241/baseball01.html
785 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/06/22 18:18]: >>782-783
漏れも画像のダウンロードができなかった
-m -l1オプションでもダメだった

% wget --version
GNU Wget 1.8.2

wget 1.9は~の処理が変わったので使ってない
786 名前：782 mailto:sage [04/06/22 18:33]: でも、infoseek.co.jp にあるのも candybox.to にあるのも x-beat.com にあるのも駄目。指定ファイルしか落ちてこない。
Webブラウザでは普通に見れるし… --recursive とかもこのサイトに効かないんだよなあ。

$ wget -nv --page-requisites www15.big.or.jp/~baroque/nharuna/oekaki/bbsnote.cgi
18:15:34 URL:www15.big.or.jp/%7Ebaroque/nharuna/oekaki/bbsnote.cgi [28106]
-> "www15.big.or.jp/%7Ebaroque/nharuna/oekaki/bbsnote.cgi" [1]

終了しました --18:15:34--
ダウンロード: 28,106 バイト(ファイル数 1)
$ wget --version
GNU Wget 1.8.1

Windows版。
>wget -nv --page-requisites www15.big.or.jp/~baroque/nharuna/oekaki/bbsnote.cgi
18:15:20 URL:www15.big.or.jp/%7Ebaroque/nharuna/oekaki/bbsnote.cgi [28106]
-> "www15.big.or.jp/~baroque/nharuna/oekaki/bbsnote.cgi" [1]

FINISHED --18:15:20--
Downloaded: 28,106 bytes in 1 files
>wget --version
GNU Wget 1.9.1

なんででしょね？
787 名前：770 mailto:sage [04/06/22 21:39]: >781
おお。スマートだし。自分が恥ずかしくなってきた。
でもこれ、サムネールとか広告まで保存しちゃいますね。
保存先も深くなっちゃうし。
788 名前：770 mailto:sage [04/06/23 05:05]: >782
wget --page-requisites --follow-tags=IMG
でいけました。

あと自己レスなんですが
wget -r -A.jpg -nd -np -I 1 -H --ignore-tags=img -P dir
でやりたかった通りに出来ました。
789 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/06/23 10:56]: >>788
でもあんま根本的な原因究明にはなってないな(w
解析が難しいHTMLの書き方にでもなってるのか？
790 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/06/23 11:48]: wgetよりcURLの方が便利だ。
791 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/06/23 16:46]: 使い方ｷﾎﾞﾝ.
792 名前：770 mailto:sage [04/06/25 09:06]: >789
CGIが吐くHTMLの最初の方に
<META name="ROBOTS" content="NOINDEX,NOFOLLOW">
とあり、wgetがこのタグのNOFOLLOWを理解して探索をやめてしまうから。
793 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/06/29 18:13]: がーん。wget って --timestamping と --no-clobber を同時指定ってできないんだ…

　「ローカルより新しいファイルならサーバからダウンロードするが
　　ファイルは上書きせずに通し番号などをつけて区別して保存する」

という芸はできないのか。
794 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/06/30 13:09]: >>793
サーバー上のファイルと比較すべきローカルのファイルを
どれにするのが適当なのかがよくわからない、というのが原因なんだろうね。

--timestampingで更新ダウンロードした時に
スクリプトでリネーム退避しておく、という手くらいしか思いつかないや。
…wgetが更新ダウンロードしたことを検知する方法ってなんかあるっけ。
ログを書き出す設定にしてgrepする以外にあるかな？
795 名前：名無しさん＠お腹いっぱい。 [04/07/04 16:58]: 優秀なﾎﾟﾏｴﾗに質問でつ

このサイトの画像を自動で保存するにはどうすればいいでつか?
www.sweetnote.com/board/chidle/hoshiinanase/

ページの最後にCSSで隠した画像があって、
その画像にアクセスするとアクセス禁止になってしまうので
wgetだと保存できません

ちなみに、巡回ソフト対策みたいなのですが、
CSSに対応してないブラウザで見ると表示されてしまうし、
Operaでスペース押していくと画像を順番に表示していくので
CSSで隠した画像にもアクセスしてしまいます
796 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/07/04 17:14]: そういえば、昔作ったスクリプトには
grep -v BBLhGdTS
何ていうのが入っていたな。
797 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/07/04 17:18]: ん？えーと、コレは単に

……。しまった。CSS云々ってコレか。繋ぎ変えよう
798 名前：795 mailto:sage [04/07/04 17:23]: >>797
面倒なことさせてしまってすみません

FirefoxなどでCSSを無効にすると
一番下に同じサムネイルが2枚表示されていて
その下の画像のリンクにアクセスするとアクセス禁止になってしまいます
799 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/07/04 17:30]: う、うまく書けない。まあいいや。
えーとね、Lynxかなにかで全リンクを抽出して、grepで/images/を含む行を取り出す。
これは「1行目は本物画像リンク、2行目はCSSで隠された罠リンク」の順番になってるので
偶数行目だけ削除するフィルタを何かで書いて（初心者が急いでるので挫折）、
そのURLリストをUserAgentがIEでrefererが当該ページなwgetで回せばいい。はず。たぶん。
800 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/07/04 18:10]: bbs.coolnavi.com/16627
↑のようにcookie強制する画像サイトは難しい。
801 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/07/04 18:36]: wget --load-cookies --save-cookies .... でOKでは。
802 名前：799 mailto:sage [04/07/04 19:13]: 適当に書いてみた。LynxだとIEのフリができずアクセス解析でバレそうなのでHTMLソースをwgetして解析。
>>799の「リンクを抽出した1行目は本物画像リンク、2行目はCSSで隠された罠リンク」の仕様が崩れるとアウト。

#/bin/sh
wget $1 -q -nv --user-agent=="Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)" -O - |\
sed -n 's/<a href="$..*$" target="_blank">.*/http:\/\/www.sweetnote.com\1/p' |\
awk 'NR%2 == 1' | wget --user-agent="Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)" \
--referer=$1 -nv -P ${2:-gazou} -i -

上記の5行をget.shとかで保存して適当に実行可能にして
$ ./get.sh www.sweetnote.com/board/chidle/hoshiinanase/
とするとカレントディレクトリにgazouディレクトリを勝手に掘って画像を保存。
（5行目の -P ${2:-gazou} を消すとデフォルトでカレントに保存するようになる）
$ ./get.sh www.sweetnote.com/board/chidle/hoshiinanase/ test
とするとカレントディレクトリの下にtestという指定ディレクトリを勝手に掘って画像を保存。

IEだと思わせてるので画像の更新はあえて見てない（毎回6ファイルを強制ダウンロード）。
鯖負荷のかけすぎで気取られないように注意。
803 名前：795 mailto:sage [04/07/04 21:35]: >>802
ありがとうございます

ダミーのリンクは最初と最後の画像だけみたいなので
偶数行を削除という発想をヒントに2行目と最後の行を削除したらいけました

sed -e '2 d' | tac | tail +2

> 仕様が崩れるとアウト。

以前は各画像のあとにコメントアウトされた
ダミーの画像がふたつずつありました

> （毎回6ファイルを強制ダウンロード）。

いつもはwgetに-xオプションをつけてダウンロードしています
あとは "`echo url | cut -d/ -f3-`" というファイルが
存在するかどうかでダウンロード済みかどうかを判断しています
URLエンコードが必要な場合は適当に処理してます
804 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/07/04 22:27]: IEでもHEAD投げてサイズを見てダウンロードするかどうかを決めるってのはやってるんじゃないかな。
別にそれでバレることはないと思うぞ(w
805 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/07/04 23:52]: >>801
いやね、>>800は半角板に張ってあったりすると、URI中のセッションIDとcookieのセッションIDが一致しないとダメなのよ。
そのサイトから直で落とすなら問題ないんだけどね。
806 名前：名無しさん＠お腹いっぱい。 [04/08/14 11:43]: 保守
807 名前：名無しさん＠お腹いっぱい。 [04/08/22 21:52]: wget使ってdlするｽｸﾘﾌﾟﾄを書いてるんだけど、どうもcookieの処理が上手く出来
ないんだけど、だれか解決方法知らない？

index取得時にUIDとSIDをsetされるので、imageをgetする際にその両方を送れば
いいだけなんだけど、なぜかwgetだとUIDしか送ってくれない。
808 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/08/27 11:56]: office-lady.net/office/cute/album1.html
ここの画像ってどうすればgetできますか？
wgetプロの方、おながいします。
809 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/08/27 12:28]: wget で適当な --referer を指定して、zsh で
office-lady.net/office/cute/images/img0{01..18}.jpg
あとは自分でいろいろ調べてみてください。
810 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/08/27 13:47]: >>807
指定するときにセミコロンでパラメータをセパレートするんじゃないの？
ひょっとしたらwgetの場合cookieなんかだと、複数のパラメータセットが
あった場合、全部追加されるのかもしれないけど。
#まあキャプチャすれば直ぐ判ることだが。
811 名前：名無しさん＠お腹いっぱい。 [04/09/09 01:30]: 保守
812 名前：名無しさん＠お腹いっぱい。 mailto:sage [04/09/10 11:16]: >>808
こんな感じ。
wget --header=REFERER:office-lady.net/office/cute/ office-lady.net/office/cute/images/img0{01..18}.jpg

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef