1 名前:前スレ1 [2005/12/26(月) 02:56:22 ] 前スレ5年間のご愛顧ありがとうございました。PGFは無事コンプしましたが、これからも皆様の日々 実践されているノウハウを教えていただきたく再度、スレを立てさせてもらいました。 前スレ 連番のH画像を一気にダウンロードする pc8.2ch.net/test/read.cgi/unix/979106537/
252 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/01/27(水) 14:39:42 ] >>251 244 :名無しさん@お腹いっぱい。:2010/01/18(月) 09:27:43 >>189 のツール使ってるんだけど、急に弾かれるようになっちゃった… Your IP address is not allowed to access that Your IP address has been temporarily banned for using automated mirroring/harvesting software and/or failing to heed the overload warning. The ban expires in 56 minutes 23 seconds だって… WIN向けだからここで聞くのも間違っている気もするんだけど、何か対策されたのかな? 246 :名無しさん@お腹いっぱい。:2010/01/18(月) 17:25:43 >>244 俺も弾かれるようになった おそらく対策されたんだろう いままで対策されなかったのが不思議だったし 前レス読んだ?急に真剣になってバカじゃないの??
253 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/01/27(水) 22:39:27 ] 別人に何を言ってるんだ
254 名前:名無しさん@お腹いっぱい。 [2010/02/02(火) 00:50:57 ] 誰かこれ頼む。もう3日なやんどる jappygal.blogspot.com/2010/01/dgcyuki-mogami-no811-201002.html
255 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/02(火) 13:00:37 ] cookieとjsでガチガチになってるわけでもなし。簡単じゃないか URL=jappygal.blogspot.com/2010/01/dgcyuki-mogami-no811-201002.html wget -O- "$URL" | grep -o "[^\ "']*.jpg" | sed -ne "/s1600-h/s/s1600-h/s1600/p" >LIST wget -i LIST
256 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/02(火) 14:02:53 ] 2スレ目でそろそろ「基本テク」をおさらい・まとめて おかないといけないんじゃないかな… ページソースや直URL確認 wget --referer オプションやら -r -l などなど zsh の連番技法 {001..052}.jpg とか >255 html 解析から a href= 抽出するのは grep -o が使えたのか
257 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/02(火) 14:14:57 ] 前スレを見てみたい 方法の改良論とかもありそうだし
258 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/02(火) 14:26:46 ] 2se.dyndns.org/test/readc.cgi/pc8.2ch.net_unix_979106537/
259 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/02(火) 17:20:47 ] 前スレみたらこんなのがあった URLにはつながらず…… 952 :950:2005/11/05(土) 18:30:02 >>950 テキトーにつくってみました。 seizen.dyndns.org:8080/matome/ ちなみにおいらはperl+sh派です。
260 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/07(日) 06:27:04 ] 先ほど509になってびっくりしてググったらここに来ました 何だか知らないけどよろしくお願いします とりあえずスレ見たらアク禁解けるまで待てと書いてあるので待ってみます
261 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/07(日) 10:57:35 ] そういや157のツールでe-hentaiの古い画像が見れないのってどうなった?
262 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/08(月) 20:25:53 ] e-hentaiの画像を簡単に多く取れるツール作って欲しい
263 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/12(金) 20:58:02 ] 作った…
264 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/13(土) 02:49:10 ] おめでとう。
265 名前:名無しさん@お腹いっぱい。 [2010/02/14(日) 19:08:52 ] 欲しいと言われると腕がなるのでおいらも挑戦してみた。 千枚保存するのに20分掛かったが帯域制限には引っ掛からなかったよ。 これが >>262 の想いに届いたなら幸せだ。 www1.axfc.net/uploader/File/so/38900 スクリプト起動したら"URL>"のプロンプトにギャラリートップのURLを入力してくれ。 複数のURLをテキストファイルに書いてリダイレクトで食わせてもOK。 後は放っておくだけでギャラリーIDのサブディレクトリを掘って画像を保存するよ。
266 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/14(日) 21:43:09 ] GPの増やしかた教えてくれ
267 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/15(月) 15:13:12 ] e-hentaiってgzip転送しているように見えるけど phpスプリクトは対応してますか? 負荷掛けるのはいくない
268 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/15(月) 16:22:00 ] リファーとクッキー設定してないけど いいのだろうか
269 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/15(月) 17:10:20 ] リファラー?
270 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/15(月) 17:31:45 ] サムネイルしか保存出来ないんだが対策されたのだろうか
271 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/15(月) 20:12:26 ] そもそもphpの開き方がわからない俺orz
272 名前:263 mailto:sage [2010/02/15(月) 21:12:03 ] クッキーないと画像は落ちないよ。 wget なら --keep-session-cookies 併用して表示ページを経由する。 オリジナルをダウンロードする場合はログインスクリプト書いて そのクッキー使う。DL数に厳しい上限あり。 ログインしておけば通常の画像も帯域が増えるよ。
273 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/15(月) 21:39:22 ] >>270 俺もサムネしか落ちないな
274 名前:名無しさん@お腹いっぱい。 [2010/02/15(月) 22:01:39 ] >>262 は「e-hentaiの画像を簡単に多く取れるツール作って欲しい」と言ってるんだから あながち嘘ではない。ソースあるんだから、なんとかしたい人ならこれをベースになんとかする。
275 名前:名無しさん@お腹いっぱい。 [2010/02/15(月) 22:57:20 ] この過疎地で1日のレスがこんなに付くとは思わなんだ>>265 だが 一週間の掲載期間は長かったかしら。 まぁ洒落なんだからそんなに突っ込まないでくれ。 こんなところでそのまんま自前のソース広げて使われ まくった挙句に変な対策でもされたら面倒だからね。 >>267 phpはgzip展開圧縮も普通に出来るよ。
276 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/18(木) 13:16:01 ] リファラーってどうやってせっていすんお? $ua->agent("Mozilla/5.0 (Windows; U; Windows NT 6.0; rv:1.9.2) Gecko/20100115 Firefox/3.6 (.NET CLR 3.5.30729)"); $ua->proxy('http', '127.0.0.1:65536/ ');
277 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/19(金) 02:08:37 ] get.plでダウンロードできなくなってるんだが… 対策されたか?
278 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/19(金) 15:36:48 ] 確かにget.pl使ってもエラー吐かれるな
279 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/19(金) 16:21:20 ] どんなエラーでてんの? こっちも対策するぞ
280 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/19(金) 17:21:23 ] こんなん ** make directory ** the list name is 0f9cd89d5b.list. the directory name is 0f9cd89d5b. 0f9cd89d5b does exist. doesn't make a directory. ** get 98 pics ** get pic's html file (1/98). get html : success. (200 OK), [dummy.html] get [0] ...: HTTP::Response=HASH(0x2fd6994)->status_line, [0] : failed to download pic. try a gain (5/5). wait/sleep 3 sec : [***] これを5回繰り返して止まる
281 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/19(金) 18:19:24 ] 対策っていうか, 多分画像が貼ってあるページの構造が変わって, scrapeimgname() と scrapeimgurl() がファイル名と url を 抽出できなくなっただけ. これらの関数は getpics() から呼び出され, 抽出できなかった場合に return 0 するが, getpics() 側で特にエラー処理 してないので, エラーにならず get [0] ... とかなって走りつづけてる (本当は 0 のとこに scrapeimgname() の戻り値であるファイル名が入る). モジュールに依存しないように html の parse を自前でやってるが, 俺は面倒なので, HTML::TreeBuilder::XPath 使って書き直した. あと HTTP::Response->status_line がメソッド呼び出しなのに double quote で文字列展開しようとしてるので, status_line が 正しく表示できてないのもバグっぽい. "@{[ $res->status_line ]}" とかしといた方がいい.
282 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/19(金) 18:51:06 ] bandwidthがperlだとブラウザより高いのけ? QoSでperlへの帯域絞るしか無い?
283 名前:名無しさん@お腹いっぱい。 [2010/02/19(金) 22:35:10 ] img id.*でマッチングするようにscrapeimgnameとscrapeimgurlを書き換えたら動いたよ。 オリジナルは画像鯖のドメインでマッチングしてたんだけど、ドメインが変わったからマッチしなくなったんだね。 >>282 オリジナルだと4秒ぐらいで取りに行っちゃうから、間隔を10秒以上とるようにsleepを書き換えるとけっこう快適になるよ。
284 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/19(金) 23:06:49 ] >>283 サブルーチンを書き換えればいいのかな
285 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/19(金) 23:17:33 ] $t=(rnd($base1000))+10 とか?
286 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/19(金) 23:19:13 ] >>284 そうそう。waitpとかいう名前だったはず。
287 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/19(金) 23:21:06 ] 私も、img idでマッチする様に書換えて、動きました。 書出すファイル名は、altタグから引っぱればいいかな。
288 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/19(金) 23:23:28 ] >>283 便乗して悪いけど img id.* ってのはscrape〜の if ( m|src="r.e-hentai.org/.*? "| ) の部分のことでいいのかしら
289 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/19(金) 23:25:00 ] $t=(rnd($base1000))+10 とか?
290 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/19(金) 23:26:00 ] うあ base/1000の間違い すまぬ
291 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/20(土) 01:13:58 ] perlの記述がよく分からないんだけども 正規表現とかimgタグとかは他の言語とかと一緒なのかな
292 名前:157 mailto:sage [2010/02/20(土) 01:54:50 ] URLとイメージ名のスクレイパの正規表現の手直しと waitpの時間延長を施した新ヴァージョンができました www1.axfc.net/uploader/Sc/so/84683.zip&key=ehg
293 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/20(土) 11:01:04 ] 157さんサンクス! ちゃんと動いてます。
294 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/20(土) 17:10:24 ] use LWP ; my $ua = LWP::UserAgent->new; $ua->agent("User-Agent: Mozilla/5.0 (Windows; U; Windows NT 6.0;rv:1.9.2) "); $ua->timeout(180); $ua->proxy('http', '127.0.0.1:80/ ');
295 名前:157 mailto:sage [2010/02/20(土) 21:05:59 ] 上のバージョンで>>281 氏のstatus_lineのデバッグ入れるの忘れてました すいません
296 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/21(日) 13:12:16 ] 今スクリプトのデバッグ中にふと思いついたしょーもない むしろ '常識知らねーな' と言われそうな変更を試してる。 これで4ページ/分のペースで14冊330ページ99MBまで落としたが 一向に帯域制限がやって来ない。昨夜は引っ掛かりまくりだったし 今まで3日の間を空けたってこんなこと無かったんだがな。 サーバのプログラムが変わったばかりらしいがバグを突けたのか? それとも今日は感謝デーなのか?
297 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/21(日) 13:21:48 ] >>296 変更前と後のスクリプトで試してみて 両方とも帯域制限が来ないなら 今日は感謝デー 後の変更済みスクリプトだけに帯域制限がこないなら その変更は大当たり
298 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/21(日) 13:35:43 ] >>297 おぉ、そりゃそうだ。舞い上がって変化点検証の基本を忘れてた。やってみる。
299 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/21(日) 14:56:32 ] すまん。サービス期間中だったようだ。 変更前のコードでも222ページ75MBまでスルスル落とせた後に 509 がやってきた。 その直後に変更後のコードを掛けてみたがやっぱり 509 だった。 多分週末メンテナンスで俺のカウンタがリセットしたとかなんだろうな。 クッキーなくなってるね。リダイレクトもなし。img id=xxx は相変わらず付いてるけど 肝心の id の値はHTML本文中に見つからない。
300 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/21(日) 16:34:57 ] 157さんのツールで、DLするページによってサムネイルページで400エラーを吐くのは何故でしょうか?
301 名前:名無しさん@お腹いっぱい。 mailto:sage [2010/02/21(日) 20:17:10 ] >>300 オレもそういうページあるけど多分複数ページじゃなくて単独ページの場所だと 動かないっぽい。 ベースページを解析するルーチンで1ページしかないページだと構文解析できずに 終わってるっぽいな。 直すのめんどいんで手作業でやってるけどね。 ついでだけど500枚くらいのやつだとエラー途中までしかDLしないのは仕様?