1 名前:1 [01/10/23 19:39.net] 2ちゃんねるに貼ってある画像リンクを追い、 jpgをかき集めるスクリプトを作ってみました。 www.ninnin.net/ ※perlとwgetが必要です。 ※Windows,Macでは動きません。
6 名前:1 [01/10/23 20:03.net] 例えばモー娘板で 一回スクリプトを実行すると 約800枚の画像が収集できます。
7 名前:名無しさん@お腹いっぱい。 mailto:sage [01/10/23 21:11.net] UNIX板的にはどうかと思うがサンクス1
8 名前:ソースコード読まずにカキコ mailto:sage [01/10/23 21:15.net] Σ(゚д゚lll)ガーン アイドル画像板でやったら最初の画像が葉っぱ隊だった しかも何かループしてて同じ画像だけ取ってるっぽい。 42枚しか収集できなかった。
9 名前:UNIX すごい。 [01/10/23 21:21.net] MacOS X ですがやってみました。 こんなこともできるんですね。目からウロコです。 中にはとても重たいサーバーがあるので、可能であれば タイムアウトのパラメータも追加されるとうれしいです。 (30秒以上反応が無かったらスキップして次、など) perl スクリプトとか詳しくないのに勝手言っちゃってすいません。
10 名前:名無しさん@お腹いっぱい。 mailto:sage [01/10/23 21:27.net] cygwinのperlでも動いた。 ただ $down デフォルトは、せめて2くらいに しておいた方が良くないかい? もしくは固定とか。 サーバに申し訳なくて5は指定出来ん。
11 名前:名無しさん@お腹いっぱい。 mailto:sage [01/10/23 21:34.net] mpegも落としたいが.... 醤油みたけど直すのメンドイな
12 名前:名無しさん@お腹いっぱい。 mailto:sage [01/10/23 22:19.net] こういうのは自分で書いた方が良さげ。
13 名前:1 [01/10/23 23:39.net] 1です。 >>8 アイドル版ならもっと集まるはず。取得スレ数リミットをもっとあげてみよう。 >>9 wgetのパラメータをいじればできます。現在の設定は2分です。 今後調整します。スクリプトの153行目をいじれば変更もできますよ。 >>10 その通りですね。次回のバージョンから少し下げます。 >>11 73,74,84行目の.jpgを.mpgに変更すればOKなはずです。
14 名前:名無しさん@お腹いっぱい。 [01/10/23 23:44.net] ガ━━(゚Д゚;)━━ソ! よろこびいさんで半角板いったらなんもなかった
15 名前:名無しさん@お腹いっぱい。 mailto:sage [01/10/23 23:47.net] おおお、すごいね。ガンガン落とせるよ。でも鯖の負荷がすごそう なのでsage進行の方が良いかな…。 ところで、これで落とした画像を閲覧するスクリプトとか、 どうやって作るんだろう? 手動でeeで見てるんだけど、再帰的に .jpgファイルを見るスプリプト?とかありそうなんですが。
16 名前:名無しさん@XEmacs [01/10/24 01:00.net] やっぱ wget を fork して…ってのはみんな書くのね(笑) ウチの環境だと wget は 2 個くらい fork するのが一番 効率が良かったかなぁ。 # fork しすぎると timeout して、 # まともに取れなかったりして… >15 find ./ -name '*.jpg' -exec display \{\} \; とか? XEmacs の dired も、よく使いますけど。。。
17 名前:名無しさん@お腹いっぱい。 mailto:sage [01/10/24 01:08.net] 迷惑画像URLリストとか、どこかにないでしょうか。 フィルタリングしたいですよね。
18 名前:名無しさん@お腹いっぱい。 mailto:sage [01/10/24 01:26.net] find ./ -name '*.jpg' |xargs ElectoricEyes
19 名前:名無しさん@お腹いっぱい。 mailto:sage [01/10/24 01:36.net] 半角板のDATってどこにあるす? つーか何もないのはおかしいよね。
20 名前:名無しさん@お腹いっぱい。 mailto:sage [01/10/24 01:41.net] >>15 スクリプトじゃないけどgqviewとかpicviewとかじゃだめなん?
21 名前:124 [01/10/24 03:03.net] こんなことができるのは常時接続の人たちですか?
22 名前:うひひ mailto:sage [01/10/24 09:28.net] >>21 情事切実な人だな。
23 名前:名無しさん@お腹いっぱい。 [01/10/24 10:38.net] >>19 半角板だと $ita = okazu.bbspink.com/ascii/ の設定でOKなはず
24 名前:名無しさん@お腹いっぱい。 [01/10/24 13:07.net] http://とか ttp:// みたいにあえてコピペ用になってる物も 落とせる?
25 名前:名無しさん@お腹いっぱい。 [01/10/24 13:28.net] >>17 同意. でも,迷惑画像っつーのは人によって異なるからね,一概には... 画像分析して妙に赤が多いのはハネるとかは欲しいかも.
26 名前:1 [01/10/24 13:59.net] >>24 むろんOKです。 "ttp://"でひっかけてます。
27 名前:1 [01/10/24 14:01.net] >>25 その機能はつけたいんですけどね・・・ でも赤くない死体画像もあるし・・・ こういう時に1chのレス評価システムは 使い勝手があるんだな、と感じます
28 名前:名無しさん@XEmacs [01/10/24 14:16.net] 半角っていえば、天使とか鳥とかの半角用語?を含むURLをサポートしたスクリ プト書いた人居る?漏れは諦めた(w これ、できたら結構凄いよな…
29 名前:名無しさん@お腹いっぱい。 mailto:sage [01/10/24 23:33.net] >>28 同意。ぜひ1にはがんばってもらいたい。
30 名前:名無しさん@Vi mailto:sage [01/10/25 01:42.net] たしかに画像フィルタは便利かもしれませんが、 個人的にはこのスクリプトは画像をダイジェストできることに 特化して欲しいです。 できれば追加して欲しい機能 1.URL は違うけどファイル名が同じ場合のファイル処理 2. キーワードを追加( tp:// とか http:// など) 3.スレッドのスキップ(先頭から50個目のスレッドから開始など) 4. いっそのこと MPEG ファイルも対象に。 スレッドのスキップはスクリプトに追加して作ってみました。 もし希望があれば送ります。>1
31 名前:名無しさん@お腹いっぱい。 mailto:sage [01/10/25 01:59.net] スレをどこまで読んだか記憶して、次回はそれ以降だけを読むとか、 落としたファイルのアドレスを記録しておいてそのファイルは二度と落とさないとか そういう機能がないと、毎日同じファイルをダウンしてきてしまうと思うのですが どうよ?
32 名前:1 [01/10/25 11:38.net] >>30 ご意見ありがとうございます。 検討して次期バージョンに反映します。 >>31 んーと現在の仕様では、同じファイルの画像が ローカルにあればダウンしないようになっていますので、 毎日同じファイルをダウンしてしまうというのはないです。 ただ落としたファイルのアドレスを記憶とかしてたほうが、 2回目以降の効率は良いですね。
33 名前:名無しさん@お腹いっぱい。 [01/10/26 00:26.net] コレ使うとスレの荒れ度がわかるね 荒れてるスレは死体画像多い。 あとなぜかペットの画像も多いNE!
34 名前:名無しさん@お腹いっぱい。 [01/10/26 05:38.net] wgetでいいじゃん。
35 名前:名無しさん@お腹いっぱい。 [01/10/26 11:16.net] >>34 そういう説もある。 ttp://追えないけどね
36 名前:名無しさん@お腹いっぱい。 mailto:sage [01/10/26 16:55.net] OSXにwget入れるのに小1時間かかりました。 でも成功、すごいぞUNIX、ありがとう>1
37 名前:名無しさん@お腹いっぱい。 mailto:sage [01/10/27 01:20.net] >32 そっか、俺は落としてきたファイルを 別ディレクトリに移動して整理していたんだが、 そうすると、また同じやつを落としてきてしまうんだな。 死体画像とかも残しておかないと、 また同じ死体画像を落としてきてしまうのだな。
38 名前:名無しさん@お腹いっぱい。 [01/10/27 10:54.net] >>28 その辺の隠語は限られているから、単純置換じゃダメかな…
39 名前:1 [01/10/27 17:44.net] >>37 死体画像は同じファイル名でダミーのファイルとかを 置くとかすると良いかも・・・ 面倒なのでそのうちその辺もなんとかしたいですね
40 名前:名無しさん@XEmacs [01/10/27 20:34.net] >38 単純置換は無理っぽいですね。隠語はちょこちょこ増えてるみたいですし、 URLは省略されたりクイズで記述されたりもするので(w
41 名前:名無しさん@お腹いっぱい。 mailto:sage [01/10/27 20:49.net] おいおいおいおいおい、2ch内とはいえ下手なスパイダー 動かすのはやめてくれ。転送量も鯖の負荷も増える。 やりたいやつは公開なんかしないで、自分で作ってひっそりと やってくれ。
42 名前:名無しさん@お腹いっぱい。 [01/10/29 19:56.net] >>41 すいてる時間帯でもダメ?
43 名前:名無しさん@ほっとぞぬ mailto:sage [01/10/29 23:13.net] >>42 まず、datファイルをgetして、それを元にすればよいかと思われ。
44 名前:名無しさん@お腹いっぱい。 [01/10/29 23:57.net] MacOSXの人って結構いるんだなぁ。 そういう漏れも。
45 名前:名無しさん@お腹いっぱい。 [01/10/30 00:12.net] >>44 俺もMacOS X 最近多いよね。 厨房UNIX使い気取りが増えてここの板の人は迷惑だろうけど・・
46 名前:名無しさん@お腹いっぱい。 [01/10/30 00:27.net] >>44 >>45 コンソール使う頻度はどれくらいよ? あんまり多いのも、それはそれで考えもんだけど。 一応Macだし。
47 名前:名無しさん@お腹いっぱい。 mailto:sage [01/10/30 02:34.net] >>44-46 スレ違い。
48 名前:名無しさん@お腹いっぱい。 [01/10/30 22:21.net] 同名のファイルがあった場合、ファイルサイズを調べて一致しなかったら 後ろに_01とか付けて保存するのは出来ませんか?
49 名前:1 [01/10/31 10:28.net] >>48 できます。 その方法も考えたのですが、結局やりませんでした。 いらないかな?と思って。 同じような要望が多ければ導入を検討します。 wgetのオプションの中にそんな機能があった気がしますので、 ご自分で改造してみてはいかがでしょう。 $optionsにオプションを突っ込んでwget実行サブルーチンを 呼んでるだけですので。
50 名前:名無しさん@お腹いっぱい。 [01/10/31 13:46.net] 試しにやってみたけどいい感じだぁよ、ありがとう。>1 要望とか考えると結局Iria先生みたくなるんだろうけど期待しちゃうよ。 なにってcronで動かしておけるから昼間だけの時限モノとか拾える可能性 あるってだけでピンコたんピキーンなれるし。 ただこの板でやるなら負荷、転送量減らしは最初に考慮する必要あるかと。 引っ越し間際のスレなんて生データで300kb以上になるのを毎回引っ張る のはやはり問題だと思うので、ツモって来たdat fileはローカルに保存して 再利用する方向で進めてはどうか。 同名異URI処理は取り敢えず後にしないと、考え無し厨房が全開で走らせる と思われ。
51 名前:名無しさん@お腹いっぱい。 mailto:sage [01/11/01 19:49.net] ねぇねぇ、これからもいじる気ある?>1 マジでcronで走らせてグロ画像getterになろうと思うだけどいぢっていい? perl なんてしばらくいじってないから思い出すとこからはじめるけど。
52 名前:名無しさん@お腹いっぱい。 mailto:sage [01/11/03 08:14.net] 途中で切れちゃう画像とかあるんですが、どこをいじればいいですか? $limit = 3 $down = 2 で使ってますが。
53 名前:1 [01/11/03 20:54.net] >>50 datのタイムスタンプをチェックして再利用するようにしようかなぁ ご意見ありがとう。転送量軽減を目指します。 >>51 ぜひいぢってください >>52 117行目のwgetのオプション設定で調整できると思います。 -t や -w の値を調整すると良いかも。参考ページはこちらあたりをどうぞ seagull.cs.uec.ac.jp/~horiuc-m/wget.html
54 名前:名無しさん@お腹いっぱい。 mailto:sage [01/11/03 21:44.net] 自分でSocket開いてRange: bytesヘッダとか使ってくれ。 つーかこういうもんはまともになってから公開してくれ
55 名前:名無しさん@お腹いっぱい。 [01/11/03 22:17.net] FreeBSDでこのソフト使いました。 jpg/以下にたくさんのファイルがきましたが、 この中から、最適なファイルを絞り込むのはむづかしいですね。 タグ情報等から、分類できないのかなあ? もしくわ、winみたいに、一つ一つのファイルを簡単に表示 できたらまだいいかも。(サムネーム表示?) 今gimp使って、いっこいっこ開いてるけど、 もっと楽にファイル情報しらべれないかな?
56 名前:名無しさん@お腹いっぱい。 [01/11/03 22:17.net] 今のままじゃ、ファイル名による絞り込み しかできないよ。
57 名前:名無しさん@お腹いっぱい。 mailto:sage [01/11/03 22:23.net] ・・・ここは本当にUNIX板なのか・・・鬱
58 名前:名無しさん@お腹いっぱい。 mailto:sage [01/11/03 23:42.net] Gimp…… 絶句
59 名前:名無しさん@お腹いっぱい。 mailto:sage [01/11/03 23:52.net] つーか誰かがこのスクリプトをcronで定期的に実行して 作成されたjpglistをどっかで公開すりゃいいんだよね それを元にiriaなりwgetなりで落とせばいい そうすりゃ負荷はかからんし
60 名前:名無しさん@XEmacs [01/11/04 00:35.net] >59 それおもろいね。 っつーか、 jpg をある程度の大きさごとにアーカイブしといてくれ(w ってコレはアクセスが集中してダメかにゃ。
61 名前:XV mailto:sage [01/11/04 00:42.net] A.ディレクトリ毎にサムネイル表示 xv [-dir 画像があるディレクトリ] ^v ^n .xvpics ^u B.一気にサムネイル作成 cd ベースのディレクトリ find [こっちで書いてもいいし] -type d -exec mkdir {}/.xvpics \; xv [そしたらこっちもか、やっぱやめ] ^v ^e C.見ているファイルを消す 見る ^d ^d D.ファイルを移動する ^v フォーカス戻す ^v 好きなようにDnDする E.マスク外す 適当に範囲選択 f アローキーで位置変更 Shift+アローキーで範囲伸縮 拡大は Ctrl+マウス Alt+j Shift押しながらパス入力
62 名前:名無しさん@お腹いっぱい。 mailto:sage [01/11/04 00:55.net] >>59 2chはそれでいいかもしれんが、リスト配布はヤメとけ。 厨房に凶器与えるのと一緒だ。
63 名前:55 [01/11/04 14:10.net] >>58 さんに絶句されたんですが、 みなさんは、どうやって画像みてるのですか? マジで教えてください。 厨房なんで、すみません。
64 名前:名無しさん@お腹いっぱい。 mailto:sage [01/11/04 14:36.net] >>63 >>61
65 名前:55 [01/11/04 14:52.net] すばらしい。感動した!有難う。
66 名前:名無しさん@お腹いっぱい。 [01/11/04 16:27.net] グロ画像多すぎ。ホモ画像思わみてしまいかなりへこんだ。
67 名前:名無しさん@お腹いっぱい。 [01/11/04 18:24.net] Listアップするためのサーバーでも借りましょうかね。
68 名前:名無しさん@Emacs mailto:sage [01/11/05 06:42.net] Navi2chで取得したdatを使うようにできたらうれしいな
69 名前:68 mailto:sage [01/11/05 06:48.net] あ,Navi2chで m a m i して,awkで抜いて,wgetすればいいだけか…
70 名前:名無しさん@お腹いっぱい。 mailto:sage [01/11/05 13:34.net] >>55 XV の Visual Schnauzer とか使うのが一般的なんじゃないの?もっとも最近 の Linux の distribution なんかには XV の入っていない例もあるようだけ ど。ちなみにわたくしは xv 3.10a に各種 patch を当てて、FLMASK とかの復 元もできるようにしたのを使ってる。Linux でも *BSD でも特に問題なくコン パイルできると思うけど?
71 名前:名無しさん@XEmacs mailto:sage [01/11/05 22:35.net] XV って未だに使い方よくわかんない… メンドーなので、なんでもかんでも ImageMagick …
72 名前:名無しさん@Emacs mailto:sage [01/11/05 23:28.net] >>70 既出
73 名前:名無しさん@お腹いっぱい。 mailto:sage [01/11/06 03:17.net] GQviewとか。
74 名前:名無しさん@お腹いっぱい。 mailto:sage [01/11/06 03:33.net] キーボードマクロで+mamiするのをcronでまわしておくと、 便利というか迷惑というか。
75 名前:名無しさん@お腹いっぱい。 [01/11/14 09:04.net] 便利と思うがなんであがらないのかな? ということで定期あげ。
76 名前:名無しさん@Emacs mailto:sage [01/11/15 02:08.net] ところで、画像集めた後の話だが、 同じ様な画像がたーくさんディスクの肥しになって 欝にならないか? そんな時は、dupmerge people.qualcomm.com/karn/code/dupmerge/ (QualcommのPhilip Karn作) 洩れは、 find . -name "*.[GgJj][IiPp][FfEeGg]*" -o -name "*.[Mm][Pp][EeGg]*" | dupmerge みたいにして使ってるよ。
77 名前:名無しさん@お腹いっぱい。 mailto:sage [01/11/15 02:20.net] >>76 sambaでwinにmountしているんだけれども、 この手のツールはwinのほうが充実していないでしょうか。
78 名前:名無しさん@Emacs mailto:sage [01/11/15 02:58.net] shell で書けるからね。
79 名前:名無しさん@Emacs mailto:sage [01/11/15 03:02.net] >> 76 どうせなら iname 使え
80 名前:名無しさん@Emacs mailto:sage [01/11/15 21:01.net] そりでは修正 find . -iname "*.[gjm][ip][feg]*" | dupmerge
81 名前:名無しさん@Emacs mailto:sage [01/11/16 17:46.net] >>77 最近のwindowsは、ハードリンク出来るの? 消すんじゃなくてハードリンクする所が ミソなんだけど
82 名前:名無しさん@お腹いっぱい。 mailto:sage [01/11/16 22:21.net] >>81 使えるわけないじゃん
83 名前:名無しさん@Emacs mailto:sage [01/11/18 13:04.net] >>82 >> 77 じゃ、充実してないじゃん
84 名前:名無しさん@Emacs mailto:sage [01/11/19 00:45.net] どうせ焼く時は使わない
85 名前:名無しさん@お腹いっぱい。 [01/12/03 07:38.net] あげます、あげます
86 名前:名無しさん@お腹いっぱい。 [01/12/08 08:12.net] お前ら、最近どうですか?
87 名前:名無しさん@お腹いっぱい。 [01/12/08 09:57.net] どの板も、途中でDLが止まってしまうのだよ。なんでだ??
88 名前:名無しさん@お腹いっぱい。 [01/12/08 16:50.net] >>81-82 Windowsでもハードリンク使えるみたい CreateHardLink これをMSDNかなんかでしらべれ Unixと全く関係ないが、サゲたら忘れそうなのでアゲ
89 名前:名無しさん@お腹いっぱい。 mailto:sage [01/12/08 17:22.net] FAT でどうやって hardlink 作るんだ?
90 名前:名無しさん@お腹いっぱい。 mailto:sage [01/12/08 17:24.net] 確か2000以降だっけかな、忘れた
91 名前:名無しさん@お腹いっぱい。 mailto:sage [01/12/08 17:25.net] NTFSならhard linkもsymbolic linkもできるよ。 あんまり使われてないのはFATだと使えないからかも。
92 名前:名無しさん@お腹いっぱい。 mailto:sage [01/12/08 20:07.net] symbolic linkをjunctionという、らしい。 ただこいつを使うと、WindowsのExplorerでさえ 摩訶不思議な挙動を示すことがあるというくらい、 ろくに使われてない機能。
93 名前:名無しさん@お腹いっぱい。 mailto:sage [01/12/09 18:33.net] 思いつきとしか思えない機能追加が多いからな。 だったら DOS のころから linkfile をサポートしといてほしい。
94 名前:名無しさん@お腹いっぱい。 mailto:sage [01/12/09 20:30.net] DOSでFATでもハードリンク作れるYO! ただし、chkdsk.exeにクロスリンクと言われてしまう、諸刃の剣。 素人にはお勧めできない。ってやつだ。
95 名前:名無しさん@お腹いっぱい。 [01/12/14 22:52.net] こえーーー
96 名前:名無しさん@お腹いっぱい。 mailto:sage [01/12/28 12:45.net] >>94 確かに間違いでは無いな(笑)
97 名前:名無しさん@お腹いっぱい。 mailto:age [02/01/03 22:48.net] age て みた
98 名前:名無しさん@お腹いっぱい。 [02/01/16 18:24.net] やっぱり前回履歴に対応して欲しいなぁ。 毎日cronで走らせたいヨ。
99 名前:名無しさん@お腹いっぱい。 mailto:sage [02/01/16 19:50.net] >>92 俺使ってる。でもあれってsymlinkというのは詐欺だろう。 join(DOS)とかFreeBSDのunion fs & mountみたいのと言った方が正確 かな。で、俺が見つけてる不具合は 1.Explorerやインストーラの空き容量計算がmountに対応できてないので、 インストーラで(空きがあっても)「ねーよ」と弾かれたりする 2.MoveFile() APIがmountを考慮してないので、src/destが同じドライブ 名だけど別ボリュームの場合、ファイル移動に失敗する(API直/cmd.exe Explorer全滅) だな。 一応どっちも回避方法があるし、従来アプリは1.に対応できんというのは 仕方がない所でもあるんだが、2.はどう考えても(仕様変更への)追従ミス。 # 同一ボリューム内の移動の場合、ディレクトリエントリだけの書き換え # で高速化してるんだが、同一ボリュームかどうかの判定にsrc/destの # ドライブ文字しか見てないという。アホ。
100 名前:名無しさん@お腹いっぱい。 [02/01/17 20:29.net] 100
101 名前:名無しさん@お腹いっぱい。 [02/01/17 20:52.net] ある板のある日の<a href="...">を一括表示してくれるようなサイトない? つくろうかな…。
102 名前:名無しさん@お腹いっぱい。 [02/01/17 21:41.net] >>101 作って!
103 名前:名無しさん@お腹いっぱい。 mailto:sage [02/01/18 09:50.net] >102 つくりはじめた。rawmodeを使おうかとも思ったけど、index.htmlをtidyでXHTMLに 変換してからXSLTで加工(XHTML to XML)して、XMLで日別にサーバ側に蓄積して、 CGIでXML選んでXSLTかまして(XML to HTML4)出力、みたいな感じにすることにした。 なんとなく。 とりあえず最初のXSLTまで書けましたわ。
104 名前:名無しさん@お腹いっぱい。 [02/01/21 06:03.net] age
105 名前:名無しさん@お腹いっぱい。 mailto:age [02/01/24 01:14.net] >103 すばらしいあげ
106 名前:101 [02/01/24 01:24.net] >>105 ども。マ板でもちょっと書いたんだけど、できました。 2ちゃんねるの 技術系/ニュース系 板の、URL流し読みサイト。 これ moso.borogrammers.net/newlin/ なんだけどどうかしら? 表示例↓ moso.borogrammers.net/newlin/read.cgi?board=news&yyyy=2002&mm=01&dd=23