1 名前:login:Penguin [2007/07/10(火) 23:17:13 ID:qGthZdME] UNIX板のスレを見ている方も多数おられるかと思いますが、 まあそれはそれとして、BASHウゼーとか言われる心配なく 平和にLINUX的スクリプト談義しましょうよ。 初めての自作スクリプト、自信ないから見てください。な初心者から トリッキーな技を駆使した作品を披露したい、蘊蓄を語りたい上級者まで いろいろな人に参加して頂けると嬉しいです。 perlやらPythonやらの話が混ざっても良いんでない? 【sed】シェルスクリプト総合@LINUX Part2【awk】 pc11.2ch.net/test/read.cgi/linux/1154578200/ pc8.2ch.net/test/read.cgi/linux/1121994321/ >>2-5 あたりに色々と。
101 名前:login:Penguin mailto:sage [2007/09/06(木) 08:15:09 ID:33eRwNa2] 指定されたディレクトリ以下にあるディレクトリ一覧を返してくれるコマンドはありませんか? /data/ をTOPディレクトリとしますと /data/hoge/ /data/piyo/ /data/moge/ 等が帰ってくるコマンドです。で、この際 /data/hoge/direc/ みたいに、TOPディレクトリの 孫ディレクトリ以下は返さないで欲しいんです。TOPディレクトリの子ディレクトリのみを 返して欲しいのです。そして for TARG in command; do 処理; done のように for文で1つ1つのディレクトリを処理したいのです。 それからもう1つ、指定されたディレクトリ以下の子ディレクトリの数を返すには ls -l /data/ | grep ^d | wc -l でいいのでしょうか?ディレクトリだと ls -l した時に必ず最初が dから始まるので これでディレクトリのみがマッチして、後はwcでその行数を数えればいいかと思っているのですが 今の所これでちゃんと動作していますが、不具合が発生するようなケースは想定されますか? ディレクトリの数も孫ディレクトリ以下は数えません(再帰処理しない)。 昨日 basename と言う便利なコマンドを知った程度のレベルの人間ですので awk や sed 等の難しいコマンドはなるべく使わずに実現したいのですが、出来ませんかねぇ? 宜しくお願い致します。
102 名前:login:Penguin mailto:sage [2007/09/06(木) 08:27:57 ID:QTrKtnCG] >>101 ls -d /data/*/
103 名前:login:Penguin mailto:sage [2007/09/06(木) 08:30:08 ID:QTrKtnCG] /data/.x/ とかも考慮したいなら find で。
104 名前:login:Penguin mailto:sage [2007/09/06(木) 08:31:55 ID:33eRwNa2] >>102 あっちゃー・・・・そんな簡単なコマンドでこんな素晴らしい出力が得られるんですか! LinuxのCUIって本当に高機能ですね・・・素晴らしいです。本当にありがとうございます。 ls -l /data/ | grep ^d | wc -l ってやるより ls -ld /data/*/ | grep ^d | wc -l ってやる方が良いのでしょうか?どんなファイルやディレクトリがあっても確実に動作するような 書き方をしたいのですが・・・。
105 名前:login:Penguin mailto:sage [2007/09/06(木) 08:32:01 ID:QFjDOBHf] 属性が見えて良ければ ls -d /data/*|grep "^d"
106 名前:login:Penguin mailto:sage [2007/09/06(木) 08:33:56 ID:QFjDOBHf] -l忘れてた
107 名前:login:Penguin mailto:sage [2007/09/06(木) 10:26:24 ID:QTrKtnCG] >>104 > ls -ld /data/*/ | grep ^d | wc -l なんで grep するんだ?
108 名前:login:Penguin mailto:sage [2007/09/06(木) 11:58:40 ID:rZQRUej8] ls -1d /data/*/ /data/.*/ /data/../ もヒットするのが難点だけどな。ってかあれだ。つ「man ls」
109 名前:login:Penguin mailto:sage [2007/09/06(木) 16:47:27 ID:40ywKZW4] >>101 求めてることが出来たのであればどんなコマンドでもいいけど find の使い方も知っておいたほうがいいと思う。 > 不具合が発生するようなケースは想定されますか? > ディレクトリだと ls -l した時に必ず最初が dから始まる ディレクトリへのシンボリックリンクがあった場合の扱いをどうするか。 さらに言えばリンクの対象がどこにあるか ln -s /data/A /data/B と ln -s /tmp/C /data/B の違いとか。
110 名前:login:Penguin mailto:sage [2007/09/06(木) 16:55:32 ID:QTrKtnCG] ls -Ap /data | grep /$ でよかったか。 >>109 > find の使い方も知っておいたほうがいいと思う。 同意。
111 名前:login:Penguin mailto:sage [2007/09/06(木) 17:08:55 ID:ZccH/OF/] なのに誰もfindを使った答を書かないのはなんでだw 101への課題?
112 名前:login:Penguin mailto:sage [2007/09/06(木) 20:00:39 ID:QTrKtnCG] >>111 それもあるし、単にめんどうだし。
113 名前:login:Penguin mailto:sage [2007/09/07(金) 11:30:33 ID:BZSReuYl] んじゃ、俺の回答に採点してくれ find /data -type d -maxdepth 1
114 名前:109 mailto:sage [2007/09/07(金) 17:14:59 ID:NgwMB5/h] >>113 二ヶ所で減点。 1) find の出力に TOPディレクトリ(/data 自身)も含まれてる。 >>101 を読むとTOPディレクトリそのものは不要だと思う。 2) GNU find version 4.2.27 だと -maxdepth の位置で warning が出た。 find: warning: you have specified the -maxdepth option after a non-option argument -type, but options are not positional (-maxdepth affects tests specified before it as well as those specified after it). Please specify options before other arguments.
115 名前:login:Penguin mailto:sage [2007/09/07(金) 17:35:19 ID:BZSReuYl] >>114 なるほど。非常に参考になった。 模範解答を頼む。
116 名前:login:Penguin mailto:sage [2007/09/07(金) 17:39:52 ID:aiZtBudz] >>115 もう一回自分で書いてみたら?
117 名前:login:Penguin mailto:sage [2007/09/07(金) 19:24:55 ID:Txvf/Wl4] find /data -mindepth 1 -maxdepth 1 -type d -exec ... shopt -s nullglob for i in /data/{,.{[!.],.?}}*/ do ... こんなんでいかが
118 名前:login:Penguin mailto:sage [2007/09/07(金) 19:45:52 ID:ezpNZgi5] cat hoge | awk に似ている。
119 名前:login:Penguin mailto:sage [2007/09/07(金) 20:30:25 ID:BZSReuYl] >>116 OK。これでどうだ? find /home/* -maxdepth 0 -type d
120 名前:login:Penguin mailto:sage [2007/09/08(土) 04:46:18 ID:WlyFgm6n] >>117 でもう答え出てるじゃん。 >>119 /home/.xxx/ とかが出ない。 * 使うなら find 使う意味ない。
121 名前:login:Penguin mailto:sage [2007/09/08(土) 14:42:47 ID:vllGfkN4] >120 >* 使うなら find 使う意味ない。 上下別々の回答なんじゃないの?
122 名前:login:Penguin mailto:sage [2007/09/11(火) 03:08:21 ID:997sWGjJ] bashrc の書き方もこのスレでいいですか?
123 名前:login:Penguin mailto:sage [2007/09/12(水) 11:40:47 ID:EatE1MlG] #!/bin/sh -f ls *.dat > list.txt なぜか走らん。
124 名前:login:Penguin mailto:sage [2007/09/12(水) 17:16:53 ID:A49nKXNq] >>123 子プロセスとして(?)起動するシェルに -f が渡らないんだと思う。 /bin/sh -f hoge.sh とか あらかじめ /bin/sh -f で起動したシェルで ./hoge.sh みたいにすると -f が有効になる。
125 名前:login:Penguin mailto:sage [2007/09/12(水) 17:21:21 ID:EatE1MlG] >>124 エラーで *.dat: ファイルもディレクトリもありません とでる ワイルドカードが原因かと思ったけど、hoge*でも同様のエラー シェルにしたら走らず、コマンドラインで直接投げたら走る なんでだろ
126 名前:124 mailto:sage [2007/09/12(水) 17:27:12 ID:A49nKXNq] >>125 /bin/sh -f の -f がどんな意味かわかってる? あと、シェルとシェルスクリプトはちゃんと区別したほうがいい。
127 名前:login:Penguin mailto:sage [2007/09/12(水) 17:33:44 ID:EatE1MlG] !/bin/cshで走ったわ コンソールがcshだった
128 名前:login:Penguin [2007/09/12(水) 20:01:20 ID:9HkBr7tD] 複数のpasswdファイル(passwd_A、passwd_B)を結合して、同じユーザ名があった場合 passwd_Aのものだけを残すというようなことをしたいのですがどうすればよいでしょうか?
129 名前:login:Penguin [2007/09/12(水) 20:12:55 ID:nfcPR4Gc] いったんファイルを結合する 一行ずつ上から順に読んでパスワードファイルに書き込む 書き込んだらそのユーザー名を別ファイルに書き出す その別ファイルにユーザー名がないことを確認してから パスワードファイルに書き込めばよい
130 名前:login:Penguin mailto:sage [2007/09/12(水) 22:19:22 ID:qqfxe9V8] while read t ;do if [ "`grep ^${t%%:*}: passwd_A`" ];then continue else echo $t >>passwd_A fi done <passwd_B
131 名前:login:Penguin mailto:sage [2007/09/12(水) 22:53:21 ID:SML918nz] んだば awk で。 awk -F: '{ t[$1] = $0; } END { for (e in t) print t[e]; }' passwd_B passwd_A
132 名前:login:Penguin mailto:sage [2007/09/12(水) 23:49:46 ID:lhLTsTba] awk -F: '!($1 in t){print;t[$1]=1;}' passwd_A passwd_B
133 名前:login:Penguin [2007/09/13(木) 21:53:28 ID:8j1+julM] aaa.txtの中身 20070109,170000,170000,167000,170000,4 20070110,168000,168000,168000,168000,10 20070115,171000,171000,163000,169000,500 を 2007/01/09,170000,170000,167000,170000 2007/01/10,168000,168000,168000,168000 2007/01/15,171000,171000,163000,169000 のように YYYY/MM/DDと表示を変更する 最後の,からあとを削除してbbb.txtとして出力したいと思っています どのようにすればいいものでしょうか 4文字目と5文字目の間に/を挿入するということがsedでできなくて悩んでおります よろしくお願いいたします
134 名前:login:Penguin mailto:sage [2007/09/13(木) 22:06:02 ID:OVx1tSlg] cat /tmp/aaa.txt | gawk -F, '{printf("%04d/%02d/%02d,%s,%s,%s,%s\n", substr($0,1,4),substr($0,5,2),substr($0,7,2),$2,$3,$4,$5)}' > bbb.txt
135 名前:login:Penguin mailto:sage [2007/09/13(木) 22:08:03 ID:G9V8Phhb] \(\)でグルーピング、\{\}でマッチする回数の指定。 グルーピングしたパターンは後で\1,\2で参照出来る。 \を忘れるなよ。
136 名前:login:Penguin mailto:sage [2007/09/13(木) 22:09:20 ID:G9V8Phhb] あ、ごめん、>135はGNU sedの話
137 名前:login:Penguin mailto:sage [2007/09/13(木) 22:25:32 ID:8j1+julM] >>134 ありがとうございます gwakというのも勉強してみようと思います
138 名前:login:Penguin mailto:sage [2007/09/13(木) 22:52:13 ID:8j1+julM] >>134 manを見てみたら いろんなところで使用できそうです 本当にありがとう
139 名前:login:Penguin mailto:sage [2007/09/13(木) 23:24:02 ID:saILvvtf] >>134 catは要らんだろ。
140 名前:login:Penguin mailto:sage [2007/09/14(金) 00:50:00 ID:uh85VpLs] 正規表現も勉強した方がよろしいかと>>138
141 名前:login:Penguin mailto:sage [2007/09/14(金) 12:28:52 ID:hH9EcwDJ] ある XXX っていう名前を含んだプロセスを全て殺したい時、 ps aux | grep XXX | grep -v grep | awk '{print $2}' | kill ではだめなのに ps aux | grep XXX | grep -v grep | awk '{print $2}' | xargs kill ではOKなのはなぜですか?
142 名前:login:Penguin mailto:sage [2007/09/14(金) 12:34:24 ID:18sjQ9F0] >>141 kill って標準入力を受け付けないんじゃない。 ところで pkill XXX じゃだめなの?
143 名前:login:Penguin mailto:sage [2007/09/14(金) 12:37:30 ID:hH9EcwDJ] >>142 そうなのかなと思って for p in $(ps aux | grep XXX | grep -v grep | awk '{print $2}'); do kill "$p" done ってのもやってみたんですが、だめだったんですよ。
144 名前:login:Penguin mailto:sage [2007/09/14(金) 17:32:35 ID:Ney/3ygS] スクリプトでタイマー作れませんか? 一定間隔ごとに単純にコマンド出すだけじゃなくて 処理ごとに条件分岐してタイマーを止めたりコマンドが成功 するまで繰り返したりしたいのですが
145 名前:login:Penguin mailto:sage [2007/09/14(金) 20:21:33 ID:KxObz0sB] >>144 sleep使って、て程度で良いなら作れるような気しかしないんだけど、具体的にどうしたいのか書いたのが良いと思うぞ。
146 名前:login:Penguin mailto:sage [2007/09/14(金) 20:32:43 ID:RM0kquC+] >>144 どこまで出来たの?
147 名前:login:Penguin mailto:sage [2007/09/14(金) 23:57:41 ID:XHXILi6a] >>143 だめってどうダメだったのかわからんと。 for p in $(ps aux | grep smbd | grep -v grep | awk '{print $2}'); do "kill "$p" done これでやったらちゃんと動いたよ。スクリプトの問題じゃなくて 単に権限がなくてkillできなかっただけでは?
148 名前:login:Penguin mailto:sage [2007/09/15(土) 16:55:13 ID:/cIKvz/T] >>147 さっきやってみたら出来た。。。 間違って mplayer を40個くらい起動してしまって、そこでそのスクリプトを 叩いたつもりだったんだけど、焦ってなんか間違ってたのかもしれない。 とりあえず今度からは xargs のほうを使うようにするよ。
149 名前:login:Penguin mailto:sage [2007/09/15(土) 17:28:32 ID:YiwEKkpX] いやだからpkill使えって
150 名前:login:Penguin mailto:sage [2007/09/15(土) 17:49:23 ID:X+i1f7J3] command | command みたいな 例 cat hoge.txt | grep piyo 書き方があるじゃないですか? cat hoge.txt で出力される標準出力をパイプかませて その出力内容に対して grep piyo をかける と言うような。 これと xargs ってコマンドがあるじゃないですか?その違いがよく分からないのですが・・。 cat hoge.txt | xargs grep piyo みたいな?
151 名前:login:Penguin mailto:sage [2007/09/15(土) 18:13:14 ID:YiwEKkpX] 「cat hoge.txt | xargs grep piyo」=「grep piyo `cat hoge.txt`」
152 名前:login:Penguin mailto:sage [2007/09/15(土) 18:42:58 ID:X+i1f7J3] >>151 ほぉほぉ・・・・ cat hoge.txt | xargs grep piyo が grep piyo `cat hoge.txt` と同じならば cat hoge.txt | grep piyo は grep piyo hoge.txt ん?なんか混乱してきた・・・イマイチはっきりと分からない・・・
153 名前:login:Penguin mailto:sage [2007/09/15(土) 19:03:27 ID:8eNJORpc] argっていうぐらいだから引数に展開してくれるのだろ その場合hoge.txtの中身はファイル名でないとだめ
154 名前:login:Penguin mailto:sage [2007/09/15(土) 19:15:07 ID:jJyNjt7I] もう分かってるかもしれないけど、xargsは標準入力をコマンドライン引数に変換するだけ。 echo 'file1 file2 hoge' | xargs rm ↓ rm file1 file2 hoge
155 名前:login:Penguin mailto:sage [2007/09/15(土) 19:47:59 ID:X+i1f7J3] むぅ・・・ echo `file1 file2 hoge` | xargs rm が rm file1 file2 hoge となるならば echo `file1 file2 hoge` | rm は どう展開されるんですか? すみません、ほんと頭弱くて。
156 名前:login:Penguin mailto:sage [2007/09/15(土) 19:51:39 ID:YiwEKkpX] 引数と標準入出力の区別がまだついてなくて、全部「入力」として ごちゃまぜの段階でしょ?まずそれを考えてみるんだ>155
157 名前:login:Penguin mailto:sage [2007/09/15(土) 23:18:03 ID:+DsxitZ3] >>154 の echo 'file1 file2 hoge' | xargs rm >>155 の echo `file1 file2 hoge` | xargs rm どこが違うか理解してからにしろ
158 名前:login:Penguin mailto:sage [2007/09/15(土) 23:25:38 ID:PpA5ThvC] こんな初歩の初歩みたいなことに、どうしてそんなに高飛車になれるんだ。
159 名前:login:Penguin mailto:sage [2007/09/16(日) 01:01:56 ID:S5o7UTSR] 初歩の初歩は自力で身に付けてから来てくれよ。
160 名前:login:Penguin mailto:sage [2007/09/16(日) 01:06:18 ID:BSYCrrV+] タコタコ
161 名前:login:Penguin mailto:sage [2007/09/17(月) 04:16:34 ID:nqz563FT] convmv -r -f sjis -t utf-8 * --notest で、再帰的にカレントディレクトリ以下のファイル、ディレクトリ全てに対して sjisからutf-8に変換をかけるコマンドを打ったのですが、sjisとeuc-jpが混在していて convmvの仕様だと 1ファイルでも -f で指定した文字コード以外の文字コードのファイルが 存在した場合はそこで全ての変換処理が実行されなくなってしまいます。 違う文字コードの場合は除外して残りを全て処理してくれるオプションは無いかとman convmv を読んで見ましたが、無いようです。 仕方が無いので、これをシェルスクリプトで実現したいと思います。 実際にやりたいコマンドは convmv -r -f sjis -t utf-8 /data/* --notest で、これで変換できないファイルは convmv -r -f euc-jp -t utf-8 /data/* --notest で、全てのeuc-jpとsjisをutf-8にする事です。 for TARG in `find /data | nkf -w8` do convmv -f sjis -t utf-8 ${TARG} --notest convmv -f euc-jp -t utf-8 ${TARG} --notest done これで、sjisのファイルだろうがeuc-jpのファイルだろうが必ずutf-8になると思われますが いけると思いますか? | nkf -w8 をかませているのは、こうしないとターミナルで見た限りだと 文字化けしたファイル名でそのまま表示されるので、これだと多分ファイルにアクセスできないだろう との配慮から、ちゃんとしたファイル名で見えるようにしたつもりです。
162 名前:login:Penguin mailto:sage [2007/09/17(月) 08:49:52 ID:hnYIly1T] >>161 qkc最強伝説
163 名前:login:Penguin mailto:sage [2007/09/17(月) 11:57:35 ID:nqz563FT] >>162 hp.vector.co.jp/authors/VA000501/ これですよね? しかしこれはconvmvとは全く別物のようです。 convmv => ファイル"名"の文字コードを変換する ←私はコレが必要 qkc => テキストファイルの"中身"の文字コードを変換する ←これは違う・・・ なので使えないみたいです。 ちなみに >>161 で書いたスクリプトを実際に動かしてみた所、LinuxサーバのCPU使用率が 100%になって固まっちゃいました。無限ループをしているかファイル名取得に失敗しているか よく分かりませんがダメでしたOTL
164 名前:login:Penguin mailto:sage [2007/09/17(月) 12:18:44 ID:CDwJTqgj] よくわからんのだが、nkf -gで文字コードの判別してやりゃ良いんじゃねぇの?
165 名前:login:Penguin mailto:sage [2007/09/17(月) 12:56:16 ID:RA5G8Fdp] while ! convmv -f sjis -t utf-8 -r /data --notest ; do convmv -f euc-jp -t utf-8 -r /data --notest done なんか、どうよ? 文字コード判定がいまいちなのか誤認してくれたりするので --notest とって、ざっと眺めてからやる事を推奨。
166 名前:login:Penguin mailto:sage [2007/09/17(月) 13:00:08 ID:85s13mgP] --notest 外して試してみればーじゃん。
167 名前:login:Penguin mailto:sage [2007/09/17(月) 13:21:00 ID:hplwR1nR] echo $RANDOM で結果に乱数を返したいんですけど、 0〜9までの一桁の結果のみ返したい場合の指定方法とかってありますか?
168 名前:login:Penguin mailto:sage [2007/09/17(月) 13:53:15 ID:MlIRuyKv] $RANDOM % 10
169 名前:login:Penguin mailto:sage [2007/09/17(月) 15:09:07 ID:nqz563FT] >>164 nkf はファイル"名"ではなくて、ファイルの"中身"についての文字コードを 調べるんですよね?テキストファイルに対して実行するとShift-JISと言う出力が得られ、 .exeファイル等に実行すると Binary と表示されました。 なので、これは全く別物です。 >>165 おお・・・ それはつまり convmv -f sjis -t utf-8 -r /data --notest で、元ファイルがsjisじゃなかったときは元ファイルがeuc-jpとして処理を繰り返すんですね。 しかしその場合、仮に1つでも元ファイルがsjisだった場合は?と言うか・・・ それ実行してみたのですが、無限ループに陥りました。何度も同じファイルを判定して これsjisじゃないよ〜って帰ってきます。 よくよく考えると -r /data で既に再帰的に繰り返す処理なのに、それをさらにwhileでループさせて いるんですよね。二重ループ状態ですか。 while ! convmv -f sjis -t utf-8 -r /data --notest ; do これで、とりあえず convmv -f sjis -t utf-8 -r /data --notest が実行される →実行された時に1つでも違うファイルが存在していてエラー →convmv -f euc-jp -t utf-8 -r /data --notest が実行される →実行された時に1つでも違うファイルが存在していてエラー またconvmv -f sjis -t utf-8 -r /data --notest が、最初にエラーで止まったファイルも含んで 最初から実行される>当然また同じファイルでエラーを起こす>convmv -f euc-jp -t utf-8 -r /data --notest が また実行されてまたこれも最初から処理してしまう>これを永遠に繰り返して無限ループに陥る。 ダメみたいですOTL >>166 --notestはずして試してみてますが、エラーで弾かれます。
170 名前:login:Penguin mailto:sage [2007/09/17(月) 15:30:26 ID:kUn2DAgf] >>169 いや、ファイル名のコードをnkfで調べりゃいいじゃん、てことだったんだけど。
171 名前:login:Penguin mailto:sage [2007/09/17(月) 15:35:55 ID:kUn2DAgf] 念のため。 for T in `ls ~` do C=`echo "$T" | nkf -g` echo $T,$C done ファイル名の文字コードを調べてると思うんだが。
172 名前:login:Penguin mailto:sage [2007/09/17(月) 16:38:42 ID:nqz563FT] >>170-171 違うと思うなぁ・・・。 >>171 のスクリプト実行してみたけど これは ls ~ で表示されるファイル名リスト全体、、、そうだなぁ、、例えば a.txt b.mp3 c.tar d.gz e.tar.gz とか日本語も含むファイル名全てが列挙されると思うけど、それらのファイル名リスト 全体を1つのテキストファイルとみなして、テキストファイルの中身(つまりファイル名が列挙されてる) に対して文字コード変換をかけた結果を echo で出力しているんじゃないですか? だからnkf は ファイル"名"の文字コードを調べるんじゃなくて、あくまでもテキストファイルの中身 の文字コードを調べるんだと思いますが。それこそqkcみたいな動作? convmvは全くそれとは性格が異なる物だと思いますが、、非常にこの辺ややこしい・・・。
173 名前:login:Penguin mailto:sage [2007/09/17(月) 16:45:55 ID:8vN1DPCo] なんでこんなに全然わかってないのに自信満々なのだろうか
174 名前:login:Penguin mailto:sage [2007/09/17(月) 16:47:06 ID:rlyHM/pf] >>161 >>164 の意見を採用して書いてみた。 for を while に変えたのは俺の趣味。 find /data | while read TARG ; do File=$( nkf -g <<< "$TARG" ) case "$File" in Shift_JIS*) Code=sjis ;; EUC-JP*) Code=euc-jp ;; UTF-8*) continue ;; esac echo "$File: Convert to $Code" ## お好みで convmv -f "$Code" -t utf-8 "$TARG" --notest done ファイル名程度の短い文字列だと nkf の文字コード判定の 精度はあまりよくないが、やらないよりはマシだろう。
175 名前:login:Penguin mailto:sage [2007/09/17(月) 16:52:30 ID:HxbR0j5A] 文字コードが違うファイル名が混在しているディレクトリって。 どうしてそうなったかが気になる
176 名前:login:Penguin mailto:sage [2007/09/17(月) 16:55:54 ID:4XOwAbVo] ローカルで作ってSambaで作ってWebDAVあたりで作ってとやってしまうと 起きるな?>混在。 後はデータ中の文字列を元にファイルを作ったりすると、うっかり 混在状態になったり。
177 名前:login:Penguin mailto:sage [2007/09/17(月) 17:22:02 ID:kUn2DAgf] >>172 >>173 と同意なんだが、想像の斜め上な方向に理解してるのね。と理解。 なして>>171 を実行してみた上で>>172 になるのかわからん。。。 つまり、>>172 としては、「a.txt あ.txt い.txt」の3つのファイルがあると、 a.txt, ASCII あ.txt,UTF-8(とか) い.txt,EUC-JP(とか) てならず、 a.txt,BINARY あ.txt,BINARY い.txt,BINARY となった、てこと? >>174 半角カナ使ってなけりゃ、それなりの精度なんじゃねぇかと思うんだけど、どうだろ。
178 名前:login:Penguin mailto:sage [2007/09/17(月) 17:29:26 ID:kUn2DAgf] >半角カナ使ってなけりゃ、〜 ↑勘違い。すま。
179 名前:login:Penguin mailto:sage [2007/09/17(月) 19:31:50 ID:nqz563FT] >>173 すみませんOTL。 >>174 そのスクリプト動かしてみたのたですが、 echo ${File}を加えて確認した所 ほとんどのファイルが ASCII と出力されていて、少しだけ Shift-JISという出力が得られました。 って事は?Shift-JISとASCIIが混在しているという事でしょうか? と言うかそもそもASCIIっていったいどういう・・? euc-jp sjis utf-8 の3種類しか基本的には知らなくていいと思っていたのですが、4つ目の文字コード も混在している(というよりeuc-jpのファイルは存在しなくてsjisとASCIIの2つが混在?)と言う事でしょうか。 と言うか convmv --list してみたら asciiってあるし・・・・。 >>176 そうそう、さらにFTPも混ざったりssh + rsyncとかでファイル持ってきたりすると もう今ぐちゃぐちゃになってて、UTF-8に統一したいんですよ。。。 >>177 .txtの拡張子のファイルは BINARYはでません。 ん?って事は nkf -g ではファイル"名"の文字コードを判別しているって事ですか? で、その出力がASCIIとShift-JIS、その他としてはBINARYの3種類の状態(だと思う)の場合は convmv -f ascii -t utf-8 convmv -f sjis -t utf-8 でそれぞれ変換かければいいのかな・・・。なんか難しすぎて頭痛くなってきたOTL。 でもなんか全面的に私が間違っていた感じがするので、その点については皆様方には 大変ご迷惑をお掛けしておりまして申し訳ありません。
180 名前:login:Penguin mailto:sage [2007/09/17(月) 20:51:38 ID:kUn2DAgf] >>179 なんていうか、なぁ。 ASCIIってのは日本語使ってなけりゃASCIIだわな。ちと語弊あるけど。「a.txt」とか。 で、オレの>>177 で示したのは、>>174 をオレ解釈したところ、 「a.txt」と「(UTF-8な)あ.txt」と「(EUC-JPな)い.txt」が混在してると、いっしょくたになったのが コード判別にかかって、結局コード判別できなくって「BINARY」って判別されるってことか? と。 オレの説明わかり難かったとは思うけどな。 でもってnkf -gだが、たんに「入力された」のの文字コード体系を調べるだけであって、それが 「ファイルの中身」なのか「ファイル名」なのかは、どっちを指定、てか、nkfに入力したか、て 違いだけ。わかる? ついでに日本語のファイル名がShift-JISだけなら、SJIS→UTF8に変換指定するだけでokやな。 そんなわけで、まちっと勉強しれ。
181 名前:login:Penguin mailto:sage [2007/09/17(月) 21:22:34 ID:rlyHM/pf] >>179 ああ、そういや ASCII を忘れてた。w 解説は >>180 を見てもらうとして、 それを踏まえて >>174 を改良すると、こんな感じかな。 後は自分で調べてみな。 find /data | while read TARG ; do File=$( nkf -g <<< "$TARG" ) case "$File" in Shift_JIS*) Code='sjis' ;; EUC-JP*) Code='euc-jp' ;; ISO-2022-JP*) Code='iso-2022-jp' ;; ASCII*|UTF-8*) echo "$TARG: $File"; continue ;; *) echo "$TARG: $File: Not supported format."; continue ;; esac echo "$File: Convert from $Code to UTF-8." ## お好みで convmv -f "$Code" -t utf-8 "$TARG" --notest done >>180 > 「a.txt」と「(UTF-8な)あ.txt」と「(EUC-JPな)い.txt」が混在してると 判定はファイルごとに行うからこれで「BINARY」にはならないはず。 「(UTF-8)あ(EUC-JP)い.txt」とか、複数の文字コードで構成された ファイル名だと誤判定と言うか、期待通りにはならないと思う。 こういうのもきちんと判定したいのなら ack がお勧め。 こんなファイル名に出くわす事はまずないだろうけどな。w
182 名前:login:Penguin mailto:sage [2007/09/17(月) 22:20:42 ID:nqz563FT] >>180 なるほど、英数字だけの場合はASCIIなんですね・・。 では、 a.txt(ASCIIですよね) を convmv -f ascii -t utf-8 a.txt --notest なんて有り得ないわけですよねぇ。 BINARYって判別されたのは 例えば vncviewer.exe とかのファイルです。バイナリファイルだし。。。 この結果を見て私は vncviewer.exe と言うファイル名自体は英数字のみなので ASCIIかと 思いますが、しかしvncviewer.exeのファイルの"中身"はBINARYなので、nkf ってのは ファイルの中身を見てコードを判別して返してくれるんだなぁと思った次第です。 (nkf がファイル"名"を見て返してくれるのなら vncviewer.exeはBINARYではなくASCIIで かえって来ないといけないからです。) でも nkf に対して何を入力するかによって 返してくるものは違うんですね。ファイル"名"をnkfに入力すればファイル"名"のコードが帰ってくるし ファイルの内容を入力すればファイルの内容のコードが帰ってくると。 >>181 度々具体的なスクリプトを示して頂いて本当にありがとうございます。 しかしですね・・・よくエラーを見てみると no such file or directory が帰ってきてるんですよね・・・。 つまり find /data をした結果、文字化けしたファイル名が返ってくるわけじゃないですか。 その文字化けしたファイル名の場合、そのファイルにはアクセスする事が出来ないですよね。 文字化けしたファイルに唯一アクセスする手段があるとすれば、それは "*" を使う事ですよね。 だから for や while で1ファイルずつ処理するっていう最初のアイディア自体がそもそも不可能 だったと言う事に今更ながら気づきました。ほんと文字化け問題って大変ですね・・。 "*"を使うと言っても find /data/* だと結局1ファイルずつ文字化けしたものが帰ってくるので ダメっぽいです。 convmv に 直接 * を渡す必要があるみたいで、そうすると混在している場合に 全く処理をしてくれなくて結局ダメと。。。参ったなぁ・・・OTL。 それと1つシェルスクリプトスレなのでお聞きしておきたいのですが File=$( nkf -g <<< "$TARG" ) ←これなんですが、 <<< って何ですか?普通 < か << ですよね。 <<<は初めて
183 名前:165 mailto:sage [2007/09/17(月) 22:30:38 ID:RA5G8Fdp] >>169 エラーの起こる直前までは変換してくれるのかと思ってた。 いらぬ時間をとらせてすまねぇ。 んで(w)、また懲りずに考えてみたんだが、nkf使うんだったら find work/ -type f -exec sh -c 'FN="`dirname \"{}\"`"/"`basename \"{}\" | nkf -w`"; [ -f "$FN" ] || mv -v "`echo \"{}\"`" "$FN"' \; とかいかが? ディレクトリ含まれてないんだけど、含むと末端からやらないといけないからシェルスクリプトでやるのは面倒くさそうだなァ、と思って逃げたw
184 名前:login:Penguin mailto:sage [2007/09/17(月) 23:04:07 ID:nqz563FT] >>183 うぐぅ・・・・ そのfind 以下のスクリプト難しすぎて私には何をどうしているのかさっぱり分かりませんです。。 awkとか正規表現とかそこら辺全然知らないので、なんかそれっぽいコードに見えて読めないOTL。 ディレクトリを含まないって言うのも問題ですねぇ・・・。 例えばですが hoge.txt と piyo/ っていうディレクトリが存在していて、それぞれのファイル名 もしくはディレクトリ名の文字コードを知りたい場合はnkfではどのようにコマンド入力したらいいんですか? ls -d piyo/ | nkf -g nkf -g < hoge.txt nkf -g | `ls -d piyo/` nkf -g <<< hoge.txt 等など色々試してみましたが、文字コードが見えませんでした。 # convmv ももう少し気を利かせて --force オプションなんて作ってくれて処理できないファイルは スキップして処理可能なファイルだけ全部処理するみたいな機能盛り込んでくれてれば助かったんだけどなぁ・・・。
185 名前:login:Penguin mailto:sage [2007/09/17(月) 23:10:07 ID:kLzbccVO] 無理してシェルで書くより perl かなんかで書いちゃった方が早い気がする。
186 名前:login:Penguin [2007/09/17(月) 23:26:23 ID:hplwR1nR] すいません、いろいろやってみたけど出来ないので教えてください。 aaaa,bbbb,cccc,"hoge,hoge",ddd,eee,ffff みたいなCSVが有ります。 ※カンマがある列は必ず「""」で括られています。 # cut -d, -f 4 とかでカンマが含まれる行を出力しようとすると 結果に「"hoge」とのみ出力されてしまいます。 本当は「"hoge,hoge"」が出力されてほしいのです。 「"hoge,hoge"」の出力結果を得るためにはどの様にすれば良いですか? 自分的には、 sedコマンドでいったんワークファイルwor.csvなどに「"hoge\,hoge"」と エスケープシーケンスを追加してからcutコマンドを実行すればうまく行くような気がしているのですが、 sedをどのように記述して良いのかすら解りません(泣) どなたか教えてください。。。。
187 名前:login:Penguin mailto:sage [2007/09/17(月) 23:42:08 ID:kUn2DAgf] 実は混在なんかしてない、ていうことはないのんか? もしくはかなり偏っている。 なら、ある程度手作業でその他一括、のが楽かも知れん。
188 名前:login:Penguin mailto:sage [2007/09/17(月) 23:45:48 ID:msAJx7Dr] 結局カンマ関係なしに""で括られたのが欲しいんじゃねぇのか?
189 名前:login:Penguin mailto:sage [2007/09/18(火) 00:04:13 ID:hplwR1nR] 186です。 >>187 1000行近くのCSVファイルで確実に混在しています。 例えば、↓↓↓みたいな行です。 (「US」の後ろにカンマがありますよね?) 75,0,,,-,,-,"LOG3\.0.*123456 .....5.*\(US, 21\): NOTICE:.*",,,,,,,AAAA,BBB,"TEST",WARN,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,1,,,,1,,,,,,,,,,,,,,,,,,,75 この行から特定の列だけ抜き出し&抜き出しした列を引数にコマンドを実行しています。 >>188 そんなことないです。 実際には初期値の列も多いので。
190 名前:login:Penguin mailto:sage [2007/09/18(火) 00:16:17 ID:u/C4qzX6] >>182 read に -r オプションつけたらどう? 旧) find /data | while read TARG ; do 新) find /data | while read -r TARG ; do ^^^ > File=$( nkf -g <<< "$TARG" ) ←これなんですが man bash のヒア・ストリングス (Here Strings) の項を参照。
191 名前:login:Penguin mailto:sage [2007/09/18(火) 00:35:05 ID:u/C4qzX6] >>189 う〜ん、難しいね。 クォートされたエントリが一行に一つだけなら ↓で取り出すことはできるけど。 sed '/"/ s/.*\(".*"\).*/\1/' 俺なら一度 csv を Excel に放り込んでから 特定の列を抜き出すかな。w
192 名前:login:Penguin mailto:sage [2007/09/18(火) 02:15:13 ID:AGCqK3mV] sed -n 's/\(\("[^"]*"\)\|\([^,]*\)\)\(,\|$\)/\n\1\n/4;s/[^\n]*\n//;P' sedでやってみた。
193 名前:login:Penguin mailto:sage [2007/09/18(火) 07:39:01 ID:+nqx9VGy] 186です。 ありがとうございます。 191,192を実行してみたんですけど、正しく表示されませんでした(泣)
194 名前:login:Penguin mailto:sage [2007/09/18(火) 12:30:11 ID:Gq30BMp3] >>186 センス悪いけどこんなのでよければ #!/usr/bin/gawk -f BEGIN{n=ARGV[1];ARGV[1]=""} function parse(s,c,f,i,j,k){ while(1){c=substr(s,i,1);if(c=="")return;else if(c=="\"")f=(f>0)?0:1 else if(c==","&&f==0){array[k++]=substr(s,j,i-j);j=i+1}i++;}} {parse($0);print array[n]}
195 名前:192 mailto:sage [2007/09/18(火) 18:40:20 ID:AGCqK3mV] /^o^\懽ッ懽懽懽セ懽」懽セ懽 自分の環境では、186と189は上手くいってるぽいんだが。 例えば、189は192の4の所を8にすれば "LOG3\.0.*123456 .....5.*\(US, 21\): NOTICE:.*" って出るし、15にすれば AAAA と、出る。 sedのバージョンと実データがどんなのか知りたい所。
196 名前:login:Penguin mailto:sage [2007/09/18(火) 18:48:06 ID:mMDRvNP8] >>195 スマソが懽の隣の文字のフォントが無いのだが E3 5E って表示になってる
197 名前:login:Penguin mailto:sage [2007/09/18(火) 19:09:24 ID:AGCqK3mV] 半角カナで書いたら化けた模様w
198 名前:login:Penguin mailto:sage [2007/09/18(火) 21:50:07 ID:En+WDn3C] bashでスクリプトと組んでいる途中でつまづいてしまいました ~/tmp/ 以下にあるファイルすべてに対してファイル変換したいのです(例 aaaaa ⇒ aaaaa.txt) ~/tmp/aaaaa ~/tmp/bbbbb : ~/tmp/nnnnn ============= cd ~/tmp/ ls_result1=`ls` for list1 in $ls_result1 do #便宜上 (変換コマンド) (変換前) (変換後) とします (変換コマンド) ~/tmp/$(list1) ~/tmp/tmp/$(list1).txt ←listの使い方が間違っているのだと思います done ============= list1 not found というエラーがたくさん出てきてしまい困っております。 ~/tmp/ 以下にあるファイル名をそのまま使いたいので、どなたかご教授ください。
199 名前:login:Penguin mailto:sage [2007/09/18(火) 22:05:47 ID:9R+Y1frn] >>198 ×(変換コマンド) ~/tmp/$(list1) ~/tmp/tmp/$(list1).txt ○(変換コマンド) ~/tmp/${list1} ~/tmp/tmp/${list1}.txt
200 名前:198 mailto:sage [2007/09/18(火) 22:15:47 ID:En+WDn3C] >>199 できました♪ ありがとうございました m(_ _)m