正規表現 Part6 - 暇つぶし2ch

正規表現 Part6 ..

75:デフォルトの名無しさん
09/05/31 17:18:03
よろしくお願いします。

現在Yahoo!pipes（URLﾘﾝｸ(pipes.yahoo.com)）を使っているのですが、
pipesの中でデータをURLエンコードしたいと思っています。
そのような機能はないので、正規表現(マニュアルによるとPerlライク)でやろうと思っているのですが、
Perlの関数を使えないのでunpackを使うやり方ができません。

純粋な正規表現のみでURLエンコードはできるものなのでしょうか。
修飾子として使えるのは「gsmi」のみです。

76:デフォルトの名無しさん
09/05/31 17:32:16
＞純粋な正規表現のみでURLエンコード
正規表現を利用してなら可能だろうだけど、正規表現のみじゃ無理
なんつーかノリも必要なペーパークラフトをハサミだけで作れって感じだ
URLっていう型紙からデータを切り抜くだけでどうやってURLエンコードを組み立てるよ

77:デフォルトの名無しさん
09/05/31 17:34:11
/\x00/%00/g
/\x01/%01/g
…
/\xFF/%FF/g

78:デフォルトの名無しさん
09/05/31 17:46:46
>>76
ですよね・・・

>>77
うおっ！

79:デフォルトの名無しさん
09/05/31 18:05:44
>>77
それやると % と 0-F の文字が置換されないか？

80:デフォルトの名無しさん
09/05/31 18:21:31
深く考えずに書いたネタにマジレスされても困るんだが、本気でこのアプローチを採用するなら、
0-9A-Fは置換する必要ないし、%を一番頭に持ってくればいい。

81:デフォルトの名無しさん
09/06/06 19:31:17
行頭から6文字目までをマッチさせるにはどう記述したらよいでしょうか？

82:デフォルトの名無しさん
09/06/06 20:29:36
^.{6}

83:デフォルトの名無しさん
09/06/06 21:22:45
>>82
助かりましたありがとうございます

84:デフォルトの名無しさん
09/06/08 23:24:52
FlashのActionScript3.0（WinXP-Pro）です。

文字列中で特定の文字列のみに色付けをしようとしていますが、目的の文字列
以外でも色が付き困っています。

例えば、『名無し』という文字列のみを青色にしようとすると、独立した文字列
　名無し
はOKなのですが、「デフォルトの名無しさん」でも『名無し』が青色になってしまい
ます。

A名無しB　という場合（前または後ろに不要な文字がある場合、つまり他の文字列
に組み込まれた場合）は対象から外し、単独の場合のみを対象したく思っています。

これに適した正規表現はありますでしょうか？

85:デフォルトの名無しさん
09/06/08 23:43:22
^名無し$

86:デフォルトの名無しさん
09/06/09 00:22:19
>>85
有難うございます。しかしながら、質問が不十分でした。
確かに独立した文字列は許可したいのすが、それ以外に　A名無しB　で
AまたはBが
１）　半角のスペースの場合
２）　半角の左括弧　（　の場合
３）　改行の場合
４）　ピリオドの場合

に名無しを青色にしたく思っています。
当初、キャラクターコードとif文で分岐しようとしましたが煩雑になったので
正規表現を利用しようと思いました。

こんな場合はどうでしょうか？

87:デフォルトの名無しさん
09/06/09 12:48:17
不特定の半角英数字と半角記号でできている半角文字列の中から (' ') に挟まれた数列だけを残して他を削除したいのですが方法はないでしょうか

例）
234hbhkltgfokdlthL+POL+PL>?*|{?('54653');
の中から54653だけを取り出し他を削除

※不特定文字列内において、　('　や　')　は取り出す予定の数列を挟む場所以外では現れません

PHP

88:デフォルトの名無しさん
09/06/09 13:17:17
('...') は複数出現するのかな？一応それを考慮して

$a = preg_replace('/(?:(?!$\').)*(?:\(\'(\d+)\'$)?/', '$1', $a);

89:87
09/06/09 13:47:46
>>88
ありがとうございます
('nnn')は1カ所しか出てきません
自分で応用できないかやってみたんですがムリでしたｗ
1カ所しかでてこないバージョンを教えてくださいｗ

90:デフォルトの名無しさん
09/06/09 15:43:57
PHPの書式は分からないけど、
$'(.+)'$
で検索して、後方参照で\1だけ残せば良いんじゃない？

91:デフォルトの名無しさん
09/06/10 10:57:23
> 　$'(.+)'$
Vサインしてるクマたんみたいでかわいい

92:デフォルトの名無しさん
09/06/10 11:32:12
submatchでグループ化したものを抜き出せば良いんでない？

93:デフォルトの名無しさん
09/06/10 13:39:54
(V)o￥o(V) フォッフォッフォ

94:デフォルトの名無しさん
09/06/13 08:14:41
（a+b) - (b - c)

みたいな文字があって
()の中をそれぞれ取り出したい場合

(.*)ってやると
一番最初の(と最後の)でも一致してしまう
させたくないんだけどどうすればいいの？

環境はVB.NET

95:デフォルトの名無しさん
09/06/13 09:05:24
>>94
特殊な意味を持つ文字は\でエスケープする

$[^)]*$ かな

96:デフォルトの名無しさん
09/06/13 09:14:48
>>94
VB.NETはよく知らんが、大体「.*」ってやると「よくばり」モードになるぞ。
「よくばり」モードはその例の場合だと途中の括弧も飲み込んじゃって、
目一杯取ってくるから、「.*?」ってやるといい。
「?」をつけると「けちけち」モードになって、必要最小限しか取ってこない。

97:デフォルトの名無しさん
09/06/13 09:55:28
>>94
最短一致でググるといいぜ

98:デフォルトの名無しさん
09/06/13 11:46:17
非欲張り、という表現が一般的じゃないかと思うのだが。

99:デフォルトの名無しさん
09/06/13 11:55:08
正しさはともかく一般的なのは「最短一致」

"最短一致" に一致する日本語のページ約 2,610 件
"非欲張り" に一致する日本語のページ約 373 件

100:デフォルトの名無しさん
09/06/13 14:21:42
欲張りマッチの事、貪欲マッチと呼ばない？

101:デフォルトの名無しさん
09/06/14 00:00:57
>>95で出来た
ついでにもう１つ
英数字の連続が５文字以上を一致させたい場合はどうすれば？

102:デフォルトの名無しさん
09/06/14 00:38:39
礼の一つも言えんのか

103:デフォルトの名無しさん
09/06/14 08:52:01
\w{5,}

104:デフォルトの名無しさん
09/06/14 16:57:22
>>95さんありがとう
連続文字は自己解決した
{}の中身を{10}ってやると１０文字以上という意味らしい
サンプルだと{10,20}みたいにしか書いてなかったから

105:デフォルトの名無しさん
09/06/14 17:11:29
カンマ忘れてるぞ

106:デフォルトの名無しさん
09/06/14 18:09:05
>>104
>>103さんが回答出してるのを無視して自己解決も何もなかろう。

107:デフォルトの名無しさん
09/06/14 21:01:48
無視したからこそ自己解決なのではないかと。

という混ぜ返しはさておき、
"\w" は（一般的な実装だと）アンダースコアも拾うけどいいのかな。

108:デフォルトの名無しさん
09/06/15 12:15:03
アンカ間違ってるだけで>>103を参考に解決したけど
全面採用じゃなかったから自己解決とかぬかしてるだけでは

109:デフォルトの名無しさん
09/06/15 12:48:38
ちがうな、恐らくは>102を受けて、「ありがとう」と書いたのだろう。
好意的に解釈すれば、>103を見る前に自己解決したのかも知れん。

110:デフォルトの名無しさん
09/06/22 11:09:00
C#です
Match match = new Regex("AAA.+?BBB").Match(html);
としてAAAとBBBの間の文字列を抽出したいのですがなぜかできません

Match match = new Regex("AAA").Match(html);
Match match = new Regex("BBB").Match(html);
この二つはうまくいくのですが正規表現の書き方おかしいですか？
ちなみにAAAとBBBはhtmlタグです

111:デフォルトの名無しさん
09/06/22 11:28:41
.+? って、1回以上の繰り返しが、あるかないか、という意味を意図してると思うんだけど、
そういう複合はできない。
0回以上の繰り返し .* でマッチさせる。

112:デフォルトの名無しさん
09/06/22 12:03:01
>>111
> .+? って、1回以上の繰り返しが、あるかないか、という意味を意図してると思う
じゃなくて最短一致だろ

113:デフォルトの名無しさん
09/06/22 12:09:27
最短一致です
("AAA".+?"BBB")は実際には
(<div id=\"comments\" style=\"margin-left:6px;margin-top:6px;\">.+?<button id=\"load_comment_button\"")
こんな感じです

114:デフォルトの名無しさん
09/06/22 12:09:34
それだと、 . が改行にマッチしない事は理解してる？

115:デフォルトの名無しさん
09/06/22 12:11:26
>>113訂正

("AAA.+?BBB")
("<div id=\"comments\" style=\"margin-left:6px;margin-top:6px;\">.+?<button id=\"load_comment_button\"")
こうです

116:デフォルトの名無しさん
09/06/22 12:15:40
>>114
そうなんですか！？
どう書き換えればよいでしょうか

117:デフォルトの名無しさん
09/06/22 12:17:44
RegexOptions.Singleline

111はどういう環境を想定してるんだろうね。

118:デフォルトの名無しさん
09/06/22 12:25:48
>>117
できました！ありがとうございました

119:デフォルトの名無しさん
09/06/24 14:14:00
●正規表現の使用環境
AutoHotkey 1.0.48.03 (Perl 5互換のPCRE)
URLﾘﾝｸ(lukewarm.s101.xrea.com)

●検索か置換か？
置換

●説明
""で囲われている箇所以外の行末コメントを除去したい。

●対象データ
key = value ; ccomment
key = "val ;lue" ; comment

●希望する結果
key = value
key = "val ;lue"

m`n)[\t ]+;.*(?=$) で無差別除去まではできたんですが後方参照とか条件分岐の方法ががわからず。
key value comment 部はそれぞれ日本語の文字が入る可能性もあるんですが
AutoHotkeyのPCRE自体は2バイト文字が考慮されません(なので[:word:]とかは使えない状態です)
よろしくお願いします。

120:デフォルトの名無しさん
09/06/26 11:50:32
単純な正規表現は分かるのですが、これはどうすればよいでしょうか？

●正規表現の使用環境
PHP4

●検索か置換か？
置換

●説明
<del>タグにはさまれた任意の文字列を、文字数ぶん●で伏せ字にしたい。

●対象データ
昨日は<del>上戸さん</del>と飲みに行ったが、<del>17,000</del>円も奢らされてしまった。

●希望する結果
昨日は<del>●●●●</del>と飲みに行ったが、<del>●●●●●●</del>円も奢らされてしまった。

121:デフォルトの名無しさん
09/06/26 12:04:54
>>120
preg_replace_callback使え。

122:デフォルトの名無しさん
09/06/26 13:13:30
>>121
そんな便利な関数があったとは、、。
ありがとうございました！

function toFuseji($matches) {
return $matches[1] . preg_replace("/./u", '●', $matches[2]) . $matches[3];
}

preg_replace_callback("/(<del>)(.+)(</del>)/", 'toFuseji', $str);

123:デフォルトの名無しさん
09/06/26 22:30:17
●正規表現の使用環境
C#2008 Regex.IsMatch

●検索か置換か？
一応検索

●説明
特定の文字列以外があるかをチェックしたい
SQLの話も混じりますが、要はSELECT文の後に
更新や変更するような命令があるかをチェックしたい
のです。
UPDATEとかそれぞれを書いていくのは漏れるかも
しれないのでSELECT、FROM、WHEREあたりを除いて
マッチさせるにはどう書いたらいいでしょうか。
試した文
^SELECT (?!.* [A-Z](?!ELECT |ROM |HERE ))

●対象データと望する結果
マッチさせたい "SELECT * FROM AAA [UPDATE]"
マッチしたくない "SELECT * FROM AAA UPDATE"

124:デフォルトの名無しさん
09/06/26 22:52:35
何らかの処理系なら、else節で処理しちゃう手もある。

125:デフォルトの名無しさん
09/06/28 15:21:44
>>123
念のため聞くけど…
まさかこれってSQLインジェクションの対処のためにやってるんじゃないよね？

126:デフォルトの名無しさん
09/06/28 19:03:21
『id059385,,』のように、固定文字列idの後にランダムな数列、その後ろにカンマがふたつ格納された変数から、最後のカンマをひとつだけ取り除きたいのですが、
for文で回ってる途中まれに同一変数に『,,,』のようにカンマが3つ連続して出てくることがあり、その場合は取り除きたくないので
原始的に(",,",",",$変数)のようなことができません
あくまで、固定文字列id、その後に数列、その後にカンマふたつという状況でのみカンマひとつ取り除く方法はないでしょうか

PHP5

127:デフォルトの名無しさん
09/06/28 19:35:50
最後に2つある時だけ取りたいならこうするかな
preg_replace('/(?<!,),,$/', ',', 'id059385,,');

128:デフォルトの名無しさん
09/06/28 19:43:04
>>119
これ難しいね。
excelなら、Instrrev使えばすぐだけど、正規表現だとどうやるんだろ。

129:デフォルトの名無しさん
09/06/29 15:35:58
>>119
Perlならこれでいけるっぽいけど、どうかな。だめかな

s/((?:[^;]*?".*?")*[^;]*)(?:.*?$)?/$1/mg

130:デフォルトの名無しさん
09/06/29 18:07:37
'"' 自体のエスケープはどうなっているのかと、 Shift_JIS への対応が気になるかな。

131:デフォルトの名無しさん
09/06/29 22:27:07
使用環境 WSH 検索
対象データ ^AAA(BBB(CCC)(ddd)))(FFF)(GGG)$

文末の、括弧記号を含まず括弧で囲われたものが連続しているもの
を検索したいけど挙動が違います。

1) /(?:$[^(]+?$)+$/ 検索結果→ (CCC)(ddd)))(FFF)(GGG)
2) /(?:$[^)]+?$)+$/ 検索結果→ (FFF)(GGG)

欲しい結果は2の方です。
文末の$を指定した時は通常とは逆に文末から左へ一文字づつ検索していると考えていいんですか？

132:デフォルトの名無しさん
09/06/30 11:23:57
>>131
そりゃ前から読んでもそうなるだろ

＞$[^(]+?$
「括弧の間に開き括弧を含まないもの」だから"(ddd)))"にもマッチする

＞「括弧記号を含まず」「括弧で囲われたものが」「連続しているもの」
/(?:$[^()]+?$){2,}/

133:デフォルトの名無しさん
09/06/30 11:24:38
「文末の」を見落としたスマン

134:デフォルトの名無しさん
09/06/30 11:51:09
> 文末の$を指定した時は通常とは逆に文末から左へ一文字づつ検索していると考えていいんですか？

そういう動作はしない。

135:デフォルトの名無しさん
09/06/30 12:48:16
/unko$/
は
/unko\r\n/
と同等と考えればわかりやすいだろう
（厳密には違うけど）

136:デフォルトの名無しさん
09/06/30 23:16:49
>>128-129
レスありがとうございます。
お礼が遅くてすみません。週末からリロードし忘れてました。

質問後自分なりに頭捻って、((".*?")|;.*(?=$)) , $2 とか無理やりやってたんですが
>129さんのでいけました。特に (?: )の使い方が参考になります。ありがとうございます。

今回の件とは直接関係ないんですが、除外文字列の表記がよくわからずいつも悩みます。
今回の例でいうとコメント文字列が「;」ではなく「 ;」(半角スペース+セミコロン)だった場合とか
(?:(".*?")|[\t ]+;.*(?=$)) , $1 みたいな方法で弾くしかないのかな。

137:デフォルトの名無しさん
09/07/01 00:15:50
いや、普通にそっちのほうがシンプルでいいよ
なんであんなに複雑い書いたのかマジ俺イミフ。しにてえ

138:デフォルトの名無しさん
09/07/01 23:41:47
.NETの話なんだけど
URLﾘﾝｸ(msdn.microsoft.com)(VS.80).aspx#BalancingGroupDefinitionExample
この例の正規表現がどうして <> の入れ子構造にマッチするのか上の解説読んでもよく分からないので誰か分かりやすく説明してください
「name2 グループと現在のグループの間隔をグループ name1 に格納します。」って文があるけど
この「name2 グループと現在のグループの間隔」っていうのはリンク先の例で言うとどこからどこまでなのかとか
格納するっていうのがつまりどういうことなのか、って言うレベルでさっぱり理解できてない・・・
最後の "(?(Open)(?!))$" にいたっては自分の中で暗号と化してるorz

139:デフォルトの名無しさん
09/07/02 03:33:28
わかりやすくは多分無理だな。

Openでカウントが増える。
Close-Open でそのそのカウントが減る。

んで、開きと閉じのアングルブラケットの数がバランスしていればカウントは0になるので

"(?(Open)(?!))$";

の条件が (?!) ではなくなる。
この(?!) というのは要するに何にもマッチしないもの。

140:123
09/07/03 21:01:48
>>124
うまく書けなかったので要素に区切ってチェックすることにしました。
>>125
SQLインジェクションって知らなかったけど、悪意のある入力の
チェックって感じかな？
入力文字はSQL文が前提で、そこまで重い意味合いのチェック
ではありませんでした。
SQLインジェクション対策って普通Regex.Escapeを通すのかな？

141:デフォルトの名無しさん
09/07/03 21:07:18
言語によるが、DB系のライブラリにバインディング機能があれば普通はそれを使う。
自作のお手製ライブラリはやめた方がいい。
DBによって攻撃の仕方が違うし、
よく知ってる人が作っていろんな人が使ってるやつの方がやっぱり圧倒的に安全。
詳しくはそれっぽいスレで聞いてくれ。

142:デフォルトの名無しさん
09/07/03 21:16:14
>>140
何のためにそんなことをしたいのか分からないが、
ユーザにSQLクエリを入力させて実行させたい、とかいう話なら、
クエリ式に対してチェックをするのではなくて、
データベースの更新が出来ないような権限でクエリを実行すべき。

143:123
09/07/03 21:16:15
>>141
そうなんですか。調べてそっちの方向に変えてみます。
よく考えたらSQL文にRegex.Escapeなんて
なんの関係もなかった・・・。

144:123
09/07/03 21:20:04
>>143
権限で～ってのは思ってたんですが、触れない事情がありまして。
普通はそうなんですね。
スレ違いになってきたのでこの辺で終わっときます。
ありがとう。

145:デフォルトの名無しさん
09/07/04 21:44:21
●正規表現の使用環境
PHP ver 5.2

●検索か置換か？
置換

●説明
カッコ書きのある文章のカッコの中身を取得したい。
たとえば、
カッコ書き前(カッコ1(カッコ2(カッコ3)カッコ2後)カッコ1後)カッコ書き後
の文章に対して、後方参照で
arr[1] = カッコ書き前()カッコ書き後
arr[2] = カッコ1()カッコ1後
arr[3] = カッコ2()カッコ2後
arr[4] = カッコ3()カッコ3後
と言った感じで取得したい。

試した文
$preTxt = 'カッコ書き前(カッコ1(カッコ2(カッコ3)カッコ2後)カッコ1後)カッコ書き後';
$match = '/.*($.*$).*/';
preg_match("$match",$preTxt,$arr);
結果
[0]= カッコ書き前(カッコ1(カッコ2(カッコ3)カッコ2後)カッコ1後)カッコ書き後
[1]= (カッコ3)カッコ2後)カッコ1後)

●対象データと望する結果
上記記載

すみません。どなたかお願いします。

146:デフォルトの名無しさん
09/07/04 22:10:12
HTMLタグの中身を抜き出すのに近いね。
別の自作関数を作っておいて、

arr[1] = \1 & \7
arr[2] = \2 & \6
arr[3] = \3 & \5
arr[4] = \4

なんてのはどうかな。
もっとスマートな方法もあるかもしれないけど、今でもこれ使って動かしてます。

147:デフォルトの名無しさん
09/07/04 22:43:50
回答ありがとうございます。
でも、多分、俺って、あなたの思っている以上の馬鹿みたい。
全くもって、理解できないんですけど・・・・・・・。
もうちょっとわかりやすくしていただけると助かります。
って、馬鹿がわかりやすい解説って、わかってる人にはかなり難しいんだと思いますけど。
すみません。わがまま言って。

148:デフォルトの名無しさん
09/07/04 23:28:20
外側から攻めていって、カッコがなくなるまでループするとか
function foo($text) {
$kekka = Array();
$match = '/^(.*?)$(.*)$(.*)/';
while (preg_match($match, $text, $arr) > 0) {
array_push($kekka, $arr[1] . "()" . $arr[3]);
$text = $arr[2];
}
array_push($kekka, $text);
return $kekka;
}
$arr=foo('カッコ書き前(カッコ1(カッコ2(カッコ3)カッコ2後)カッコ1後)カッコ書き後');
print_r($arr);

149:デフォルトの名無しさん
09/07/05 12:38:53
ありがとうございます。
完璧です。
ほんとにありがとうございました。！！

150:デフォルトの名無しさん
09/07/05 12:56:11
なるほど、賢いなぁ

151:デフォルトの名無しさん
09/07/05 14:24:31
147は138かな?

もうちょっと努力して説明してみるから少し待ってね。

152:デフォルトの名無しさん
09/07/05 15:21:42
147は145 で PHP5、.NET の138とは別の人、だと思うけど。

153:デフォルトの名無しさん
09/07/05 16:48:27
>>139,151
138です、レス遅れてすみません
自分で試しつつなんとか(?<name1>p1)+(.*)(?<name1-name2>p2)+ という表記なら
(p2にマッチした回数 - 1) 個だけ name1とname2のキャプチャを取り出して
(.*)の両端にくっ付けていく（ただし取り出すキャプチャの最大数は (p1にマッチした回数-1) 個）のかな
という感じで理解し始めてますが・・・

それと?(Open) という書き方は ? と () までも含めて、Openを文字列リテラルとしてではなく
（既に同じパターンのより先頭部分で定義されている）Openという部分パターンの
グループ名だということを示すための表記法なんでしょうか？
こっちは試し方も良く分かりません・・・

154:151
09/07/06 03:10:01
(?'Open'<)
というのは、named caputure でこの場合は < を Open という名前で捕獲するもの。
この場合は捕獲自体には意味はなくて裏で増やしているカウンタが重要。そして
(?'Close-Open'>)
この部分で Open のカウンタを1減らしている。< と > の数が同じであれば、
(?(Open)(?!))
まで来た時点で Openの値は0になっているはず。

で、この表現なんだけど (? (Open) (?!) ) が、? に続く部分正規表現が「真」であれば (?!) を
マッチの条件にするというプログラミング言語の if ～ then ～みたいなもの。

解説は
URLﾘﾝｸ(msdn.microsoft.com)(VS.80).aspx
にある。

そして Open が0でない==バランスが取れていなければ (?!) のチェックを
するのだけど、これは前回も書いたように絶対にマッチに失敗するというパターン
なので、全体を通してみるとバランスが取れていればマッチ成功。
そうでなければ失敗。という次第。

155:デフォルトの名無しさん
09/07/10 10:33:02
オライリーの「詳説正規表現第3版」を読んで疑問に思ったので質問します。

5章にある「IPアドレスへのマッチ」で、0から255の数字にマッチする正規表現のサンプルがありますが
　[01]?\d\d?|2[0-4]\d|25[0-5]

これだと、最初の選択で [01]? がオプションなので、たとえば "999" が "99" に
マッチしてしまうような気がするのですが、問題はないのでしょうか。
よろしくお願いします。

156:デフォルトの名無しさん
09/07/10 10:43:53
その後で、
　^([01]?\d\d?|2[0-4]\d|25[0-5])\. (中略) \.([01]?\d\d?|2[0-4]\d|25[0-5])$
として前後の境界を指定して利用してるから問題ないんじゃないの？

数字だけを取り出したいのであれば、例えば、
　\b([01]?\d\d?|2[0-4]\d|25[0-5])\b
みたいに前後を指定する必要があるよね。

って、そういう話ではなくて？

157:デフォルトの名無しさん
09/07/10 10:49:11
>>156
あぁ、すみません。
たしかに ^ $ で境界を指定すれば問題ありませんね。
部分式ばかり考えていて見えませんでした。

ありがとうございます。

158:デフォルトの名無しさん
09/07/22 01:41:17
これ教えてーーーーー

●正規表現の使用環境
VB.NET

●検索か置換か？
検索

●説明
タグの外の文字列を順に取得したい

●対象データ
<html1><html2>AAA<html3>BBB<html4><html5>CCC<html6>DDD<html7>
だったり
<html1>AAA<html2>BBB<html3><html4><html5><html6>CCC<html7>DDD

●希望する結果

ｒ = New Regex("(?<1>.+?)(?<2>.+?)(?<3>.+?)(?<4>.+?)" ←今こんな感じ

Console.WriteLine(m.Groups(1).Value)
で結果　AAA
Console.WriteLine(m.Groups(2).Value)
で結果　BBB
Console.WriteLine(m.Groups(3).Value)
で結果　CCC
Console.WriteLine(m.Groups(4).Value)
で結果　DDD

159:デフォルトの名無しさん
09/07/22 02:48:28
>>158
Match()一発じゃなくてMatches()で地道にいっこずつ切り出してみた。もっといい方法はあるかもしれん

Dim r As Regex = New Regex("(?:<.*?>)+(.+?)(?=<|$)")
Dim s As String = "<html1><html2>AAA<html3>BBB<html4><html5>CCC<html6>DDD<html7>"
For Each m As Match In r.Matches(s)
　　Console.WriteLine("{0}", m.Groups(1).Value)
Next

160:デフォルトの名無しさん
09/07/26 09:55:51
正規表現、特にNFAって計算量が大きいので
実用上、30～40文字ぐらいが限界だったように記憶してるのですが
NFAとDFAでの計算量ってO表記でどのぐらいでしたっけ？
wikiにそういう情報のせといて欲しい・・

161:デフォルトの名無しさん
09/07/26 10:56:30
PHPのpreg(perl互換)の話なのですけど、
/(?<=<div>)(.*?)(?=<\/div>)/is
はエラーにならなくて
/(?<=<div[^>]*>)(.*?)(?=<\/div>)/is
がエラーになる理由が分からないのですが、
なぜなのでしょうか

162:デフォルトの名無しさん
09/07/26 10:59:13
なぜと言われても・・・そう設計してあるから、としか言いようがないな

163:デフォルトの名無しさん
09/07/26 11:01:24
>>2 の「正規表現メモ」の　(?<=pattern)　の解説には

　　固定長の文字列に対してのみ働きます(処理系による。可変長の文字列を許可する処理系もあります

と書いてある。つまりそういうことだ。

164:デフォルトの名無しさん
09/07/26 11:06:41
なるほど。これは固定長のみでしたか。
ありがとうございます。
別のルートから正規表現の方法を探す事にします。

165:デフォルトの名無しさん
09/07/26 17:28:23

/(?<=<div[^>]{0,99}>)(.*?)(?=<\/div>)/is

可変長は無理でもこの書き方({0,99})がOKな処理系もあるから試してみろ

166:デフォルトの名無しさん
09/07/27 09:08:56
>>160
DFAの計算量は自明でしょ。
NFAはパターンとテキストによって違うから一概には言えないんじゃないかな。

167:デフォルトの名無しさん
09/07/27 12:33:41
適当なことばっかり言うのはやめてください

168:デフォルトの名無しさん
09/07/27 13:29:38
セルフでコンプリートすればパーフェクトですよ

169:デフォルトの名無しさん
09/07/28 16:26:27
マッチする判定じゃなくて
正規表現書いたらそれを満たす全ての文字列を生成する
プログラムを書くのは難しいですか？

170:デフォルトの名無しさん
09/07/28 16:33:47
^.*$

171:デフォルトの名無しさん
09/07/28 16:35:25
正規表現によっては終わらない可能性があるわけだな

172:デフォルトの名無しさん
09/07/28 16:37:23
>>170
それをやると遅延評価的に必要な分だけ垂れ流すんです

173:デフォルトの名無しさん
09/07/28 16:37:58
文字数限定すればできることはできる
指定字数の全ての組み合わせの文字列をその正規表現にマッチさせて
成功したものだけをリストアップすればいい

速度的にどれだけ実用になるかは不明
最適化するとなると論文レベル

174:デフォルトの名無しさん
09/07/28 16:40:11
フィルターにかけるのではなく
初めから有効な物しか生成しないものとします

175:デフォルトの名無しさん
09/07/28 16:42:08
>>174
よし、正規表現をパースすることから始めよう。

176:デフォルトの名無しさん
09/07/28 16:42:44
等価な有限オートマトンをバックトラックしながらしらみつぶしに探索するような
プログラムを書けばできそうだな。

177:デフォルトの名無しさん
09/07/28 16:56:58
数学的に可能ですか？
僕が心配してるのは５次以上のｎ次方程式の一般解
を探そうとしていやしないかという事です

178:デフォルトの名無しさん
09/07/28 17:00:53
取り敢えずオートマトンを学ぶに適した良書を紹介して下さい

179:デフォルトの名無しさん
09/07/28 17:12:42
> 正規表現書いたらそれを満たす全ての文字列を生成する

> それをやると遅延評価的に必要な分だけ垂れ流すんです

> 初めから有効な物しか生成しないものとします

> 取り敢えずオートマトンを学ぶに適した良書を紹介して下さい

何をしたいんだよ？お前は。
とりあえず学校の宿題なら自分でやれ。それか自分で調べろ

180:デフォルトの名無しさん
09/07/28 17:33:48
ごめんなさい＞＜

181:デフォルトの名無しさん
09/07/28 17:46:04
>>179
とりあえずかの有名なこれでいいんじゃねーの?

URLﾘﾝｸ(www.saiensu.co.jp)
URLﾘﾝｸ(www.saiensu.co.jp)

182:デフォルトの名無しさん
09/07/28 17:52:14
>>181
あり＾＾

183:亀
09/07/29 13:06:01
聞くのもどうかと思ったんですが調べても解決しなかったので、聞きたいのですが
『正規表現の定義』ってなんですか？

184:デフォルトの名無しさん
09/07/29 13:11:58
ほんとに調べたのか？

185:デフォルトの名無しさん
09/07/29 13:18:50
文字列一致確認用プログラミング言語

186:デフォルトの名無しさん
09/07/29 13:19:32
>>183
アルファベットΣ上の正規表現とは、
- 空集合 0
- Σ の要素 c
- r, s が正規表現のとき r + s
- r, s が正規表現のとき rs
- r が正規表現のとき r*
のいずれか。

187:デフォルトの名無しさん
09/07/29 13:23:42
>>186
宿題は自分でやらせろよ。

188:末吉
09/07/29 14:16:10
>>186
183は定義を聞いてるんだろ？？

189:デフォルトの名無しさん
09/07/29 15:17:02
定義じゃん

190:デフォルトの名無しさん
09/07/29 15:56:14
>>188

ここの「形式言語理論における正規表現」を見ろ

Wikipedia項目ﾘﾝｸ

191:デフォルトの名無しさん
09/07/29 16:05:59
見るなら正規言語だろう。
Wikipedia項目ﾘﾝｸ

192:デフォルトの名無しさん
09/07/29 16:46:52
正規言語と正規表現は本質的には同じだけど違うものだし

193:デフォルトの名無しさん
09/07/29 17:11:51
>>181は激しく良書なので啓蒙しとく

大学のオートマトンのテキストがひどかったので
この本は難しいだろうと思ってずっと敬遠してたが
これはとてもわかりやすかった
予備知識もほとんどいらない
(最初のほうは背理法だとか数学的帰納法のレベルから解説)

厳密な定義がちゃんと書いてあるが
それに先だって具体例をあげて説明がある

ただ、この本を読んでも>>169の実装に直接には役立たないかもしれない
(0+1)*1(0+1)+(0+1)*1(0+1)(0+1)のような正規表現を簡約して
より計算しやすい正規表現に変換する
といった最適化なら正規表現の代数的性質の章でちょろっと学べる

194:１６９
09/07/29 19:37:54
直接役には立たなくても正規表ゲニストを目指す僕は
正規表ゲニスト名乗っててオートマトンも知らんのかと
馬鹿にされるのは嫌なのでオートマトニストにもなります＞＜

195:デフォルトの名無しさん
09/07/29 19:59:04
もういいから消えろよ

196:デフォルトの名無しさん
09/07/29 23:55:35
aaa/bbb/ccc
aaa/bbb/ddd
aaa/ccc/eee
　　・
　　・
　　・

上のような文字列があって正規表現での検索時間(grepとか)を速くしたいと思っていますが、
高速化するために正規表現の合成？みたいなことができるようなライブラリってありますでしょうか？

検索したい文字列のリストはだいたい１行が３０～４０文字程度で１００行～２００行ほど
検索対象はファイルサイズで400Mbyte～6Gbyteぐらいです。

197:デフォルトの名無しさん
09/07/30 00:09:32
質問をもっと推敲しろ

198:デフォルトの名無しさん
09/07/30 00:10:30
必要ない行はgrepで飛ばして読めばおｋ

199:デフォルトの名無しさん
09/07/30 00:13:49
grepパイプでつなげば十分なんじゃね？

200:デフォルトの名無しさん
09/07/30 00:46:05
パイプって言いたかっただけやんｗｗｗ

201:デフォルトの名無しさん
09/07/30 03:14:06
>>199
せめて -e を並べるか -f だろー。

202:デフォルトの名無しさん
09/07/30 09:14:17
fgrep使うのが正解

203:デフォルトの名無しさん
09/07/30 12:45:55
いつから言葉遊びをするスレになったのですか？

204:デフォルトの名無しさん
09/07/30 14:47:20
正規表現は秀丸でちょこっと\n\n\nとか^[a-z]くらいをいじっただけの初心者なのに、
Javaで、JavaのDecimalFormat用文字列を
Excelの数値フォーマット定義文字列に変換するフィルターを作ってます。
『他の人にやらせりゃいいのに…まあ調べればわかるやろ…』と思って始めましたが、
案の定、いきなり引っかかりました。www

1)引用符'を引用符"に変換する正規表現(ただし連続''は'自体を表すので"にしない)
2)''に囲まれていない浮動小数点EをE+に ([0#])(E)([0#])を\1E+\3に

なお、変換は単一の正規表現で行う必要はなく、
順序依存のある複数の置換をかけてもOKです。
ただしできれば、各フィルターは常に全文に適用したいと思います。
(不要なフィルターも通過させる)

最悪、一部の変換結果を絶対にユーザが使わない予約語に変換して避けておく…
ということも可能だと思いますが…

正直、いきなり1)で引っかかったのにはガックリきました。
フィルター文字列定義をpropertiesで外出しにして
出荷後もサポートで変更・追加できるようにしないとマズイな…

205:204
09/07/30 14:56:08
作成中ソースの一部ですが、何をやりたいかは見当つくと思います。
これが論理的にダメダメと言うことはわかってます。

//////////////////////////////////
//シングルクォート囲みをダブルクォート囲みに

//'"'→\"
//まず引用符の中の"自体をエスケープする。\"
filter = new RegFilter("'\"'","\\\"");
filterlist.add(filter);

//シングルクォート囲みをダブルクォート囲みにする前に、
//連続''は'1個をあらわすので、"'"に変換してやる。
filter = new RegFilter("''","'");
filterlist.add(filter);

//シングルクォートをダブルクォートに変換してやる。
//ただしさっきのを除く必要がある。
filter = new RegFilter("[^']'","\"");
filterlist.add(filter);

//全フィルターを通す変換実行
sResult = executeFilters(sFormat, filterlist);

206:デフォルトの名無しさん
09/07/30 15:49:13
うん、わかるね

207:204
09/07/30 15:56:54
URLﾘﾝｸ(msdn.microsoft.com)にいいのがありますた。
1)は
(')([^']+)(')→\"\2\"
''→'
の2つでいけるかなぁ…

208:204
09/07/30 16:24:35
2)の浮動小数点EをE+にするのは、

引用符の中のEだけをEEに退避
([^']+)(')([^']+)(E)([^']+)(')([^']+)→\1\2\3EE\5\6\7
浮動小数点のEをE+に
(*.)([#0])(E)([#0])(*.)→\1\2E\+\4\5
退避したEEをEに戻す
(*.)(EE)(*.)→\1E\3

の3つで97%くらいは出来てるかなあ。
変換対象の最後が引用符のときに落としちゃうけど、まあ…

209:204
09/07/30 16:27:22
*と.が逆だった。

引用符の中のEだけをEEに退避
([^']+)(')([^']+)(E)([^']+)(')([^']+)→\1\2\3EE\5\6\7
浮動小数点のEをE+に
(.*)([#0])(E)([#0])(.*)→\1\2E\+\4\5
退避したEEをEに戻す
(.*)(EE)(.*)→\1E\3

210:204
09/07/30 16:40:36
最初から地にEEがあるとEになっちゃうか。
横着せずに引用符の中のEEだけをもどさないとだめだな。

211:デフォルトの名無しさん
09/07/30 19:06:52
ダブルクォートの中にカンマを含むフィールドのことを考えると
正規表現よりは文脈自由言語でパースしたほうが絶対にいい

212:204
09/07/31 10:43:27
かも知れないけど、開発の立ち上げ工数と、今後のメンテを考えるとなー。
(あまり入出力仕様は変わらないと思うが、日付フォーマット変換の追加がありうる)
正規表現ならそれなりに触れるエンジニアはいくらでもいるわけで。

また、必ずしも完璧に作る必要はなくて、
ユーザが業務で使うごく一般的なフォーマット文字列を通せれば後は制限事項でもいいし。
それをいえば、想定顧客に、浮動小数点使ってる人なんていないんじゃないかと思うけどね。。。

213:デフォルトの名無しさん
09/07/31 11:31:23
>>212
> 正規表現ならそれなりに触れるエンジニアはいくらでもいるわけで。

いねーだろ。どの口が言ってんだ？あん？

214:デフォルトの名無しさん
09/07/31 11:58:34
ていうかここって日記スレなのか？

215:デフォルトの名無しさん
09/07/31 12:16:24
正規表現はフィットする目的には早く書けるけど、保守性は悪いし実行
速度は遅いしで、まともなプロジェクトには使わないよ。

216:デフォルトの名無しさん
09/07/31 12:21:08
まともでないプログラマ乙

217:デフォルトの名無しさん
09/07/31 12:24:55
>>216
>>204 に回答してから言えよ。

218:デフォルトの名無しさん
09/07/31 12:27:31
言うほど保守性が悪いとも思わないし、実行速度も
用途に十分なら別にかまわんしなぁ。

むしろ正規表現使わずにだらだら書かれたほうが
見通しが悪くて遅い場合も多い。適材適所。

219:デフォルトの名無しさん
09/07/31 12:28:28
>>218
>>204 に回答してから言えよ。

220:デフォルトの名無しさん
09/07/31 12:33:32
>>219
問題がよくわかんないし、javaとexcelだしスルー。

221:デフォルトの名無しさん
09/07/31 12:37:46
そもそも便所の落書きに仕事を持ち込まれても知らんし。

222:デフォルトの名無しさん
09/07/31 13:14:57
>>212
正規表現で書かれたフィルタのバグ取りなんてぞっとする
ちゃんとした技術者なら、RFCにCSVのBNFがそのまま載ってるんだから
BNFの通りにコーディングすりゃ
テスト含めて1日で終わるよ

223:204
09/07/31 13:15:56
>>213
おっと確かに！居ないからこそ、漏れがやる羽目になっとるわけだがwww
（出来る人に空きが無いという理由もある）
しかしま、コトは相対比較で十分なんで。

>>221
まあねえ。ML探して加入して自己紹介して
過去ログ検索して質問投げるってのが本来なんだろうが。
でもURLﾘﾝｸ(www.rubular.com)とかでちょこちょこやるうちに
何とかなりそうな気がしてきた。

224:デフォルトの名無しさん
09/07/31 13:26:42
>>207
'''hoge' みたいなパターンがダメなのでは。

>>205 がよくわからんのだが、正規表現の変換処理のリスト (filterlist) を積んで、
executeFilters() でそれらを順番に逐次処理して適用する、ということ？
そんなん絶対うまくいかんと思うが。

225:デフォルトの名無しさん
09/07/31 13:43:19
絶対入力するなよ！絶対だぞ！絶対入れるなよ！
で切り抜けるんだろう

226:デフォルトの名無しさん
09/07/31 13:56:39
>>211
だよねー。

Java は良く知らないんだが、 JavaCC とか使えばスッキリ書けないのかね？

227:デフォルトの名無しさん
09/07/31 14:17:27
CSV扱うライブラリぐらいjavaにもありそうなもんだけどな。

228:デフォルトの名無しさん
09/07/31 16:40:25
Javaでも20行未満で書けるレベルの処理だろうに。

229:デフォルトの名無しさん
09/07/31 16:50:34
>>228
お前がそれをさっさと書かないからこのネタが延々と終わらんだろうが。

230:デフォルトの名無しさん
09/07/31 16:56:53
ライブラリあるの？

231:デフォルトの名無しさん
09/07/31 16:57:34
SuperCSVオススメ

232:デフォルトの名無しさん
09/07/31 18:02:03
>>228
期待age

233:デフォルトの名無しさん
09/08/01 04:17:10
それをここでやるのはスレ違い。

234:デフォルトの名無しさん
09/08/01 08:51:21
逃げる気か？

235:デフォルトの名無しさん
09/08/01 10:11:53
>>234
あんた馬鹿?

236:デフォルトの名無しさん
09/08/01 12:43:12
逃げやがったな。口だけ達者で、ほんとは何も出来ないヤツｗ

237:デフォルトの名無しさん
09/08/01 12:45:19
>>236
あんた馬鹿？

238:デフォルトの名無しさん
09/08/01 13:24:30
負け犬めガッ！一生逃げ回ってろ

239:デフォルトの名無しさん
09/08/01 13:29:08
なにこの粘着質

240:デフォルトの名無しさん
09/08/01 13:30:20
質問者でしょ。それ以外に利益のある人はいない

241:デフォルトの名無しさん
09/08/01 13:33:21
人生の敗北者！

242:デフォルトの名無しさん
09/08/01 13:44:54
質問者はもっと回答者に敬意を持って接しろ

243:デフォルトの名無しさん
09/08/01 14:01:48
愉快犯の荒らしだろ。放置推奨

244:デフォルトの名無しさん
09/08/01 23:44:50
228 名前：デフォルトの名無しさん[sage] 投稿日：2009/07/31(金) 16:40:25
　　Javaでも20行未満で書けるレベルの処理だろうに。

　　　　　↑
できもしないことを、いい加減に書くのは、質問者に対して失礼。
第三者も見ていて不愉快。
おまいこそ最悪の荒らし！

245:デフォルトの名無しさん
09/08/02 00:07:19
そんなに粘着する必要あるのかと。

>>228が無知で、何も知らずに発言しちゃっただけかも知れないんだぜ？
くだらないプライドを守っている暇があったら、勉強して技術向上して
人生をエンジョイした方が、オタク（というかハッカー精神）的に
意味のあるものになるんじゃないのかね？

246:デフォルトの名無しさん
09/08/02 00:26:43
なにしにきたんだよ　もう帰れよ

247:デフォルトの名無しさん
09/08/02 06:43:38
Javacに一行の文字数制限があったかどうかが
気になってしようがないわけだが。

248:デフォルトの名無しさん
09/08/02 11:29:02
無知で、何も知らないならレスしないでください。

249:デフォルトの名無しさん
09/08/02 11:42:35
そもそも 204って質問だったのか？
アドバイスが欲しいらしいのはわかるが、お願いします的なセリフは何も書いてないだろ
ウゼー独り言延々書き込んでるやつがいるなぁ位の認識だったんだが。

250:デフォルトの名無しさん
09/08/02 16:12:46
珍しく伸びていると思えばこれか

251:デフォルトの名無しさん
09/08/02 16:38:58
喧嘩嫌

252:デフォルトの名無しさん
09/08/02 16:54:39
＞お願いします的なセリフは何も書いてないだろ

ｗｗｗ
苦しい言い訳。
「お願いします」口調なら、「Javaでも20行未満で書けるレベルの処理」になるのかい？

253:デフォルトの名無しさん
09/08/02 16:59:48
まあ書いてやってもいいかな、くらいだけどな

254:デフォルトの名無しさん
09/08/02 23:12:00
>>253
中学生２年生かおまいは

255:デフォルトの名無しさん
09/08/03 05:00:11
中学生はジャポニカ学習帳でも焼いて食ってろ

256:デフォルトの名無しさん
09/08/03 07:08:27
中学二年生にだって天才はいるかもだろ
ニヤニヤと見守るのがベター

257:デフォルトの名無しさん
09/08/03 13:34:29
おっと～！自称「天才」中学２年生現る！

・・・で？２０行で書けないの？天才さんｗ

258:デフォルトの名無しさん
09/08/03 13:35:10
今なら３０行に負けてあげてもいいんだけど

259:デフォルトの名無しさん
09/08/03 19:18:18
マジキチ

260:デフォルトの名無しさん
09/08/03 19:21:17
土日は遊んでたので見てなかったがまだやってんのか。ヒマだね～

261:デフォルトの名無しさん
09/08/03 20:25:05
どうした？３０行でも不足か？
そっちが２０行と言ったから２０行なわけで。
べつに、４０行でも５０行でも構わんのだがな。

262:デフォルトの名無しさん
09/08/03 20:27:15
マジキチ

263:デフォルトの名無しさん
09/08/03 20:37:57
＞Javaでも20行未満で書けるレベルの処理だろうに。

こいつ、恥ずかしくなって逃げたのか。布団かぶって泣いてるのか？

264:デフォルトの名無しさん
09/08/03 20:43:09
マジキチ

265:デフォルトの名無しさん
09/08/03 23:36:06
なんだこの流れ
Javaよくわからんから20行が無茶ぶりなのかどうか知らんけど
一体何が夏厨の琴線に触れちゃったの？
質問者不在で誰も求めてないコード請求してもしょーがなくね？

266:デフォルトの名無しさん
09/08/03 23:43:39
生理の日かアレな人かどちらか

267:デフォルトの名無しさん
09/08/03 23:49:27
javaで２０行書くのに、いったい何日かかってんだよ。
速いとこコードを晒せ。それですべて解決する話だろ？

268:デフォルトの名無しさん
09/08/03 23:55:01
マジキチ

269:デフォルトの名無しさん
09/08/04 07:15:52
おはよう！１０行くらい書けた？まだかな？

270:デフォルトの名無しさん
09/08/04 07:38:06
酔っぱらいに絡まれた感じってこんなんだよな

271:デフォルトの名無しさん
09/08/04 08:03:12
schemeでCSVパーサを書いた
BNF通りのCSVの定義が19行、呼び出し8行、コンビネータパーサ80行

しかしよ、実はCSVのパースなんか全く関係なくて
問題はDecimalFormatのパースじゃねーか

URLﾘﾝｸ(sdc.sun.co.jp)
ここにBNFライクな仕様が載ってるから
これをパース後数値にして、コンマ/改行で区切って出力すりゃいい
楽をするならJParsec

272:デフォルトの名無しさん
09/08/04 08:29:37
Javaなら20行で書ける！

273:デフォルトの名無しさん
09/08/04 09:08:46
そもそも大抵の言語は1行にいくらでもつめられるからできて当たり前ww
pythonだと難しいかもな。

274:デフォルトの名無しさん
09/08/04 09:17:44
↑
世間を知らない井の中の蛙

275:204
09/08/04 09:41:26
土日は自宅プロバイダの書込制限ですまそ。現状はこんな感じ。網羅的テストはまだ。
エスケープ処理が多重にかかるのでちとわかりにくいかも。

引用符の外側を一撃で取れないので、
内側の退避と復旧手順が入って無駄に複雑になってます。
引用符のパースはjavaでかけるべきだったかな…

/**
* 正規表現パターン文字列と、置換文字列で1セット。上から順に解釈適用する。
*/
public static final String[][] FORMAT_FILTER_ARRAY = {
//////////////////////
//浮動小数点対応
//引用符の中のEだけをEEに退避
{"([^']+)(')([^']+)(E)([^']+)(')([^']+)", "$1$2$3EE$5$6$7"},
//浮動小数点のEをE+に
{"(.*)([#0])(E)([#0])(.*)", "$1$2E\\+$4$5"},
//退避したEEをEに戻す
{"([^']+)(')([^']+)(EE)([^']+)(')([^']+)", "$1$2$3E$5$6$7"},
//////////////////////
// シングルクォート囲みをダブルクォート囲みに
{"(')([^']+)(')", "\"$2\""},
{"''", "'"},
//////////////////////////////
//多重エスケープ対応
//
//多重にエスケープ処理が走るため。\1個でも\を出せるように倍にしておく。
{"\\\\", "\\\\\\\\"}
};

276:204
09/08/04 09:43:17
あと、変換対象データが整数の場合だけの処理も入れざるを得なくなった。
小数点を最後に残すExcelの仕様のせい。

/**
* 整数値の後ろの余分な小数点を削除する。
* ここでは引用符は"に、浮動小数点はE+に変換後なので注意。
*/
public static final String[][] DOT_FILTER_ARRAY = {
//////////////////////
//整数の場合の余分な小数点対応（浮動小数点で無い場合）
//引用符の中の.#を..#に退避
//{"([^\"]+)(\")([^\"]+)(\\.#+)([^\"]+)(\")([^\"]+)",
{"([^\"]*)(\")([^\"]*)(\\.#+)([^\"]*)(\")([^\"]*)",
"$1$2$3\\.$4$5$6$7"},
//浮動小数点の#.#E#を#..#E#に退避上の変換とは重ならない。
{"(.*)([0#])(\\.#+E\\+[0#])(.*)", "$1$2\\.$3$4"},
//上記変換対象にならなかった-つまり..#でない.#+を削除
{"(.*)([^\\.])(\\.#+)(.*)", "$1$2$4"},
//浮動小数点の#..#E#を#.#E#に復旧。引用符の中の外し方がわからない。
{"(.*)([0#])(\\.)(\\.#+E\\+[0#])(.*)", "$1$2$4$5"},
//引用符の中の..#を.#に復旧
//引用符の中にもともと..#があっても、...#になって..#に戻るはず。
{"([^\"]*)(\")([^\"]*)(\\.)(\\.#+)([^\"]*)(\")([^\"]*)",
"$1$2$3$5$6$7$8"}
};

277:デフォルトの名無しさん
09/08/04 09:49:56
これ見たら >>218 とかブン殴りたくなってきたんだが。

278:204
09/08/04 09:51:49
20行の成否はどうでもいいんだけど、もし可能であれば教示していただけるとうれしい。
仕事はともかく、美しいコードには感動があるのでね。
(とはいえ、他人が見てわからないコードはよろしくないので、
無理に圧縮した20行より、読みやすい100行の方がいいけど。)

>>224
n回フィルターすると、フィルター相互の矛盾衝突のチェックがn(n-1)必要になるから、
フィルターが増えるほど加速的に困難になる…という趣旨ですよね。
しかし、3行1セットで1個の処理をするフィルターを作成し、
そのセットが他には絶対に影響を与えない堅固なものであれば、
必ずしもn(n-1)にはならないのではないか…と思って手をつけたわけですが…
しかし実際やってみるとそうはなってませんな…引用符処理が誤算でした。

次ページ