正規表現 Part5

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 901- 2chのread.cgiへ]
Update time : 03/23 17:53 / Filesize : 228 KB / Number-of Response : 918
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

正規表現 Part5

1 名前：デフォルトの名無しさん mailto:sage [2008/06/03(火) 22:07:28 ]: 正規表現(Regular Expression)スレです。

質問する場合は実装言語や処理系ソフトウェア名を示しておくと話が早いです。

前スレ
正規表現 Part4
pc11.2ch.net/test/read.cgi/tech/1186030400/
754 名前：デフォルトの名無しさん mailto:sage [2009/02/19(木) 22:54:31 ]: >>750
秀丸エディタなら↓これでいけた。他は知らん
(?<=.+/)test
755 名前：デフォルトの名無しさん [2009/02/19(木) 22:57:56 ]: >>750

test\.txt$

でどうでしょう
756 名前：デフォルトの名無しさん [2009/02/19(木) 22:59:13 ]: >>750

少し修正

test\.txt[\r\n$]
757 名前：デフォルトの名無しさん mailto:sage [2009/02/19(木) 23:00:16 ]: ひどくなってるYO
758 名前：デフォルトの名無しさん mailto:sage [2009/02/20(金) 00:01:43 ]: test\.txt(?=$|\b|[\r\n])
759 名前：デフォルトの名無しさん mailto:sage [2009/02/20(金) 02:53:45 ]: YoutubeをダウンロードするFirefoxのuserchrome.jsスクリプトの一部なんだけど
var[ \r\n\t]+swfArgs[ \r\n\t]*=[ \r\n\t]*\{(.*,|)[ \r\n\t]*(t|'t'|"t")[ \r\n\t]*\:[ \r\n\t]*['"]([a-zA-Z\-_0-9]+=)['"].*\}
の(.*,|)の意味するところがわからない。　　　 ↑
|って○○か××を意味するメタ文字じゃないの？なんで)の直前にあるんだろう？
760 名前：デフォルトの名無しさん mailto:sage [2009/02/20(金) 03:00:42 ]: (foo|) は (foo)? と同じ意味では。
761 名前：デフォルトの名無しさん mailto:sage [2009/02/20(金) 03:13:23 ]: .*0か1個以上ある？じゃあ.+と同じ？
762 名前：デフォルトの名無しさん mailto:sage [2009/02/20(金) 08:04:22 ]: はあ？
763 名前：750 mailto:sage [2009/02/20(金) 08:57:02 ]: みなさんﾚｽありがとうございます
例えが悪かったですが実現したいのはﾃﾞｽｸﾄｯﾌﾟの検索ｴﾝｼﾞﾝでのﾌｧｲﾙ名検索でﾌｧｲﾙ名のみで検索したいのです。
みなさんのﾚｽを参考に思考錯誤してみます
764 名前：デフォルトの名無しさん mailto:sage [2009/02/20(金) 20:27:44 ]: >>759
"t": "([^"]+)"
俺は、これで済ませてるw
765 名前：デフォルトの名無しさん mailto:sage [2009/02/20(金) 21:39:41 ]: すみません(foo)?の意味がわかりません教えてください

>>764
それでいけるよねｗ
766 名前：デフォルトの名無しさん mailto:sage [2009/02/21(土) 21:02:25 ]: >>751
C#なら
s.Length > 0 && "string".StartsWith(s)
のようにやればいいのに。
767 名前：デフォルトの名無しさん mailto:sage [2009/02/23(月) 19:43:45 ]: 女のコの性器表現てどれくらいの種類があるんだろう
768 名前：デフォルトの名無しさん mailto:sage [2009/02/23(月) 19:56:18 ]: 単語だけならともかく、そんなのは文脈によって変わるし、
『×××』だけでもそれを表すことができる上に、『大事なところ』などボカした表現までスコープを広げると
とても現代の正規表現で賄いきれるものではない。
言語学の分野で議論してくるがいい。
769 名前：デフォルトの名無しさん mailto:sage [2009/02/24(火) 18:45:51 ]: C#でWBCかワールド・ベースボール・クラシックのどちらかを含み、かつイチローか松坂のどちらかを含むline、と正規表現で
if (Regex.Match(line,"(WBC|ワールド・ベースボール・クラシック) && (イチロー|松坂)").Success)
と書いてみたのですが、いまいちうまくヒットしないです。アドバイスお願いします。
770 名前：デフォルトの名無しさん mailto:sage [2009/02/24(火) 20:15:33 ]: 正規表現の中に && とか画期的すぎるだろ・・・
テンプレの正規表現講座でも見ておいで
771 名前：751 mailto:sage [2009/02/24(火) 22:56:03 ]: >>766
確かにその方がわかりやすいですね
ありがとうございます
772 名前：デフォルトの名無しさん mailto:sage [2009/02/25(水) 10:58:18 ]: if (Regex.Match(line, "(WBC|ワールド・ベースボール・クラシック)").Success && Regex.Match(line, "(イチロー|松坂)").Success)
でいいんじゃね？C#知らないけど。
AND増えるなら条件を配列に入れてループで。
773 名前：デフォルトの名無しさん mailto:sage [2009/02/25(水) 12:46:56 ]: line = "ぽにょワールド・ベースボール・クラシックぽにょイチローぽにょ"

Set RegExp1 = new RegExp
Set RegExp2 = new RegExp
RegExp1.Pattern = "WBC|ワールド・ベースボール・クラシック"
RegExp2.Pattern = "イチロー|松坂"

If RegExp1.Test(line) And RegExp2.Test(line) Then
Wscript.Echo "うんこ"
End If
774 名前：デフォルトの名無しさん mailto:sage [2009/02/25(水) 12:49:30 ]: >>772
Regex.Match の使い方が間違ってる。ちゃんと説明書読んだ？
775 名前：デフォルトの名無しさん mailto:sage [2009/02/25(水) 14:22:03 ]: C#知らないと言っている人にそんな指摘してもなあ
776 名前：デフォルトの名無しさん mailto:sage [2009/02/25(水) 15:22:22 ]: C# カンケーない。Regex.Match の使い方が間違ってる。
777 名前：デフォルトの名無しさん mailto:sage [2009/02/25(水) 15:42:59 ]: >>769 >>772

if (Regex.Match(line, "WBC|ワールド・ベースボール・クラシック").Success && Regex.Match(line, "イチロー|松坂").Success)

で良いが、IsMatchのほうが良さげ。

if (Regex.IsMatch(line, "WBC|ワールド・ベースボール・クラシック") && Regex.IsMatch(line, "イチロー|松坂"))
778 名前：デフォルトの名無しさん mailto:sage [2009/02/27(金) 19:33:25 ]: 少しお聞きします。

1hage(100禿)
1hage(10毛)
1hage

という文字列があった場合に、1hage(100禿)以外をマッチさせたいのですが、
なかなかうまくいきません。
どのように正規表現を書いたものでしょうか？
779 名前：778 [2009/02/27(金) 19:34:25 ]: >>778
すいません。追記です。
具体的には、"hage"をヒットさせたいのですが、"禿"を含むもののみマッチさせないようにしたいのです。
780 名前：デフォルトの名無しさん mailto:sage [2009/02/27(金) 19:36:03 ]: 1hage にマッチしたものから 1hage(100禿) にマッチするものを取り除く、
じゃダメなのか？　どうしても1個の正規表現でやんないとダメ？
781 名前：デフォルトの名無しさん mailto:sage [2009/02/27(金) 20:30:52 ]: >>780
うん、やっぱりそれの方がスマートでよいですよね・・・
わかりました。

無理に正規表現だけでやらないとことにします。
ありがとうございました。
782 名前：デフォルトの名無しさん mailto:sage [2009/02/28(土) 14:16:03 ]: 文章中に「A」と「AA」が混在していて、
１文字だけの「A」を２文字の「AA」にします。
２文字以上連続していない、１文字だけの「A」は
どうやったら探せますか？
/A{1}/ でも駄目ですし、/A[^A]/ だと
行の中に A しかない物が引っ掛かりません。
783 名前：デフォルトの名無しさん mailto:sage [2009/02/28(土) 16:40:50 ]: D:\jspsh>jspsh.exe
js> "A AA AAA".replace(/(^|[^A])A([^A]|$)/g, "$1AA$2")
AA AA AAA
js> :q
Leaving "JScript Power Shell"
784 名前：デフォルトの名無しさん mailto:sage [2009/02/28(土) 21:51:49 ]: タイ━━━━||Φ|(|´|Д|`|)|Φ||━━━━ホ
785 名前：デフォルトの名無しさん mailto:sage [2009/02/28(土) 23:10:33 ]: >>783
ありがとう、試してみます。
786 名前：デフォルトの名無しさん mailto:sage [2009/03/02(月) 20:45:20 ]: /(?<!A)A(?!A)/
787 名前：デフォルトの名無しさん mailto:sage [2009/03/07(土) 00:28:35 ]: <A href="○○○○○○○">●●●●●</a>
と
<A href="○○○○○○○"><hogehogetag>●●●●●</hogehogetag></a>
という文字列から●●●●●を取り出したいのですが
どうやって書いたら良いか教えてケロ
決まってるのは<A href="○○○○○○○">の次の<>の外の文字列ということです。
788 名前：デフォルトの名無しさん mailto:sage [2009/03/07(土) 01:14:08 ]: >>5みたいに書けばいいよ
789 名前：デフォルトの名無しさん [2009/03/12(木) 17:29:29 ]: 「から最初の」までってどうやって抜き出すんですか？教えてください
790 名前：デフォルトの名無しさん mailto:sage [2009/03/12(木) 17:40:07 ]: 「[^」]*」
791 名前：デフォルトの名無しさん mailto:sage [2009/03/12(木) 17:53:29 ]: ありがとうございました
792 名前：デフォルトの名無しさん [2009/03/13(金) 00:14:55 ]: SQL(SELECT、UPDATE、INSERT、DELETEが不明)から、
テーブル名をマッチさせる正規表現が解る方、どなたかいらっしゃらないでしょうか？

ひとつの表現で不可能なら、複数でもいいのですが…(´・ω・`)
793 名前：デフォルトの名無しさん mailto:sage [2009/03/13(金) 00:25:51 ]: SQLの構文解析は正規表現じゃ無理
794 名前：デフォルトの名無しさん [2009/03/13(金) 01:07:40 ]: 金額の文字にマッチするにはどう書けばよいですか？
123,456,789 ←こういうの
795 名前：デフォルトの名無しさん mailto:sage [2009/03/13(金) 01:20:24 ]: \d{1,3}(,\d\d\d)* かな
796 名前：デフォルトの名無しさん mailto:sage [2009/03/13(金) 08:53:14 ]: 複雑な正規表現のテストってどうすればいいんだろうね。
自分に都合のいいデータだけ作ってやってるけど。
実際は何が起こっても仕方ない場合が多いのだが。
797 名前：デフォルトの名無しさん mailto:sage [2009/03/13(金) 08:57:59 ]: 製品名を「鼻から悪魔」にしておけば何も問題は無い
798 名前：デフォルトの名無しさん mailto:sage [2009/03/13(金) 12:11:43 ]: >>796
私も以前、このスレではない所で同様の質問をしたが、真面目な答えは
返ってこなかったよ。正規表現から見るとプログラムテストは鬼門かもね。
799 名前：デフォルトの名無しさん mailto:sage [2009/03/13(金) 12:21:24 ]: 複雑なＣ言語プログラムのテストってどうすればいいんだろうね。
自分に都合のいいデータだけ作ってやってるけど。
実際は何が起こっても仕方ない場合が多いのだが。

複雑なｊａｖａのテストってどうすればいいんだろうね。
自分に都合のいいデータだけ作ってやってるけど。
実際は何が起こっても仕方ない場合が多いのだが。

複雑なＰＨＰのテストってどうすればいいんだろうね。
自分に都合のいいデータだけ作ってやってるけど。
実際は何が起こっても仕方ない場合が多いのだが。

複雑なバッチファイルのテストってどうすればいいんだろうね。
自分に都合のいいデータだけ作ってやってるけど。
実際は何が起こっても仕方ない場合が多いのだが。

複雑なＥｘｃｅｌマクロのテストってどうすればいいんだろうね。
自分に都合のいいデータだけ作ってやってるけど。
実際は何が起こっても仕方ない場合が多いのだが。

・・・正規表現に限った話ではない。

＞自分に都合のいいデータだけ作ってやってるけど。
問題の原因がハッキリわかってるじゃないか。それを対処すればいいじゃないか？
自分に都合のいいデータを作ってしまうのが問題なら、他人にデータを作ってもらえばいい。
800 名前：デフォルトの名無しさん mailto:sage [2009/03/13(金) 12:42:08 ]: >>796
やったことはないが、本気でやるなら、こんな感じになるんだろう。

1.マッチすべきパターンについて構文木を作る
2.構文木を元に直交表を作る
3.実験計画法でテストケースを作る
4.テストケースをテストプログラム化する
801 名前：デフォルトの名無しさん mailto:sage [2009/03/13(金) 14:59:43 ]: >>799
プログラム言語の場合はステップごととか、プロセジャーや
関数に分割してテストするし、型も助けになる。
正規表現の対象としているのは文字列でここから先は構文解析
しかない。複雑な組み込みシステムの入口、出口でどんな
テストデータを用意すればよいかというのと類似した問題だ。
802 名前：デフォルトの名無しさん mailto:sage [2009/03/17(火) 13:26:09 ]: www.honya-town.co.jp/hst/HTdispatch?isbn_cd=4062574993
上記のwebページから以下の「マンガホーキング入門」の部分を取り出したいのですがうまくいきません
<tr>
<td bgcolor="#efefef" width="15%" align="center" nowrap>
書名 </td>
<td width="85%"> マンガホーキング入門 </td>
</tr>

"(.+?)"だとここ以外の強調部分もマッチしてしまうので
"書.*?名.+?(.+?)"のようにしたのですがこれだとひとつもマッチしてくれません
どのようにするべきなのでしょうか？
803 名前：デフォルトの名無しさん mailto:sage [2009/03/17(火) 13:28:20 ]: あれ、書名の部分は実際は書＆nbsp;＆nbsp;名です（＆=>&）
804 名前：デフォルトの名無しさん mailto:sage [2009/03/17(火) 13:36:57 ]: 自己解決しました
「.」は\nを含まないのでだめだったようです
"書.*?名.+?\n.+?(.+?)"でいけました
スレ汚しすみませんでした
805 名前：デフォルトの名無しさん mailto:sage [2009/03/20(金) 21:51:43 ]: JavaやC#に正規表現のコンパイル機能があるけど、あれって意味あるのかな？
いつも可読性を優先してRegex.Match(data,pattern)みたいに直接使ってるんだけど、
コンパイルが必要になるほど性能が必要な正規表現ってどんなのがあるん？
806 名前：デフォルトの名無しさん mailto:sage [2009/03/20(金) 22:00:44 ]: >>805
一般論的に正規表現のコンパイルというと、何度も同じ正規表現を
使うときに差が出る。
それが有意な差になるかはプロファイル取ってみないとわからないけど。

ところで可読性なら生の正規表現よりも定数とかに入れて
名付けた方がいいんじゃない？めんどくさいけど。
807 名前：デフォルトの名無しさん mailto:sage [2009/03/20(金) 22:06:30 ]: >>805
perlでo使ったらうれしいときと同じだよ。
808 名前：デフォルトの名無しさん mailto:sage [2009/03/20(金) 22:09:58 ]: >>806
>ところで可読性なら生の正規表現よりも定数とかに入れて
>名付けた方がいいんじゃない？めんどくさいけど。

コード体系とかのパースの場合は定数化してるよ。
"Key: Value"なデータのパースとかはハードコードかな。
わざわざファイル移動で確認させる価値もないし。
809 名前：デフォルトの名無しさん mailto:sage [2009/03/21(土) 02:47:41 ]: ルールを変更可能にするため外部化、ってのもよくあるパターンだと思うけど。
810 名前：デフォルトの名無しさん [2009/03/26(木) 17:50:58 ]: hoge.out.csvを引っ掛けないで、mage.csvやhage.csv
を引っ掛けるにはどう書いたらいいんでしょうか？
.*\.csvを引っ掛けたいのですが、.outが含んでいるときはだめ、という形です。

/[\w\0-9]+(?!\.out)\.csv/
みたいに書いてみたのですが、.out.csvも.csvもともに引っかかってしまいます。
811 名前：デフォルトの名無しさん mailto:sage [2009/03/26(木) 18:01:21 ]: >>810

/(?<!\.out)\.csv/
812 名前：810 mailto:sage [2009/03/26(木) 19:59:19 ]: >>811
ありがとう。

結局こんな感じで行けました。
/^[^\.]*(?!\.out)\.csv/
813 名前：デフォルトの名無しさん mailto:sage [2009/03/26(木) 22:41:48 ]: >>812
それ単に.csv以前に「.」を含まないものにマッチだから、

hoge.hoge.csv

はマッチしないけどそれでいいの? .outは含んでないよ。
814 名前：デフォルトの名無しさん mailto:sage [2009/03/27(金) 00:05:41 ]: >>812
否定先読みはきちんと理解出来てる？
もう一度パターン眺めてみると良いかも。
815 名前：デフォルトの名無しさん [2009/03/29(日) 11:05:44 ]: すみません、似た質問になるのですが
ファイル名が1行の中に列挙されていて
たとえば、hoge1.zip hoge3.zip hoge5.exe のような場合に
行中に .zipでない拡張子が含まれるという条件にマッチする正規表現は可能でしょうか。
ファイル名の区切りは、スペースを仮定します。
816 名前：デフォルトの名無しさん mailto:sage [2009/03/29(日) 11:58:50 ]: .+\.(?!zip).{3}

こんな感じ？拡張子は3文字として決め打ちしてるけど。
ファイルとファイルの間にスペースがあるなら、スペースまでのマッチに工夫すれば良いと思うよ。
817 名前：デフォルトの名無しさん mailto:sage [2009/03/30(月) 23:57:55 ]: vbsです。
1.txtを\dでマッチさせようとしているのですが、
01がマッチしてしまいます。
a.txtを\Dで待ちさせようとすると
0aがマッチしてしまいます。
どうして2バイトになるのでしょうか？
818 名前：デフォルトの名無しさん mailto:sage [2009/03/31(火) 00:30:47 ]: 確認方法が間違ってるんじゃね？
819 名前：デフォルトの名無しさん mailto:sage [2009/03/31(火) 01:18:23 ]: >>818
そうでした。すみません。
820 名前：デフォルトの名無しさん mailto:sage [2009/04/05(日) 23:29:32 ]: ●正規表現の使用環境
.NET 1.1　(C#)

●説明
テキストボックスに入力された文字の最後が
大文字小文字関係なく　.csv と入力されているか
判断したいです。

if (textBox1.Text.EndsWith(".csv"))
とすると、小文字のcsvでないとTRUEを返してくれません。

.NET2.0以上なら、EndsWith(".csv", 大文字小文字無視)
のように書けるのですが、1.1だとそのメソッドがありません。

恐れ入りますが、ご教授おねがいします。
821 名前：デフォルトの名無しさん mailto:sage [2009/04/06(月) 00:04:39 ]: 素直な方法が使えないなら、多少は面倒だけど
うしろから４文字を取ってきて、小文字化してから".csv"と比べるとか。
822 名前：デフォルトの名無しさん mailto:sage [2009/04/06(月) 00:30:59 ]: >>821
あっ、その方法がありましたね。
自分の頭が固かったです。

文字列を一旦小文字にしてから
比較することで無事解決できました。

どうもありがとうございました。
823 名前：デフォルトの名無しさん mailto:sage [2009/04/06(月) 20:31:31 ]: 何にもマッチしない正規表現というのは表現可能でしょうか？
どのように記述したものでしょうか？
824 名前：デフォルトの名無しさん mailto:sage [2009/04/06(月) 20:34:26 ]: Perl正規表現雑技
www.din.or.jp/~ohzaki/regex.htm#Nothing

ここにありました。

　(?!)

こんな簡単なのでいいんですね
825 名前：デフォルトの名無しさん mailto:sage [2009/04/06(月) 20:52:58 ]: 否定先読みで全ての要素を否定してるから、何にもマッチしないって事だね。
良いんでない？
826 名前：デフォルトの名無しさん mailto:sage [2009/04/07(火) 14:27:36 ]: /xxx/sss/ccc/fff/ggg/aaa.txt

と言う感じで任意の回数スラッシュが出てくるんですが、一番最後のスラッシュ
だけをsedで "/"→"/tmp/"に置き換えたいんです。

正規表現を使って置換可能でしょうか？記述が全く思いつきません、、、
827 名前：デフォルトの名無しさん mailto:sage [2009/04/07(火) 14:53:02 ]: >>826
s/(\/[^/]+)$/\/tmp\1/g
828 名前：デフォルトの名無しさん mailto:sage [2009/04/07(火) 14:53:15 ]: >>826
s:/[^/]*$:/tmp&:
829 名前：デフォルトの名無しさん mailto:sage [2009/04/07(火) 21:32:38 ]: 否定先読みでマッチさせてもいいかもね。
830 名前：デフォルトの名無しさん mailto:sage [2009/04/07(火) 22:56:23 ]: というか、一番最後のスラッシュっていう条件はまだ甘い方だと思うんだけど。
全く思いつかないってのは単に勉強不足じゃない？
831 名前：826 mailto:sage [2009/04/08(水) 00:19:51 ]: >>827-830
色々アドバイスありがとうございます。
828氏の記述で期待通りの処理が出来ました。

>>830
すみません、仰るとおりで。
書いた後色々ｸﾞｸﾞｸﾞって、IBMのページ

www.ibm.com/developerworks/jp/linux/library/l-sed2/index.html

の"円記号付き括弧"を参考にした漏れなりの解↓

's/$.*$\/$.*$/\1\/tmp\/\2/g'

自分で書いておきながら、何でこれが一番最後のスラッシュにマッチするのか
よく分かってない('A`
832 名前：デフォルトの名無しさん mailto:sage [2009/04/08(水) 01:04:48 ]: マッチっていう意味ならスラッシュのある一行全体にマッチしてる。
で、最初の括弧が\1、次の括弧が\2としてマッチ。

というか\2の辺り削ってもいいんじゃないかと。

s/(.*)\//\1\/tmp\//g
833 名前：826 mailto:sage [2009/04/08(水) 01:26:34 ]: >>832
いや、分からないのは、's/$.*$\/$.*$/\1\/tmp\/\2/g' この表現で何故

aaa/tmp/bbb/ccc/ddd/eee/fff.txt

とならずに

aaa/bbb/ccc/ddd/eee/tmp/fff.txt

と、一番最後のスラッシュが対象になるのかなぁ、と。
834 名前：デフォルトの名無しさん [2009/04/08(水) 01:44:41 ]: bregonig.dllのバグとおもう。デミリタを換えると関数が失敗してる。
#include <windows.h>
#include <iostream>
#include <string>
using namespace std;
typedef struct bregexp { const char *outp; const char *outendp; int splitctr; const char **splitp; int rsv1; char *parap; char *paraendp; char *transtblp; char **startp; char **endp; int nparens; } BREGEXP;
typedef int (WINAPI *fa)(char * , char * , char * , BREGEXP ** , char *);
typedef void (WINAPI *fb)(BREGEXP *);

main(){
char bunsyo[26]="abcdefghijklmnopqrstuvwxyz";
char findstr[]={0xA5, 0xEA}, *p, msg[80];

HINSTANCE hd = LoadLibrary("bregonig.dll");
fa BMatch = (fa)GetProcAddress(hd,"BMatch");
fb BRegfree = (fb)GetProcAddress(hd,"BRegfree");

string str = "m/" + (string)findstr + "/i";
char c=47; str[1]=str[28]=c;
{ BREGEXP *rxp = NULL;
if( BMatch( &str[0], bunsyo, bunsyo+26, &rxp, msg) )
{ cout<<"Hit "; p=(rxp->startp[0]); } else cout<<"NoHit ";
BRegfree(rxp); }
cout<<"デミリタ　"<< c <<"　は通る\n";

c=1; str[1]=str[28]=c;
{ BREGEXP *rxp = NULL;
if( BMatch( &str[0], bunsyo, bunsyo+26, &rxp, msg) )
{ cout<<"Hit "; p=(rxp->startp[0]); } else cout<<"NoHit ";
BRegfree(rxp); }
cout<<"デミリタ　"<< c <<"　は通る\n";
}
835 名前：834の修正。　これが動作しません [2009/04/08(水) 02:11:11 ]: #include <windows.h>
#include <iostream>
#include <string>
using namespace std;

typedef struct bregexp { const char *outp; const char *outendp; int splitctr; const char **splitp; int rsv1; char *parap; char *paraendp; char *transtblp; char **startp; char **endp; int nparens; } BREGEXP;
typedef int (WINAPI *fa)(char * , char * , char * , BREGEXP ** , char *);
typedef void (WINAPI *fb)(BREGEXP *);

main(){
char bunsyo[7]="abcdef/";
char findstr[4]={0x2F, 0xA5, 0xEA, 0}, *p, msg[80];

HINSTANCE hd = LoadLibrary("bregonig.dll");
fa BMatch = (fa)GetProcAddress(hd,"BMatch");
fb BRegfree = (fb)GetProcAddress(hd,"BRegfree");

string str=(string)"m/" + (string)findstr + (string)"/i";

char c='/'; str[1]=str[9]=c;
{ BREGEXP *rxp = NULL;
if( BMatch( &str[0], bunsyo, bunsyo+7, &rxp, msg) ) { cout<<"Hit "; p=(rxp->startp[0]); } else cout<<"NoHit ";
BRegfree(rxp); }
cout<<"デミリタ　"<< c <<"　は通る\n";

c='*'; str[1]=str[9]=c;
{ BREGEXP *rxp = NULL;
if( BMatch( &str[0], bunsyo, bunsyo+7, &rxp, msg) ) { cout<<"Hit "; p=(rxp->startp[0]); } else cout<<"NoHit ";
BRegfree(rxp); }
cout<<"デミリタ　"<< c <<"　は通る\n";　}
836 名前：デフォルトの名無しさん [2009/04/08(水) 02:14:16 ]: 検索しようとする文字列に、特定の文字が含まれている場合、
デミリタを「/」以外にするとバグるようなんです。
しかし、検索しようとする文字に「/」が含まれている場合は別のデミリタを使うしか無く困ります。
837 名前：デフォルトの名無しさん [2009/04/08(水) 02:40:05 ]: サクラエディタで検索してもバグらないし、ソースコードみても回避方法わからなかった
838 名前：デフォルトの名無しさん mailto:sage [2009/04/08(水) 04:20:23 ]: >>833
最大マッチと最小マッチの差じゃない？
sedは知らんけど
839 名前：836 [2009/04/08(水) 04:27:12 ]: 次の文字でバグりました。
40　41　42　43　63　91　92　129
EUC全角カタカナ「リ」
840 名前：デフォルトの名無しさん mailto:sage [2009/04/08(水) 04:39:05 ]: そりゃエスケープせんと。例えばasciiの40って、'('じゃないか。
841 名前：836 [2009/04/08(水) 05:14:28 ]: 特殊文字はわかりました。しかし「リ」を含む文字でも間違えるんです。
検索対象には含まれていないのに、含まれているとなるんです。
842 名前：デフォルトの名無しさん mailto:sage [2009/04/08(水) 06:55:23 ]: どう間違えているか判らんが、cp932対応のエンジンにeucを食わせたらそりゃぁ、混同するさ。
843 名前：836 [2009/04/08(水) 08:09:39 ]: BREGEXPってバイナリの正規表現が出来るとおもってた。
Bは馬場さんのBでバイナリではなかったのか。
844 名前：836 [2009/04/08(水) 08:16:09 ]: 書いてありました。

５．制限事項・注意事項

　Oniguruma 自体は各種文字エンコーディングに対応していますが、
bregonig.dll は Bregexp.dll との互換性のため、ASCII と Shift_JIS 以
外の文字エンコーディングは使用できません。
845 名前：鬼車を弄くった。これで任意の文字でいけるだろうか [2009/04/08(水) 10:14:16 ]: #include <windows.h>
#include <iostream>
#include <string>
using namespace std;
#include "oniguruma.h"
#pragma comment(lib, "onig.lib")

char *Bfind(char *start,char *end, string ptn, int *size){
int r; regex_t* reg; OnigErrorInfo einfo; char *p=NULL; *size=0;
r = onig_new(®, (UChar*)&ptn[0], (UChar*)&ptn[ptn.size()] ,ONIG_OPTION_DEFAULT, ONIG_ENCODING_ASCII, ONIG_SYNTAX_DEFAULT, &einfo);
if (r != ONIG_NORMAL) return NULL;
OnigRegion *region = onig_region_new();
r = onig_search(reg, (UChar*)start, (UChar*)end, (UChar*)start, (UChar*)end, region, ONIG_OPTION_NONE);
if (r >= 0) { *size=region->end[0]-region->beg[0]; p= start+r; }
onig_region_free(region, 1 ); onig_free(reg); onig_end(); return p; }

char *Bpick(char *start, char *end, string ptn, string &str){
int r; regex_t* reg; OnigErrorInfo einfo; char *p=NULL; str=""; int size;
r = onig_new(®, (UChar*)&ptn[0], (UChar*)&ptn[ptn.size()] ,ONIG_OPTION_DEFAULT, ONIG_ENCODING_ASCII, ONIG_SYNTAX_DEFAULT, &einfo);
if (r != ONIG_NORMAL) return NULL;
OnigRegion *region = onig_region_new();
r = onig_search(reg, (UChar*)start, (UChar*)end, (UChar*)start, (UChar*)end, region, ONIG_OPTION_NONE);
if (r >= 0) {
if(region->num_regs==1){p=start + region->beg[0]; size=(region->end[0]-region->beg[0]); }
else { p=start + region->beg[1]; size=(region->end[1]-region->beg[1]); }
str.resize(size); memcpy(&str[0],p,size) ;}
onig_region_free(region, 1 ); onig_free(reg); onig_end(); return p; }

main(){
char x[]="zzzzaffffffffb"; string s,ptn;
ptn="a.*b"; Bpick(x, x+strlen(x), ptn, s); cout<<s<<endl;
ptn="a(.*)b"; Bpick(x, x+strlen(x), ptn, s); cout<<s<<endl; }
846 名前：デフォルトの名無しさん [2009/04/08(水) 10:37:09 ]: 845だと多バイト文字は識別しないはずなので、バイナリ文字列の正規表現がいけるはずです。
うちの環境ではEUCの文字でバグっていたところも問題でなくなりました。
Bfindは、ptnを検索して、見つかった先頭アドレスを返します。
Bpickは、正規表現にマッチした文字列をstrにセットします。
847 名前：デフォルトの名無しさん mailto:sage [2009/04/08(水) 23:31:24 ]: >>839
>EUC全角カタカナ「リ」
2バイト目は0xEAだから、Shift_JISの1バイト目として解釈されてその次の1バイトが
デリミタとして扱われていない。
そういう変なバイト列を検索したいのなら、\xHH形式を使えば？
findstr="\\x2F\\xA5\\xEA";
848 名前：デフォルトの名無しさん mailto:sage [2009/04/09(木) 02:09:32 ]: そういうことか　納得
849 名前：デフォルトの名無しさん mailto:sage [2009/04/09(木) 08:10:26 ]: ホスト名を抜き出したいです。例えば、

goo.ne.jp
ttp://news.google.com/
↓↓↓↓↓↓↓↓↓↓
goo.ne.jp
google.com

としたいです。
850 名前：デフォルトの名無しさん mailto:sage [2009/04/09(木) 08:26:40 ]: スレ違いです
851 名前：デフォルトの名無しさん mailto:sage [2009/04/09(木) 09:33:07 ]: >>849
URLだかURIのRFCに正規表現がそのまま載ってた覚えがあるぞ。
852 名前：デフォルトの名無しさん mailto:sage [2009/04/09(木) 10:00:37 ]: ttp://([^/]+)
\1
でいいだろ
853 名前：デフォルトの名無しさん mailto:sage [2009/04/11(土) 13:51:18 ]: はあ？
854 名前：デフォルトの名無しさん mailto:sage [2009/04/11(土) 14:28:59 ]: h?ttp://([^/]+).* \r
↓
$1 \r

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef