正規表現 Part5

[表示 : 全て最新50 1-99 101- 201- 301- 401- 501- 601- 701- 801- 2chのread.cgiへ]
Update time : 12/14 15:13 / Filesize : 194 KB / Number-of Response : 810
[このスレッドの書き込みを削除する]
[＋板最近立ったスレ＆熱いスレ一覧 : ＋板最近立ったスレ／記者別一覧] [類似スレッド一覧]


↑キャッシュ検索、類似スレ動作を修正しました、ご迷惑をお掛けしました

正規表現 Part5

1 名前：デフォルトの名無しさん mailto:sage [2008/06/03(火) 22:07:28 ]: 正規表現(Regular Expression)スレです。

質問する場合は実装言語や処理系ソフトウェア名を示しておくと話が早いです。

前スレ
正規表現 Part4
pc11.2ch.net/test/read.cgi/tech/1186030400/
607 名前：デフォルトの名無しさん mailto:sage [2009/01/29(木) 23:36:39 ]: >>603
人名なんて住所より短いんだから、行頭から全角6文字以内+行末文字の抽出で十分じゃない。
はい終了。
608 名前：デフォルトの名無しさん mailto:sage [2009/01/29(木) 23:43:23 ]: まあそれでも半分ぐらいは抽出できそうだわな
609 名前：586 mailto:sage [2009/01/30(金) 00:02:42 ]: こんにちは
とかが頭にある場合があるので郵便番号と都道府県のチェックは外せないです。
610 名前：デフォルトの名無しさん mailto:sage [2009/01/30(金) 00:07:35 ]: ネタじゃないの？
611 名前：デフォルトの名無しさん mailto:sage [2009/01/30(金) 00:10:28 ]: データごとの固まりは空行で区切られてたり
行数が決まってたりすんの？
それだったら名前候補を抽出するプログラムも結構簡単に作れそうだが
全部正規表現でやるのは逆にむずそう
612 名前：デフォルトの名無しさん mailto:sage [2009/01/30(金) 00:13:59 ]: >>609
そのレベルになってくると、正規表現よりそれを扱うスクリプトの方でどうにかしたほうがいいのでは

そもそもどういう形式のデータかも想像できないし
613 名前：586 mailto:sage [2009/01/30(金) 00:16:01 ]: ネタじゃないです

データは一つはｊ一人のデータです。
複数の人の切り分けは考慮する必要なないです。
やっぱ難しいですかね
614 名前：デフォルトの名無しさん mailto:sage [2009/01/30(金) 00:25:56 ]: >>613
いやもう本気で「日本語でおｋ」
どんなデータか説明してもらわないと、どうもこうも無いわ。
615 名前：586 mailto:sage [2009/01/30(金) 00:44:15 ]: わかりにくくてすみません。
自由なフォーマットで送られてくる住所氏名電話番号を
ListViewに登録するということをやっています。
文章は

こんにちは
私の住所は
123-0001
東京都＊＊区＊＊町10-10
日本太郎
03-0000-0000
です
お返事ください。

こんな感じの文章から名前を出来るだけ高確率で取り出したいです。
段階に分けて調べた方がいいですかね
上の例だとまず郵便番号と都道府県と電話番号の位置を正規表現で探して
それらに一番近い７文字の全角句読点なしを取るという感じでどうでしょうか
「です」が怪しいですね「になります」とか書いてあったら間違うし・・・
616 名前：デフォルトの名無しさん mailto:sage [2009/01/30(金) 01:00:30 ]: >>615
> 自由なフォーマットで
って時点で、正規表現の領域じゃないと思うぞ。
617 名前：デフォルトの名無しさん mailto:sage [2009/01/30(金) 01:01:54 ]: 自由なフォーマットなのか、郵便番号に近いのと電話番号に近い奴が違った場合どっちを取る？
とか問題があるな。

ttp://www2s.biglobe.ne.jp/~suzakihp/index40.html
この辺から苗字のリスト拾ってきてそれが含まれてる行を抽出するとかでいんじゃね？
618 名前：デフォルトの名無しさん mailto:sage [2009/01/30(金) 01:08:18 ]: 人名辞書と突合せしないと絶対に無理だろ
619 名前：デフォルトの名無しさん mailto:sage [2009/01/30(金) 01:15:22 ]: 名前だけ抜き出すと考えるとまず無理
引っかからないのもNGだとすれば、全角と空白を一定以上含む行まで絞ってあとは目視しかない
フリーフォーマットを許さないといけない特段の理由がないのであれば、フォームにするべき
620 名前：デフォルトの名無しさん mailto:sage [2009/01/30(金) 01:30:30 ]: 出会い系？
621 名前：デフォルトの名無しさん mailto:sage [2009/01/30(金) 01:48:20 ]: っつーか、“理系”の人間に任せろよ。
622 名前：デフォルトの名無しさん mailto:sage [2009/01/30(金) 03:59:14 ]: つーかそこそこの確率でいいなら、漢字だけで構成されてる行を
抜き出すだけでよくね？
623 名前：デフォルトの名無しさん mailto:sage [2009/01/30(金) 04:18:16 ]: 「できない」ってハッキリ言ってやれよ。その方が質問主に対して親切だ。
こんなに引っ張るような事じゃ無いだろ。
624 名前：デフォルトの名無しさん mailto:sage [2009/01/30(金) 05:24:29 ]: だからネタでしょっていってんじゃん。
食いついたもん負け。
625 名前：デフォルトの名無しさん mailto:sage [2009/01/30(金) 07:44:05 ]: >>623
すると馬鹿は「知らないなら黙っててください」と言い出す
626 名前：デフォルトの名無しさん mailto:sage [2009/01/30(金) 08:16:59 ]: srud(>>625);
627 名前：デフォルトの名無しさん mailto:sage [2009/01/30(金) 19:17:21 ]: >>625
人のことを馬鹿呼ばわりするあなたにはわかるんですか？

わかる方のみ回答お願いします
628 名前：586 mailto:sage [2009/01/30(金) 20:15:38 ]: レスどうもです。

漢字の数文字の行から取るというのはいいと思いますが
折角正規表現が使えるのだからそれと郵便番号と住所なんかを手がかりにしたい
（その分確率は上がるでしょうし）と思ったのでお力をお借りできないかと
このスレを訪れてみました。
ご指摘の無理というお話もわかりますがｍ住所、郵便番号．．．の条件について、
正規表現で書く書き方を教えて頂けると助かったのですが
範囲の指定とか除外とか色々あって難しくて・・・

ちょっとアプローチを変えて自分なりの方法でやってみました。
住所、郵便番号、電話番号の位置を調べて、それの平均値を出して
それに一番近い７文字の全角でかつ、。や、のない行
から文字を取るようにしたら結構良い確率で抽出するようです。
正規表現とは離れた手法になってきたのでこの件はこれで終わりにしたいと思います。
お騒がせしてすみませんでした。有意義な回答を下さった方ありがとうございました。
629 名前：デフォルトの名無しさん mailto:sage [2009/01/30(金) 20:42:45 ]: >>628
確実に除外できるものを削除しなよ。
そうすれば全部の名前に少しのゴミを加えたものになるよ。
630 名前：デフォルトの名無しさん mailto:sage [2009/01/30(金) 21:40:39 ]: まだ引っ張るつもりか
631 名前：デフォルトの名無しさん mailto:sage [2009/01/31(土) 11:13:49 ]: <h1 class="title">
<a target="_self" class="id a "
href="http://英数字.html">
パターンマッチング１</a>
　　　　　　・
　　　　　　・
　　　　　

$pattern = "/

(
<h1.\s.class=\"title\">
<a.\s.target=\"\_self\".\s.class="id\s.a\s\"
href=\"[0-9|a-zA-Z|\-|\:|\.|\?|\/|\_]+.\">
)
(.*?)(<\/a>)

/";

こんなので全然マッチングできませんでした
どこがまちがっているのか、おしえてください
632 名前：デフォルトの名無しさん mailto:sage [2009/01/31(土) 11:30:33 ]: ＞.\s.
任意の一文字＋空白文字一文字＋任意の一文字＝計三文字
つまり"h1 class"とか"h1! ?class"とかじゃないと引っかからない。
h1とclassの間とかは「空白文字一文字以上」だから\s+でおｋ
633 名前：デフォルトの名無しさん mailto:sage [2009/01/31(土) 11:31:19 ]: ＞"h1 class"
2chの仕様でスペース一つに見えるけど、半角スペース三つね。
634 名前：デフォルトの名無しさん mailto:sage [2009/01/31(土) 12:21:07 ]: [ ]に | は使えないよ
635 名前：デフォルトの名無しさん mailto:sage [2009/01/31(土) 13:38:00 ]: 質問なんですが、４桁の数字の頭にAという文字を付けたい場合、
[0-9][0-9][0-9][0-9]をどうやって置換すればいいんですか？
636 名前：デフォルトの名無しさん mailto:sage [2009/01/31(土) 13:53:10 ]: $str ='123b2345';
echo preg_replace('/[0-9]{4}/','A$0',$str);

-- 出力結果 --
123bA2345
637 名前：デフォルトの名無しさん mailto:sage [2009/01/31(土) 14:04:13 ]: 正規表現関係ないじゃん…
638 名前：デフォルトの名無しさん [2009/01/31(土) 14:38:44 ]: >>632-633
助言ありがとうございます、.を取り除き進歩しました

今度は
$Pattern = "/([^<]h1*>[^a\s]*>)(.*?)(<\/a>)/";

のようにしてみたんですが、全然上手くいきませんでした
639 名前：デフォルトの名無しさん mailto:sage [2009/01/31(土) 14:43:53 ]: >>638
完全にスレ違いなので、お使いの言語のスレへいってくだしあ
640 名前：635 mailto:sage [2009/01/31(土) 15:09:36 ]: 教えろ
641 名前：デフォルトの名無しさん mailto:sage [2009/01/31(土) 16:37:42 ]: >>640
>>1
642 名前：デフォルトの名無しさん [2009/01/31(土) 16:42:28 ]: >>641
おまえ教えろ
643 名前：デフォルトの名無しさん mailto:sage [2009/01/31(土) 16:53:04 ]: >>642
>>1
>>636
644 名前：デフォルトの名無しさん mailto:sage [2009/01/31(土) 17:31:16 ]: 教えられてもそれが答えと気づかなかったでござるの巻
645 名前：デフォルトの名無しさん [2009/01/31(土) 17:38:44 ]: ござる教えろ
646 名前：デフォルトの名無しさん mailto:sage [2009/02/01(日) 00:07:27 ]: www.pururu.co.jp/goods/item/430-0168/
647 名前：デフォルトの名無しさん mailto:sage [2009/02/01(日) 00:42:14 ]: >>646
つ　それ｢こざる｣
648 名前：デフォルトの名無しさん mailto:ポルナレフの方がよかった？ [2009/02/01(日) 01:09:08 ]: 答えを教えられていることを伝えたら答えを教えろと言われたでござるの巻
649 名前：デフォルトの名無しさん [2009/02/01(日) 05:12:34 ]: おしえろ教えろ
650 名前：デフォルトの名無しさん mailto:sage [2009/02/02(月) 04:33:30 ]: 教えろおしえろオシエロ、、、エロ！？
651 名前：デフォルトの名無しさん mailto:sage [2009/02/02(月) 07:54:44 ]: そこでこざるの出番でござるよ
652 名前：デフォルトの名無しさん [2009/02/03(火) 17:05:09 ]: Perlの質問です。

.......<code>.......</code>......
....<code>...........</code>......

こんな感じのドキュメントを、<code>または</code>の前で区切ってsplitで分けようとして
書きましたがうまくいきません。何が悪いのでしょうか。

@content = split( /(?=<(|\/)code>)/, $content);
653 名前：デフォルトの名無しさん mailto:sage [2009/02/03(火) 17:17:00 ]: >>652
たぶん空文字列や'/'が混じるのが御気に召さないのだろうと
思うがそれは君が (|\/) でキャプチャーしているからだよ。
いらなければ (?:|\/) とか \/? とかにするといい。
654 名前：デフォルトの名無しさん mailto:sage [2009/02/03(火) 17:26:39 ]: >>653
迅速かつ的確なアドバイス、ありがとうございます。上手くいきました。
意味はこれから勉強していきます。
655 名前：デフォルトの名無しさん [2009/02/04(水) 19:03:45 ]: お願いします( ﾟωﾟ ) 言語はC#を用いています。

正規表現にて
　[ok] 100
　[ng] 01　→　1
　[ok] 0.001
　[ng] 00　→ 0
　[ok] 0.1000

前ゼロ入力をReplaceで""に置き換えたいのですが、正規表現が上手く書けませぬ
教えてくださいエロい人
656 名前：デフォルトの名無しさん mailto:sage [2009/02/04(水) 19:29:16 ]: 関口宏「ベジータさん、今までいろいろな敵と戦ってきましたね？」

ベジータ「ふん、ゴミに興味などない」

関口、リーダー『ゴミに興味などない』

ベジータ「な……なんだ貴様ら！？」

リーダー「そんなベジータさんにはこんな問題！」

関口宏「ベジータさんが戦った、ギニュー特選隊のメンバー、五人全員お答え下さいスタート！」

リーダー「走って！まだよまだよまだよどうぞ！」

ベジータ「ギニュー！　グルド！　えー……バータ！　……待てよ、ギニュー、グルド、バー……くそ、わからん！　あっ、ザーボン！　なにっ！？　ドドリア！　くそったれ！　ギニュー！　グル」

ブッブー！

ベジータ「はぁ……はぁ……」

関口宏「リクーム、ジース」

ベジータ「あーリクーム……」
657 名前：デフォルトの名無しさん mailto:sage [2009/02/04(水) 21:19:39 ]: new Regex( @"^0+(?!\.)" )
でString.Emptyに置き換えてみたら

でもこれだと000は""になっちゃうけど
658 名前：デフォルトの名無しさん [2009/02/04(水) 21:22:25 ]: >>655

C#の構文は知らないのですが、

/^0+(\d)/$1/

に相当する正規表現でどうでしょうか
659 名前：デフォルトの名無しさん [2009/02/05(木) 10:33:34 ]: >>657
>>658
ありがとう(・ω・)
でもダメですた(；´Д`)

^0+(?!\.)　開始0の入力が不可ですた
/^0+(\d)/$1/ 　$1がサポられてないですた

お騒がせして申し訳ありませんでした。
もう少しイジくり回してみます。
660 名前：デフォルトの名無しさん [2009/02/05(木) 11:13:55 ]: 秀丸エディタでの正規表現です。

abcdefghijxyz
abcdefg
xyzdefabc

から1行の中にabcとxyzの両方を含む行（1と3行目）を検索したいのですがどのように書いたらいいですか？

(.*abc.*xyz.*\n)|(.*xyz.*abc.*\n)
上のように書くとできるのですが含む文字列を増やした場合大変そうです。
本来はどのように書くのでしょうか教えてください。
簡単に&のような文字があるんでしょうか。
661 名前：659 [2009/02/05(木) 12:04:30 ]: お騒がせしました(・ω・)出来まｽﾀ　ｽﾀ
解：System.Text.RegularExpressions.Regex(@"(^|(?=\.))0(?=[0-9])");
ありがとう御座いました。
662 名前：デフォルトの名無しさん mailto:sage [2009/02/05(木) 13:24:20 ]: >>660
www.din.or.jp/~ohzaki/regex.htm#And
663 名前：デフォルトの名無しさん mailto:sage [2009/02/05(木) 14:27:14 ]: >>660
^(?=.*abc)(?=.*xyz).*$
664 名前：デフォルトの名無しさん mailto:sage [2009/02/05(木) 15:37:08 ]: テキストファイルの検索でファイル内に複数の単語があるかどうか検索するときには
どういった感じにすればいいんでしょうか？
665 名前：デフォルトの名無しさん mailto:sage [2009/02/05(木) 15:46:23 ]: >>664
ttp://www.pururu.co.jp/goods/item/430-0168/
666 名前：デフォルトの名無しさん mailto:sage [2009/02/06(金) 10:30:49 ]: クラスの中でグループを使いたい場合はどうしたらいいですか？

[123(456)]
とした場合1/2/3/456にマッチする。
667 名前：デフォルトの名無しさん mailto:sage [2009/02/06(金) 10:32:36 ]: 中じゃなく外でやれ。
([123]|456)
668 名前：デフォルトの名無しさん mailto:sage [2009/02/06(金) 11:17:30 ]: なるほろろ
669 名前：デフォルトの名無しさん mailto:sage [2009/02/06(金) 13:05:59 ]: いやん。中に出して！
670 名前：659 [2009/02/06(金) 18:08:08 ]: >>667 悔しいけど感じちゃう　ﾋﾞｸﾝｯﾋﾞｸﾝｯ
671 名前：デフォルトの名無しさん mailto:sage [2009/02/06(金) 20:46:31 ]: janeviewでwsh使用してますが、
2000にマッチして、DATE: 2000にはマッチしないようにしたいのですが
どうしたらいいですか？
672 名前：デフォルトの名無しさん mailto:sage [2009/02/06(金) 22:10:55 ]: (?<!DATE:)2000

かな。たぶん・・・
>>2 の
www.kt.rim.or.jp/~kbk/regex/regex.html#NEGATIVELOOKBEHIND
を読んで。
673 名前：デフォルトの名無しさん mailto:sage [2009/02/06(金) 22:14:47 ]: おっと、WSH か・・・ダメかもしれないね。
if文で２重チェックすればいいんじゃない？
674 名前：デフォルトの名無しさん mailto:sage [2009/02/06(金) 22:22:42 ]: >>2 の
.NET Framework 正規表現言語要素
msdn.microsoft.com/library/ja/cpgenref/html/cpconregularexpressionslanguageelements.asp
にちゃんと書いてあった。
.NET なら (?<!・・・・) が使えるみたいだけど、WSH はよくわからん。どこに書いてるんだろう・・・
675 名前：デフォルトの名無しさん mailto:sage [2009/02/06(金) 22:28:02 ]: WSH(JScript)の正規表現は↓でおｋ
msdn.microsoft.com/ja-jp/library/28hw3sce.aspx
676 名前：デフォルトの名無しさん mailto:sage [2009/02/06(金) 22:29:02 ]: ググったら出てきた。

正規表現による Visual Basic Scripting Edition (VBScript) の機能強化
msdn.microsoft.com/ja-jp/library/ms974570.aspx

ここには (?<!・・・) は書いてない。
書いてないから出来ない、と考えるべきか、メンドクサイから書かなかったのか。
出来ることは書くが、出来ないことは書かない。フツウ、そうだよな・・・
ちなみに文書の日付は May 10, 1999 だ。
自分で実験してたしかめろや。
677 名前：デフォルトの名無しさん mailto:sage [2009/02/06(金) 22:32:59 ]: >>675 そっちのが新しい文書やね。やっぱり (?<!・・・) は書いてない。
678 名前：デフォルトの名無しさん mailto:sage [2009/02/06(金) 22:42:20 ]: 鬼車使えばいいじゃん
679 名前：デフォルトの名無しさん mailto:sage [2009/02/07(土) 03:54:02 ]: >>672-678皆さんありがとうございます。

>>678さん
いつのまにか鬼車ってやつに変わってたんですね
ヘルプの更新してなかったので気が付かなかったです。

鬼車にしたら>>672さんのやり方で出来そうだったんですけど、
なぜか、「正規検索のテスト」のウィンドウ上だとうまく出来てるみたいなんですが、
実際に「ログから検索」にかけるとDATE: 2000が掛かってしまうみたいです。（でもハイライトされない）

結局、検索を本文のみに絞るオプションを発見して一応望む結果は出せたのですが、
何故そうなるのか、どうもしっくり来ないです…

逆に(?<=DATE: )2000でログ検索かけてみると今度は全くマッチしない状態になります。
でもテストウィンドウ上ではちゃんとマッチするんですよね…。
なんかおかしい気がします。Janeのバグなんでしょうかね？
680 名前：デフォルトの名無しさん mailto:sage [2009/02/07(土) 20:12:26 ]: hoge.net/dir/image/3桁の数字/3桁の数字.jpgというURLがあります
最後の「3桁の数字.jpg」を抜き出した意のですが、どのようにやったら綺麗にかけますか?
ヒントをください
681 名前：デフォルトの名無しさん mailto:sage [2009/02/07(土) 20:16:20 ]: /[0-9][0-9][0-9].jpg$/
682 名前：デフォルトの名無しさん mailto:sage [2009/02/07(土) 20:41:09 ]: /[0-9][0-9][0-9]\.jpg$/
683 名前：680 mailto:sage [2009/02/07(土) 20:52:29 ]: わかりました感謝します
684 名前：デフォルトの名無しさん mailto:sage [2009/02/07(土) 21:33:57 ]: /\d{3}\.jpg$/
685 名前：デフォルトの名無しさん mailto:sage [2009/02/09(月) 19:35:31 ]: gawkの質問です。
村にはヒットさせたいが、川村とか大村とか村の前に特定の文字がついた場合にはヒットしたくない場合、正規表現ではどう書けばいいでしょう?
/![川大]村/
とかでいいんでしょうか?
686 名前：デフォルトの名無しさん mailto:sage [2009/02/09(月) 21:35:40 ]: /[^川大]村/
687 名前：デフォルトの名無しさん mailto:sage [2009/02/09(月) 21:52:07 ]: ありがとうございました。
688 名前：デフォルトの名無しさん mailto:sage [2009/02/09(月) 22:03:09 ]: これだとただの「村」にはマッチしないんだよな
689 名前：デフォルトの名無しさん mailto:sage [2009/02/09(月) 22:11:32 ]: 正規表現は難しいからね。これ自体が一つのプログラミング言語と同等だし。
690 名前：デフォルトの名無しさん mailto:sage [2009/02/09(月) 22:13:29 ]: いや、それはない
691 名前：デフォルトの名無しさん mailto:sage [2009/02/10(火) 01:21:53 ]: /[^川大]村|^村/

これはどうかね
692 名前：デフォルトの名無しさん mailto:sage [2009/02/10(火) 08:51:21 ]: 後方一致
/(?<![川大])村/
693 名前：デフォルトの名無しさん mailto:sage [2009/02/10(火) 09:55:50 ]: gawkでって話だから戻り読みはなしだろう。
694 名前：デフォルトの名無しさん mailto:sage [2009/02/10(火) 23:02:24 ]: ●正規表現の使用環境
サクラエディタ v1.6.4.0

●検索か置換か？
置換

●説明
「 xml:space=preserve>」を検索のキーとして
キーを含む行末までの文を置換したい

●対象データ
<string1 xml:space=preserve> </string1>
<string2 xml:space=preserve>　　　　 </string2>

●希望する結果
<string1/>
<string2/>

よろしくお願いします
695 名前：デフォルトの名無しさん mailto:sage [2009/02/10(火) 23:27:10 ]: s/<[^>]*xml:space=preserve>//g、でどうかな。
696 名前：デフォルトの名無しさん mailto:sage [2009/02/11(水) 01:01:41 ]: * で貪欲マッチするとマズいか。
最初の文字が x だから、
s/<[^x]*xml:space=preserve>//g、でどうだ。
697 名前：デフォルトの名無しさん [2009/02/11(水) 13:40:25 ]: >>694

s/<([^\s]+)\sxml:space=preserve>[^\n]+<\/\1>/<\1\/>/g

でどうでしょう。
698 名前：デフォルトの名無しさん [2009/02/11(水) 13:44:59 ]: s/<([^\s]+)\sxml:space=preserve>[^\r\n]+<\/\1>/<\1\/>/g

改行コードが文字コードによっていろいろなので少し修正
XMLが複雑な入れ子構造だとうまく動作しない場合がありえますが
シンプルな構造で、閉じタグも同じ行にあるのなら大丈夫かも。
サクラエディタは持ってませんが（）でのキャプチャは\数字で参照できるようですね。
699 名前：デフォルトの名無しさん [2009/02/11(水) 13:47:57 ]: s/<([^\s]+)\sxml:space=preserve>[^\r\n]+<\/\1>/<$1\/>/g

こういう風にも書けるのかな
700 名前：デフォルトの名無しさん mailto:sage [2009/02/11(水) 15:55:48 ]: Perl互換の正規表現に対応しているソフトで

ab
cd

を検索するのに　/ab.cd/m　と書いたのにヒットしません。
/ab.*cd/m　も　/ab\ncd/m　もダメです。バグでしょうか？
701 名前：デフォルトの名無しさん mailto:sage [2009/02/11(水) 16:42:50 ]: >>700
そのソフトの名前を出してくれないならどこまで互換性あるのかわからないし
作者かユーザーに聞けとしか。
702 名前：デフォルトの名無しさん mailto:sage [2009/02/11(水) 17:15:32 ]: >>700
ほんとうにperl互換なら、s オプションをつければいいと思う。

/ab[\r\n]*cd/s
703 名前：デフォルトの名無しさん mailto:sage [2009/02/11(水) 18:09:38 ]: >>701
このeDocArrangementというソフトです。業務用なので値段がすごいです。試用版で勉強中です。
OCR結果から顧客名を取り出す作業をしたいと思いまして。。。
www.technostyle.net/edocarrangement/
>>702
ありがとうございました。出来ました。
\nだけではダメなんですね。詳説正規表現を読み始めたところですが、そんなことは書いてないような気がします。
別の教科書を探すべきでしょうか？
704 名前：デフォルトの名無しさん mailto:sage [2009/02/11(水) 18:12:36 ]: >>703
\r\nなのはWindows環境だからじゃないの？
それでもオープン時にテキストモード指定してれば\nでいいけど。
705 名前：デフォルトの名無しさん mailto:sage [2009/02/11(水) 18:18:46 ]: >>704
はい。窓です。正規表現の世界では異端なんですねw
706 名前：デフォルトの名無しさん mailto:sage [2009/02/11(水) 18:28:21 ]: そもそもそのデータはどうやって持ってきてるの？
もしもデータがファイルにあって、ファイルオープンのコードを自分で書いたのなら
そのパラメタが間違ってるよ。
707 名前：デフォルトの名無しさん mailto:sage [2009/02/11(水) 18:46:37 ]: >>706
OCRデータから目的のテキストだけを抜き出す作業です。
xdwファイルにOCRデータがありまして
…
氏名
西村ひろゆき
生年月日
…

というデータから名前を抜き出す作業です。
/氏名\n(.*)\n生年月日/m　で抜き出せると思って試行錯誤したんですが、うまくいかなくて泣きついた次第です。
ファイルオープンのコードをかくという作業はありません。というか、低レベルなのでそういう高度な作業はよくわからない状態です。。。

[ 続きを読む ] / [ 携帯版 ]

read.cgi ver5.27 [feat.BBS2 +1.6] / e.0.2 (02/09/03) / eucaly.net products.
担当:undef