- 328 名前:デフォルトの名無しさん mailto:sage [2012/10/19(金) 13:38:27.08 ]
- .NET 4.0 にて、HTMLのParseして遊ぼうと思い、いろいろ試していて、
LINQってのも使ってみたいから XDocument + SGMLReaderでと画策中。 ある程度ローカルで試して、さて対象のWEBページを、と挑むと、 「':' 文字、16 進数値 0x3A を名前に含むことはできません。」と… どうやらSGMLReaderが「xml:lang」ってのは直接名前として扱えない、と怒っている模様。 [対象のWEBページの先頭] ----------------------------------------------------------------- <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"> <html xmlns="www.w3.org/1999/xhtml" xml:lang="ja" lang="ja"> <head> : ----------------------------------------------------------------- この箇所は特に収集対象ではないので、最悪読み飛ばしするかなーと思ってますが、 ちゃんとした回避策があるのでしょうか? XML方面にとんと疎いので、調べてみても到達しません。 よろしくお願いします。
|

|