☆★★ビルメンテナン ..
[2ch|▼Menu]
296:名無しさん@引く手あまた
21/11/16 13:00:11.75 CEXh+nRy0.net
PythonによるWebスクレイピングでは、requests と Beautiful Soup の2つのライブラリが定番です。requestsでHTMLをダウンロードし、Beautiful Soup で解析して情報を取り出します。
Beautiful Soup でHTMLの中からHTML要素を取得するには「find系」(find_all()、find())と「select系」(select()、select_one())という2タイプのメソッドを用います。
機能は2つとも同じであり、検索条件に合うHTML要素を返します。
異なるのは「検索条件の指定方法」です。例えば、href属性が”sample.pdf”のa要素を検索するには、それぞれ以下のような書き方になります。どちらも同じ要素を返します。
soup.find_all("a", href="sample.pdf")
soup.select("a[href='sample.pdf']")
このように、find_all()メソッドは「要素名」に続いて「属性」をキーワード引数で指定できます。一方、select()メソッドは、「CSSセレクタ」が使えます。
find_all()とselect()は要素をリストで返しますが、以下の表のようにマッチする要素をひとつだけ返すメソッドも用意されています。


次ページ
続きを表示
1を表示
最新レス表示
スレッドの検索
類似スレ一覧
話題のニュース
おまかせリスト
▼オプションを表示
暇つぶし2ch

151日前に更新/594 KB
担当:undef