Beautiful Soup 4について覚えておきたい自分メモ

Beautiful Soup4のドキュメントを読みながら勉強中。読み終わったら、seleniumのものを読みたい。

読んで「ほぉ〜なるほどなぁ」ってなったことも、いずれ忘れてしまうので、「なるほどなぁ…これ忘れたらなにやってるかわからんようになるな」っていう自分だけのポイントを残しておきたいと思う。

  • find_all() の name 引数に値を渡すと、タグの名前だけを対象に検索する。 テキスト文字列は無視。name 引数は文字列, 正規表現, リスト, 関数, True値をとることができる。
  • find_all(id=True)とすると、id属性に値が入っている全てのHTMLタグを見つける。このとき、値は何でも良い。
  • ”class”はPython予約語のため、class をキーワード引数として用いると文法エラー。  class_ というキーワード引数でCSSのクラスを検索する。

他も長々と書いてあったけど、そういう細かいのはまた追い追い必要になった時に調べるようにしよう。

 

Beautiful Soup Documentation — Beautiful Soup 4.4.0 documentation