[Python3] Python3でスクレイピングしてみた

ちょっとPythonを使うことがあったのでメモ。

なかなかクソなwebアプリからログを取りたいのだがcsv出力の機能がなかったのでスクレイピングで拾ってきました。

存在以上のページを指定すると404が出るわけではないので(文字化けしてページが永遠に作成される)、どこかに書いてある最大ログ数を取って来てループを回しています。(次へが押せなくなるとかもない)

HTMLタグにidとかclassがついていれば”Beautiful Soup”というモジュールを使えば10行くらいで完成するのですが、一つもタグになかったのでXPathを使って指定しています。

また、ブラウザでXPathをコピーするとTBodyタグが抽出出来たのですが実際のソースには無かったみたで、めちゃくちゃハマりました。(ブラウザが補完している模様)

正規表現を使うためだけに”re”をimportしたり、モジュールを使いまくる感じでした。

初めてPythonを触ったのでぐちゃぐちゃなコードですが。。。

おまけ

コマンドライン引数の使い方

実行する時にファイル名の後ろに文字列をいれますが、Pythonでは0番目にファイル名が自動で入ります
なので文字列の最初はargs[1]なんです。

おもしろい!

ご指摘や改善点ありましたらどんどんコメントください

シェアする

  • このエントリーをはてなブックマークに追加

フォローする