Webサイトのメタタグを取得するsite-parserをつくった
Webサイトのメタデータを抽出するツールを作成しました。
https://github.com/shoyan/site-parser
使い方
- git clone git@github.com:shoyan/site-parser.git
- cd site-parser
- bundle install
- site.csv をテキストエディタで編集
- ruby site-parser.rb
site.csv にパースしたいURLを記入して ruby site-parse.rb
とすればメタデータが表示されます。
1 | $ ruby site-parser.rb |
また、サーバーを起動してAPIとして利用することもできます。
サーバーを起動
1 | $ ruby server.rb |
APIを実行
1 | $ curl http://localhost:4567 -X POST -d "url=http://www.yahoo.co.jp/" |
その他
内部的にはNokogiriを使ってhtmlをパースしています。
文字化けして内容がみれない場合があったので、以下のワークアラウンドをいれました。
1 | html = URI.parse(url).read |
参考資料
以下が参考になりました。ありがとうございます。
- Nokogiri を使った Rubyスクレイピング [初心者向けチュートリアル]
- kogiriで文字化けを防ぐ
- [Ruby]スクレイピングのためのNokogiri利用メモ