はじめに
前回に引き続き、Ruby Nokogiri Anemoneを使ってスクレイピングに挑戦したいと思います。
前回は特定のサイトのタイトルのみを取得する簡単なプログラムでしたので、今回は少しだけ進めて
特定のブログのトップページの記事タイトルとURLを取得してみたいと思います。
前回に引き続き、Ruby Nokogiri Anemoneを使ってスクレイピングに挑戦したいと思います。
前回は特定のサイトのタイトルのみを取得する簡単なプログラムでしたので、今回は少しだけ進めて
特定のブログのトップページの記事タイトルとURLを取得してみたいと思います。
さっそくJRubyをインストールしてみましょう。
基本的には下記のコマンドになります。
$ cd /usr/local/src/ $ sudo wget https://s3.amazonaws.com/jruby.org/downloads/9.0.5.0/jruby-bin-9.0.5.0.tar.gz $ sudo tar zxvf jruby-bin-9.0.5.0.tar.gz $ sudo mv jruby-9.0.5.0/ /usr/local/jruby
ただ、今回は上記の方法ではなく、rbenvでインストールしてみたいと思います。
今回はjruby-9.0.0.0をインストールしてみます。
Rubyでスクレイピングする方法について考えてみたいと思います。
調べてみたところ、「Nokogiri」と「Anemone」を使用すれば、比較的簡単にスクレイピングが実現できそうだということがわかりました。
さっそく試してみたいと思います。(正確にいえば、クローラーといったほうが良いかもしれません)
前提としてbundlerがインストールされている必要があります。
bundlerについて詳しくはruby on railsの記事で紹介していますのでそちらをご覧いただければと思います。
なお、インストールは下記のようにすればOKです。
gem install bundler
まず前提としてMacにRubyがインストールされている必要があります。
Rubyのインストールについては下記の記事を参考してみてください。
RubyのインストールはMacだと簡単です。
今回はrbenvというツールを使ってRubyをインストールしてみたいと思います。
まず、なぜrbenvというツールを使用するかについてですが、Rubyはバージョンによってコードが動かなかったりする場合があるので、手軽にバージョンを切り替える必要があります。
そこで、バージョンを管理するためのツールが必要になるのですが、それがrbenvです。