Hatena::Grouptech

id:rx7(@namikawa)の技術メモ このページをアンテナに追加 RSSフィード

過去記事一覧 | Main Blog (元RX-7乗りの適当な日々) | SBM (id:rx7のBookmark)

2019/02/28

nokogiri によるスクレイピング処理が途中で止まった時

| nokogiri によるスクレイピング処理が途中で止まった時 - id:rx7(@namikawa)の技術メモ を含むブックマーク はてなブックマーク - nokogiri によるスクレイピング処理が途中で止まった時 - id:rx7(@namikawa)の技術メモ nokogiri によるスクレイピング処理が途中で止まった時 - id:rx7(@namikawa)の技術メモ のブックマークコメント

色々なパターンの原因があると思うけど、今回は文字コードが原因だった。

charset = nil

html = open(url, "r:CP932") do |f|
  charset = f.charset
  f.read
end

doc = Nokogiri::HTML.parse(html, nil, charset)

↑の場合だと、取得するページにあわせて "r:CP932" を指定するような感じ。

トラックバック - http://tech.g.hatena.ne.jp/rx7/20190228