Webページの本文を抽出

必要になったので探してみるとさすが先達。

使うのも簡単。

$KCODE="u" # 文字コードは utf-8
require 'extractcontent.rb'

# オプション値の指定
opt = {:waste_expressions => /お問い合わせ|会社概要/}
ExtractContent::set_default(opt)

html = '' # 解析対象 html 
body, title = ExtractContent::analyse(html) # 本文抽出
Webページの本文抽出 (nakatani @ cybozu labs)

オプションはいろいろ設定できるようだけど何もデフォルトでもかなりの精度。