Webページの本文を抽出

必要になったので探してみるとさすが先達。

使うのも簡単。

$KCODE="u" # 文字コードは utf-8
require 'extractcontent.rb'

# オプション値の指定
opt = {:waste_expressions => /お問い合わせ|会社概要/}
ExtractContent::set_default(opt)

html = '' # 解析対象 html 
body, title = ExtractContent::analyse(html) # 本文抽出
Webページの本文抽出 (nakatani @ cybozu labs)

オプションはいろいろ設定できるようだけど何もデフォルトでもかなりの精度。

forコマンド

Q: 連番のファイルをどうこうしたい

http://example.com/photos/0001.jpg ... 0022.jpgというようなファイル群を一括で手に入れたい。

Cheep Answer

$ wget http://example.com/photos/0001.jpg
$ wget http://example.com/photos/0002.jpg
$ wget http://example.com/photos/0003.jpg
...
$ wget http://example.com/photos/0021.jpg
$ wget http://example.com/photos/0022.jpg

Better Answer

#!/usr/local/bin/ruby
22.times do |i|
  s = "%02d" % (i + 1)
  `wget http://example.com/photos/00#{s}.jpg`
end

Best Answer

$ for i in `seq -w 1 22`
for> wget  http://example.com/photos/00$i.jpg