さんざんperlでスクリプトを試作した結果、もしかしてスクリプトで書こうとしてることwgetだけで全部できる?と思い立ち実験中。実際、できそうなのだけど、オプションの指定の仕方がまずいのか、無駄なダウンロードがまだ発生してしまう。複数の記事をまとめて表示するページは個々の記事がダウンロードできてさえいれば不要な二次加工物なのでダウンロード自体させたくないのだが、「ダウンロードする=>acceptリストに一致しないので削除」という動作になってしまう。ダウンロードしないパターンを--rejectオプションでに明示しないといけないのかな。
http://kreisel.fam.cx/webmaster/file/wget-tutorial/wget.html
それと、wgetですべてまかなおうとしたときに困るのが、htmlのファイル名は同じだけど中身だけが前回のDLと変わっているケースをフォローできないこと。「再ダウンロードしない」とすると更新に追随できないし「再ダウンロードする」とするとファイルがバックアップなしで上書きされて前回の状態が保存できなくなるのではないかと不安。必ずバックアップが取られる場合はそれはそれで「ファイルの内容が変わっていない場合でもバックアップが作られてHDDが圧迫される」というリスクもある。