Autopagerize SITEINFO XPathとの闘いと読み込まないページの謎

 XPath は便利なんだろうけど、全く理解していなかった自分。
 Firebug + firepath で猛勉強とテスト。何とか参考書買わずに動き出した。

 上手くいくようならWedata.net にも登録しようと思う。理由はFirefoxは開発用でその他PCで見るときだけのために。
 暫くAutopagerizeのコードを弄ることで弱点もあった。
1. POSTメソッドに対応していない。
これはしていない方が良いのかもしれないが、「次のページ」をクリックしてもURLが変化せず、戻るボタンを押すと「ページの有効期限切れ」になったりするホームページには対応していない。
 これについては大規模にソースを改造すると出来そうだが、POSTメソッドは通販サイトの「買い物かごに入れる」やクレジットカードの番号の送信に用いられることが多いので、SITEINFOの書き方によってはラーメンを1000杯頼んでしまい、ユーザーが破産するかもしれない。
2. 短縮URLやSEO対策による違うドメインへのリダイレクト。
 Privoxyというのでも何とかなるらしいが、ニュースサイトのトップページなんかに良くある無用な転送リンク。目的はトラッキングやSEOなんだろうけど。
 yahoo.co.jpのトップページのリンクは特に顕著でマウスカーソルを充てると rd*.yahoo.co.jp/* と出るけど、押してみると http://news.yahoo.co.jp となる。
 余談だが見ている限り yahoo.co.jp は一番この手のリダイレクトが多い。yahoo.com でもこんなに酷くない。目的がトラッキングならHTTP1.0時代の古いGETか、chorome のトラッキング拒否などの対策。
 ここで、Autopagerizeの気持ちになってみると、ユーザーの設定によっては意図しないnextLinkを拾った場合収集が付かなくなる。
 そのためどうやら同一ドメインであることを要求しているらしい。
 AutoPager をやめたのもこの問題のせいで、Autopagerはソースを弄るのがハードルが高かったことから Greasemonkey for Autopagerize にした。
 ソースコードを弄れるのは良いのだが。 最近の JavaScript は・・・・・。前に熱中してたのは丁度AjaxからjQueryになるころだったし。
 さて何処から手を付けるか(笑)