Scribble at 2023-10-26 14:14:45 Last modified: unmodified
上の引用は、この記事に付けられた "That One Guy" 氏によるコメントの一部だ。確かに、メディアや学術研究者の一部においては、そういう履歴を残すことにも何ほどかの意義があろう。ただ、僕らはメディアにそういう緻密な「改訂履歴」のようなものを保存したり公開することを求められるかどうかと言えば、それには限界がある。それに、一文字や二文字の修正を履歴として保存することに、どれだけの意味があるのかも不明だ。もちろんコストが大きくなければ、やっていけない道理はないだろうから、たとえば僕が PHILSCI.INFO でやっているような差分の検知に基づいた改版履歴を自社であろうと他人であろうと残すことは簡単だ。
僕がやっているのは、日本科学哲学会と科学基礎論学会のサイトが更新されたかどうかで、何か新しいコンテンツが追加されたかどうかを判定するという仕組みの運用だ。これは、双方のトップ・ページ対して毎時5分(つまり1時間ごと)にスクレイピングを実行し、レスポンスされたページのペイロードを入力としたハッシュ値を生成し、そのハッシュ値を前回の結果から得たハッシュ値と比較して、違っていればページが更新されたものと見做している。もちろん、これはスペース文字1個を削除しただけでも検知に引っかかるので、不正確な判定基準ではあるが、これまでに大きな問題は起きていない。また、僕は一般論としてウェブ・スクレイピング(ブラウザのいわゆる「先読み機能」も含む)の濫用は好ましくないと思っているので、せいぜい頻度は1時間ごとにしている。これが1分ごとだと、僕はやりすぎだと思う。1分おきに日本科学哲学会のサイトが更新されたかどうか気にする科学哲学のプロパーなんていないだろう。まさかサイトで宝塚や AKB47 の興行チケットを販売するわけでもあるまいし。