Scribble at 2024-09-03 15:02:56 Last modified: 2024-09-04 10:54:27
RSS and ATOM feeds are problematic for two reasons; 1) lack of history, 2) contain limited post content. We built some open-source software to fix that.
確かに、筆者が指摘するように RSS フィードには履歴がないため、更新されて内容が変わってしまうと過去の投稿内容が記録から消えてしまう。最近の X は一定数の投稿しか遡れないので、こういう「ソーシャルな」コンテンツというものは、なんだかんだ言っても刹那的な情報処理に訴えることが優先されるのだろう。なぜかと言えば、古い情報を見たところで、その情報に関連する商品が販売されているとは限らないからだ。つまるところ全ては広告媒体として価値があるかどうかが基準になっているのだと考えれば、陰謀論かどうかはともかく辻褄は合う。
RSS がサイトのコンテンツに関する経時的なデータベースであれかしという欲求は分からなくもないが、そのためにツールを使ってスクレイピングするというのは、ちょっとどうなんだろうと思う。僕がもともと機械的でやみくもなウェブ・スクレイピングは推奨しないという考え方だから疑問に思うという事情はあるけれど、それを差し引いて考えたとしても、関心のあるブログやサイトの古いコンテンツを知りたいのであれば、端的にそれらのサイトを表示してアーカイブを見たらいいだけではないか。あるいは、この場合でも Google の結果は信用できないと言いうるが、Google で "site: domain" のオプションを使って、インデックスされている記事の中から目当てのキーワードを含むページだけを拾い上げるという手もある。
なんでそう、個々人が個別にそんなことをしようとするのか、いまいちよく分からないんだよね。かつて流行した decentralization ってことなのかな。でも、それって単なるアナーキズムなんじゃないの。