Scribble at 2025-05-29 17:51:51 Last modified: 2025-05-29 21:45:00

添付画像

A thought on JavaScript "proof of work" anti-scraper systems

LLMs の学習データをウェブ・スクレイピングされないように抑制する仕組みを提案してるんだけど、こんなことしなくても、たとえばフロント・ページだけアクセス可能にしておいて、そこからのリンクでしかページを閲覧できないようにしておけば、少なくともホットリンクでいきなりコンテンツをスクレイピングされるようなことは防げる。フロント・ページからリンクしている URI に、1時間おきに生成し直した公開鍵をシリアライズしてクエリにした文字列を付けて、アクセスしたら復号してコンテンツを見せるようにすればいい。

こういう、「正面玄関からのアクセスしか正規のアクセスとして認めない」というポリシーは、敢えて書くけどアダルト・サイトなら20年以上も前からやってるんだよね。つまり、いまでも大半のアダルトサイトはランキングと称して相互リンクの体裁をとっていて、ランキングのカウントは「あなたは18歳以上ですか?」という風営法で求められる年齢確認の扉ページを通過してメイン・ページに遷移しないといけない。それ以外のホットリンクで下層のページにアクセスはできるけれど、そういうアクセスはランキングに反映されないのだ。なので、あまり詳しくは書かないが、扉ページにアクセスしてから 0.5秒後~3.5 秒後のあいだでランダムに、正規のアクセスであるかのようにメイン・ページへアクセスするという二段階の偽アクセスを大量に送って、相手のサイトでランキングを引き上げるという、事実上の RPA みたいなことを20年前には既にやっていたわけだよ。これは昔から言ってるし、僕自身も電通なんかのプレゼン会議とか喋ってる話だけど、ウェブ・アプリケーションやオンライン・サービスのデザイン(ダーク・パターンも含めた)から負荷分散に至る最前線の技巧は、アダルト業界がリードしてるんだよね。GMO や楽天が、しょせんは風俗コンテンツ業者上がりの上場企業であることからして、その事実を裏書きしている。

  1. もっと新しいノート <<
  2. >> もっと古いノート

冒頭に戻る