Scribble at 2023-04-20 09:13:47 Last modified: 2023-04-20 09:28:37
「シュプリンガー(Springer)祭り」と言われてもピンと来ない人も多いため、簡単に紹介しておく。2015年の年末に、何の告知も前触れもなく SpringerLink という学術誌のサイトで(僕が知る限りでは)全ての論文や著書の PDF あるいはウェブ・ページが無償で閲覧できる状態になった。僕がこれを知ったソースは覚えていないのだが、恐らくは Twitter かブログ記事だった筈だ。さっそくアクセスしてみると、individual での年間購読料が10万円に近い Philosophical Studies や Synthese や ERKENNTNIS を始めとして、Springer がサポートしている学術雑誌をいくらでも読める状態になっていた。いつごろからこうなっていたのかは分からないが、日本時間で12月30日には終了していたらしい。プロパーでも電子書籍や論文をダウンロードした人はいたようで、もちろん何らかのトラブルが原因であった可能性は高いため、あまり表立ってダウンロードしたと言う人は少なかった。僕も、これは Springer がオープン・アクセス運動の一環でやったとは思っておらず、たとえば年末のクリスマス・キャンペーンなどで一部のコンテンツをオープン・アクセスにしようとして、間違って全てのコンテンツを開放してしまったのかもしれない。しかし、同時期にコンテンツを開放するキャンペーンは実施されていなかったので、そういうキャンペーンでの設定変更を間違ったのかどうかは、いまだに不明だ。これについて Springer は正式なコメントを出しておらず、もちろん意図的であろうと事故であろうと著作権者や隣接著作権の権利者から何らかの法的なアクションを起こされるリスクを考慮しているのだろう。
上記のスクリーン・ショットは、当時の様子である。なんでこんな画面が残っているかと言うと、僕は当時は Firefox のアドオンである Scrapbook というツールを使っていたので、これはウェブページをリンク先のファイルまで含めて根こそぎダウンロードしてしまう機能があるから、ページごと PDF を保存したのである。ここから誰でも想像できると思うが、僕はこのツールを使ってそれなりの数の学術誌を創刊号から当時の最新号まで全て自動で拾い上げたので、それらの学術誌については2015年までの全ての論文を手元のパソコンで読めるわけである。もちろん、大学教員は大学の図書館は institution プランで契約しているだろうから、こんなことをしなくても研究室の端末からアクセスして幾らでも読めるだろう。でも、アマチュアはそんなわけにはいかないので、法的に問題があるわけでもなければ、スクレイピングの負荷や転送量として Springer に過剰な負荷をかけているわけでもないなら、あるていどの数のダウンロードは許されよう。
なお、ページのダウンロードはインターバルを設定して、過剰な負荷をかけないようにした。でないと、いわゆる「岡崎市立中央図書館事件」と同じことをやっていることになる。あれは日本の有名なセキュリティ関係者は「事件」ではないと言っているが、過剰なスクレイピングは偽計ないし威力業務妨害と見做せると思う。僕は、API を提供しているわけでもない公共図書館ていどの予算で運用されているサーバへ1秒ごとに検索のリクエストを実行することは「過剰なスクレイピング」に該当すると思う。このリクエストでサーバのパフォーマンスが落ちた直接の原因は、サーバの設定や運用システムの開発が未熟であり、僕のように有能ではなくとも最低限のスキルを備えた人材をプログラマやサーバ・エンジニアとして雇わなかったことにあるのだろうが、標準的な環境だったとしても結論は同じである。