Scribble at 2023-12-09 13:58:40 Last modified: unmodified
そら、こんな画像を Stable Diffusion が吐き出したら Getty が怒るのも無理はない。何年か前にソフトバンクのサイトでダミー用に充てられていたサンプル画像がそのまま公開されてしまったという事故があったけれど、サンプルの画像を LLM のトレーニング・データとして食わせるなんてことは、それを上回る意図的な行いであろう(本来なら、Getty をスクレイピングの対象からドメインごと外すべきだからだ)。
かように、昨今は初心者のプログラミングで題材のように扱われていることすらある「ウェブ・スクレイピング」だが、セキュリティあるいは知財という観点での制御機構を実装する注釈もなしに、やみくもに他人のサイトからテキストや画像を引っ張り上げる行為を手放しで推奨したり、中国の「愛国無罪」ならぬ「テクノロジー無罪」といったデタラメを素人に誤解させるようなプログラミングの本は、大人として書くような文章とは言えない。このところは統計や LLM という流行に乗じて Python を使った本が多いようだが、しょせんはコーディングしか知らぬ、社会人として半端者の著者は恥を知るといいと思うね。