Scribble at 2024-07-23 07:31:34 Last modified: unmodified
生成 AI を特にビジネスで利用する場合の注意点というものは、大別して4つの着眼点で整理するとよい。いま社内のガイドラインを制作している実務家が無償で全て解説するのもどうかと思うので、ひとまず一つだけご紹介しておこう。
まず、何と言っても生成 AI で利用している「データ」だ。Stable Diffusion が登場したときに騒がれたように、この生成 AI モデルが元にしたトレーニング用のデータは、もともとドイツの大学で研究目的に収集したデータであった。研究目的という理由で、著作権があるイラストや絵画や企業のロゴや有名人の写真など、スクレイピングで無差別に取り込んでいた可能性があり、したがって Stable Diffusion は研究目的のデータを使って営利に転用しており、つまりは「データ・ロンダリング」であるとの批判が集まって、色々なコンテンツ制作・販売企業から訴えられて現在に至っている。特に Stable Diffusion では、版権があるアニメ作品のキャプチャーなどを元にして、名前をプロンプトとして入力するだけでアニメのキャラが出てくるという特性があったので、その特性を逆に利用して、著作権を侵害してデータを集めた分散モデルを使っているかどうかを判定する「アスカ・チャレンジ」という手法が流行したこともある。ということで、画像の生成に限ったことではないが、分散モデルを作成するにあたってトレーニングに利用したデータが著作権や肖像権を侵害していないかどうか、あるいはプライベートな写真を公開したブログ記事などからスクレイピングしている場合はプライバシーの侵害にもなりえるので、データの出どころに関する確認は必要だろう。
ただ、「ウェブ・スクレイピング」を気楽に何の法的リスクもないかのように解説している、この国の技術関連のクズみたいなライターどもや出版社の態度で分かるように、本当のところスクレイピングしたデータの安全性なんて、犯罪者どもが自分で安全性を調べたり証明できるわけがないので、それを強制的に証明させるには訴訟しか無いというのが実情だ。だが、自分の写真や著作物の権利が侵害されているかどうか分からない状況では当事者かどうかもわからないのだから、訴えるべき「当事者」というものが誰なのか(つまり自分がそうなのか)分からないという事情で、まだ本格的なクラス・アクションは起きていない。要するに、いまのところ生成 AI を提供している事業者は、そういう原理的な問題で訴訟を起こしようがないという現状に甘えているだけなのである。例外として、自分自身の名前を入力するだけで自分の作品が出力されたというアーティストやコンテンツ・ホルダーだけが訴えられているのが実情だ。
そうなると、エンド・ユーザとしてデータの信頼性や安全性をどうやって確認するのかということになるが、これははっきり言って「不可能」である。分散モデルのデータを利用し公開している側がトレーニングに利用したと称するメディアやテキストのデータを一緒に公開していたとしても、本当にそれだけなのかどうかを確証する手段がない。簡単に言えば、犯罪の容疑者に身の潔白を証明させるようなものだ。通常の刑事裁判でも同じく、逆に有罪の証拠を示して証明できない限り、「疑わしきは罰せず」の原則があるので、多くの場合に無罪となりえる。そして、たいていのエンド・ユーザは利用している生成 AI サービスのデータについて有罪を立証するだけの証拠をもっていないので、はっきり言えばデータの安全性なんて僕らにはわからないのだ。よって、たとえば安全性が第三者や公の機関によって確証されているデータだけを使ってトレーニングした分散モデル(それでもアルゴリズムによって異なる結果が生成できる)を元にしているという認証制度のようなものが今後は必要になるかもしれないが、いまのところは生成 AI を提供している本人たちの自己申告による。たとえば、Adobe などは安全なデータで生成 AI のサービスを提供していると自ら宣伝しており、法的な問題が生じたときの責任を負うと言っていたりする。