どの情報が「個人を識別しうる」のか?

セス・シェーン(Seth Schoen)
(翻訳: Takayuki Kawamoto)

Original document was appeared as “What Information is ‘Personally Identifiable’?” on 2009-09-11 at Electronic Frontier Foundation.
1st appeared at www.markupdancing.net: 2016-04-05 15:26:23.
This usage of original document should follow the terms of Attribution 3.0 United States (CC BY 3.0), and this translation is also redistributed under the same license.

X 氏(Mr. X)は郵便番号 02138 の場所に住んでいて、1945 年 7 月 31 日に生まれた。

X 氏に関するこれらの事実は、匿名化の処理を施した上で公開されている医療情報に含まれている。これだけを見れば、X 氏が誰であるかは、なかなか分からないように見えるのではなかろうか。

しかしそうではない。もしあなたがラターニャ・スウィニー(Latanya Sweeney、カーネギー・メロン大学でコンピュータ・サイエンスを教える教授であり、1997 年に、この X 氏が誰であるかを上記の情報だけで簡単に突き止められることを示した人物)なら、この X 氏がウィリアム・ウェルド(1990 年代にマサチューセッツ州の知事を務めた人物)であることを知りうるからだ。

性別、郵便番号、そして生年月日だけなら、それが誰なのかは分からないように見える。しかし、スウィニー教授は二つの理由で、それだけの情報からウェルド知事を特定できた。第一に、それらの事実は個人についての情報(あるいは、ふつう個人を特定するために使われていないと思われている事実)であり、それぞれ独立に母集団から個人を絞り込むのに使える。したがって、性別、郵便番号、生年月日の組み合わせは、アメリカ合衆国の人口にして約 87% の人がそれぞれ固有の組み合わせをもっている[*]。もしあなたがアメリカに住んでいるなら、他のアメリカ市民が誰一人として、あなたの性別、郵便番号、生年月日の組み合わせと一致しない可能性が 87% あるというわけだ。そして第二の理由は、私たちが別のデータ素材にアクセスしうることである(スウィニーは、マサチューセッツ州の登録有権者のデータベースを使った)。別のデータ素材にアクセスすると、私たちは特別な方法を使うことなく、他人について氏名や住所といった馴染み深い識別情報を始めとする色々な事実を調べられる。現実には、私たちについての「匿名化された(“anonymized”)」情報、あるいは「単なる(人口動態)統計上の(“merely demographic”)」情報と言われているものは、ぜんぜん匿名になっておらず、単なる統計データでもない。(そして、「匿名」ユーザに対して、自分自身についての些細に見える情報をあれこれと聞くようなサイトは、実はそうした情報を使って個人の固有な特徴を特定したり、更には他のデータベースと照らし合わせて、そのユーザを具体的な人物として特定しようとしているかもしれない。)

[*] 訳注:論文のページがなくなっているため、書誌情報を記す。Latanya Sweeney, “Uniqueness of Simple Demographics in the U.S. Population,” Carnegie Mellon University, School of Computer Science, Data Privacy Lab White Paper Series LIDAP-WP4. Pittsburgh, PA: 2000.

最近は多くのプライバシー法制や議論において、「個人を識別可能にする情報(PII: “personally identifiable information”)」という概念が話題の中心になっている。PII の概念は、幾つかの制度と多くの団体のプライバシー・ポリシーで使われていて、一般的には、或る人物を特定する情報であって、人物を特定しない情報よりも取り扱いに注意を要する(sensitive [*])ものと考えられている。例えば、次のような情報だ。

[*] 訳注:もちろん法律では “sensitive information” を「機微情報」と言い表すのだが、もともと日本語としての「機微」とは「外からうかがい知れない、他人の複雑な内面」のことであり、こうした日本人の浪花節というかセンチメンタルな言葉の使い方が、PII と「プライバシー」とを混同したり、「プライバシー」の概念自体を何か情緒的なものとして誤解する元凶の一つになっていると考えている。したがって、当サイトでは “sensitive” を「~よりも取り扱いに注意を要する」と訳す場合がある。もちろん、既存の法制度を議論するときは(わざわざ字面を換えて混乱を引き起こす必要などないので)「機微の」という表現も使う。

そしてどの事例においても、「個人を特定しうる」あるいは「人物を特定しうる(“individually identifiable”)」と見做される事実は、それらの法律や規則によっていきなり高度な保護を受けているかもしれない。

しかし、スウィニー教授や他の専門家の研究が明らかにしたところでは、驚くべきことに数多くの事実、そこには全く差し障りが無いように思える事実や中立な事実、あるいは「ありふれた(“common”)」事実も含まれているのだが、それらの事実もまた潜在的に個人を特定するのに使えるのである。プライバシー法、これは主に識別可能性という歴史ある直観的な概念に関わるのだが、この法令は多くの場合に技術という点での現実に追いついていない。

近年、ポール・オームの「プライバシーの約束は破られた:匿名化の驚くべき過ちへ応える(“Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization”)」という論文では、この点について綿密な概要と有効な見通しを与えている。オーム教授の論文は、個人のプライバシーについて関心をもつ人ならば誰であろうと読む価値がある。なぜなら、ラターニャ・スウィニーやアルヴィンド・ナラヤナン(Arvind Narayanan)のような研究者たちが匿名化を破った方法を紹介して、伝統的なプライバシーの概念が前提にしていたことを覆してしまったからだ。とりわけ、「個人を識別可能にする情報(“personally-identifiable information”)」と「個人を識別可能にしない情報(“non-personally-identifialbe information”)」という二者択一の区別を維持するのは、どんどん困難になっている。或る情報が「匿名である(“anonymous”)」かどうかという我々の直観は、しばしば間違う。適切な状況や見識のもとでは、殆どあらゆる種類の情報が個人を特定するために使えるかもしれず、我々についての情報は自分たちで思っていたよりも我々について多くのことを伝えるかもしれないし、長い目で見ると、事実を “PII” であるとかないとか区別しようとする包括的な企ては、疑わしいことなのである。

統計的推論と、データベースの巧みな利用方法とは、匿名化されたデータ、すなわち多くの組織で PII と見做されてこなかった種類のデータを脱匿名化する印象的な事例をもたらしてきた。人口動態データの組み合わせ以外にも、幾つかの種類の事柄、つまり検索語句、購入の傾向、音楽や本あるいは映画についての意見や好み、あるいは社交関係の成り立ちようですら――抽象的に言うと、あなたの友人や連絡相手が具体的にどこの誰であるかを無視してすら――、あなた自身をうまく個人として特定するかもしれないのだ。脱匿名化は有効であり、それは我々が直観的に思っているよりもはるかに簡単なのである。潜在的に我々を識別する幾つかの変数が与えられたら、我々は自分たちで予想するよりもずっと他人と違っているのであり、更に我々が知っているよりも多くのデータ素材があって、特定の記録に該当するのが誰なのかを正確に絞り込むのに使えるかもしれないのである。

こうした数々の論文は、次のような [間違った] 理解の根拠になっていた。すなわち、人々は幾つかの種類のデータによって潜在的に再識別(re-identified)されうるかもしれないが、全員がそうなるわけではない。全ての人達の医療情報が、ウェルド知事のように特定の人物の名前を弾き出すわけではない。そしてナラヤナンとシュマティコフの研究では、映画の評価から正確に特定できたのは Netfix の二人のユーザであったにすぎない――映画を評価したあらゆるユーザのデータが Netfix によって公表されたわけではない。しかし、これら多くの研究は、敢えて個人に関する全てのデータを扱わないでおいたからこそ、そのような結果になっただけである。なぜなら、これらの研究の目的は数学的なテクニックの有効性を示すことにあり、個人のプライバシーを侵害することにはなかったからだ。現実の攻撃者ならば、利用しうるもっと多くの種類の情報を同時に使って、人々を特定するために絞り込もうとすることだろう。ブルース・シュナイア(Bruce Schneier)が見て取ったように、こうした攻撃は時に連れてどんどん改善されてゆくのみであって、決して劣悪になったりはしないのだ。

オームによると、識別可能性を一つの連続体として考えれば更に妥当となる。したがって、「匿名化された(“anonymized”)」データや「余計なものを取り除いた(“sanitized”)」データという概念には疑問の余地がある。研究者たちは、個人に紐づけたコード番号をもつデータの一揃いを普段から共有したり、それを公表することさえある。そして、このようなふるまいには重大な問題があった。ちょうど、AOL が「匿名化された」検索ログを公表したとき、それが検索語句の中身だけから何人かの個人を特定できてしまったという問題に至ったのと同じである。

我々としては、「プライバシーの約束は破られた」という論文がパーソナル・データに関わる人々に読まれて、彼らのあいだに普及している業務や停滞した業務を再考するよう促したり、いま使っている匿名化と脱匿名化のテクニックの有効性について反省してもらえればと願っている。また、こうした議論が多くの人々の注目を集めて、脱匿名化の時代にあって「プライバシー保護」が何を意味するかを、研究者、技術者、そして法律家たちが幅広く議論を始めるための手助けができたらと願っている。

冒頭に戻る


※ 以下の SNS 共有ボタンは JavaScript を使っておらず、ボタンを押すまでは SNS サイトと全く通信しません。

Google+ Twitter Facebook