Articles

匿名化研究の出発点 ――William Weld知事の医療情報「再識別」事件

著者名:南 和宏, 岩崎 香具矢(編集), 服部 優子(挿絵)

作成日:2026.07.03

テクニカルレポートNo.2

今日は、匿名化手法の研究の重要性が認識されるきっかけになった、情報漏えいのリスクを示す有名な事例を紹介します。

この興味深い事例は、Latanya Sweeney による再識別※が現実に起こり得ることを示し、k-匿名性(k-anonymity) の概念が生まれる直接の経緯になりました。

何が起きたのか

1990年代半ば、マサチューセッツ州の公的機関であるGroup Insurance Commission(GIC)は、州職員の医療保険に関するデータ(以下、医療データ)を研究者向けに無償で提供していました。

公開にあたっては、氏名・住所・社会保障番号といった、いわゆる「直接識別子」※は除去されていました。当時のWilliam Weld州知事も、「匿名化されているのでプライバシーは守られている」と公に説明していました。

しかし、ここに落とし穴がありました。除去されたのはあくまで直接識別子だけで、データには生年月日・性別・郵便番号 といった情報に加え、患者1人につき、1回の受診あたり約100もの属性が残されていました。氏名さえ消せば安全だ、という発想がこの公開の前提にありました。

わずか20ドルの突合

当時、マサチューセッツ工科大学(MIT)の大学院生だった Sweeney は、この前提の危うさを実証してみせました [1]

彼女は、Weld知事が居住するケンブリッジ市の 有権者名簿を、わずか20ドルで購入しました。この名簿には、ケンブリッジの有権者54,805人の氏名・住所・生年月日・性別・郵便番号が記載されており、 GICの医療データと共通する3つの項目(生年月日・性別・郵便番号)が含まれていました。

Sweeney はこの3点を手がかりとして両者の値を照合、知事の医療記録を一意に絞り込みました。絞り込みの過程はこうです。ケンブリッジで知事と同じ生年月日の人物は6人。そのうち男性は3人。さらにそのうち、知事と同じ郵便番号のエリアに住んでいたのは、知事ただ1人でした [2]。こうして、匿名化されていたはずの医療記録の中から、知事本人の診断名や処方の記録が特定されたのです。そして Sweeney は、特定したその医療記録を、知事のオフィスに送りました。匿名化が破られたことを示す、痛烈な「証拠」として。

なぜこれが重要なのか ―― 準識別子という考え方

この事例が突きつけたのは、「氏名や社会保障番号を消せば匿名化は完了する」という常識が誤りだということでした。

生年月日・性別・郵便番号は、それぞれ単独では個人の特定は困難です。しかし、これらを組み合わせに対して、外部の情報(ここでは有権者名簿)と照合することで、個人を一意に言い当てられてしまう。こうした「単独では個人を特定できないが、複数を組み合わせると対象者を絞り込め、個人の特定につながる属性」を、準識別子と呼びます。

図1は、Sweeney が示した「リンケージ※による再識別」の仕組みを表しています [3]。左の円は病院由来の医療データ、右の円は選挙管理委員会が公開する有権者名簿です。氏名や住所といった直接識別子は医療データ側から除かれていますが、両者には生年月日・性別・郵便番号という3つの属性 (円が重なる中央部分) が共通して存在します。この共通項目をキーにして2つのデータを結合すれば、匿名のはずの診断名や処方が、有権者名簿側の氏名・住所と再び結びついてしまいます。

中央に並ぶ数値は、これらの共通属性がどれだけ強力に個人を特定するかを定量化したものです。ケンブリッジ市の有権者名簿を対象に、それぞれの属性の組合せで一意に特定される人の割合を表しています。

  • 生年月日のみ ―― 12%
  • 生年月日 + 性別 ―― 29%
  • 生年月日 + 郵便番号(5桁) ―― 69%
  • 生年月日 + 郵便番号(9桁・全桁) ―― 97%

ここで注目すべきは、生年月日にごくありふれた1項目を足すだけで7〜9割もの人が一人に絞られてしまうことです。人の指紋が個人を一意に特定するように、データの中にも「フィンガープリント(指紋)」※とでも言うべき、その人にしか当てはまらない値の組み合わせが潜んでいます。匿名化されたデータも、外部に適切な照合先があれば、この指紋を手がかりに再識別され得る――これがこの事例の核心的な教訓です。


図1. 医療データと有権者名簿の「リンケージによる再識別」

k-匿名性の誕生

では、どうすればこうした再識別を防げるのか。Sweeney がこの問題への答えとして提案したのが k-匿名性 です [2]

アイデアはとても単純です。Weld知事が個人を特定されてしまったのは、「生年月日・性別・郵便番号」という組み合わせが、知事ただ1人にしか当てはまらなかったからでした。であれば逆に、同じ組み合わせの人が、いつも何人かはいる状態にしておけばいい――これが k-匿名性の発想です。

たとえば「同じ特徴を持つ人が、データの中に最低でも5人はいる」ように整えておけば、外部の名簿と突き合わせても候補が5人に散らばり、「これがあの人だ」と1人に絞り込むことはできません。この「最低何人に紛れているか」の人数がkで、kが大きいほど個人は群衆の中に埋もれやすくなります。5人に紛れるより、10人に紛れるほうが安全というイメージです。

では、どうやって「同じ特徴の人」を増やすのか。やり方は大きく2つです。

一つ目は、情報をわざと粗くすること。たとえば生年月日を「生まれた年」だけにしたり、郵便番号の上3桁だけにしたりすると、それまでぴたりと一致していた人どうしが同じグループにまとまり、見分けがつかなくなります。二つ目は、どうしても浮いてしまう目立った特徴をもつ人やデータを思い切って消してしまうことです。

ただし、ここに悩ましさがあります。情報を粗くすればするほど、データは「安全」になる一方で、分析には「使いにくい」ものになっていきます。守りを固めれば役に立たなくなり、役立たせようとすれば守りが甘くなる。この「プライバシー」と「データの有用性」の綱引きこそ、匿名化という営みの宿命であり、いまも研究が続いている理由でもあります。

その後の影響

この事例と Sweeney の研究は、制度にも実際の影響を与えました。米国の医療情報を扱う HIPAA プライバシー・ルール※ は、18種類の識別子を削除・加工することを求めています。その中には Sweeney の研究を反映して、生年月日を年だけに一般化する、郵便番号を上3桁までにする(しかも人口の少ない地域ではさらに加工する)といった具体的な規定が含まれています。まさに、Weld知事の事例で医療記録を言い当てる手がかりとなった準識別子を、制度として抑え込もうとしたわけです。

おわりに

Weld知事の事例は、「明示的な識別子さえ消せば安全」という素朴な匿名化観が崩れた瞬間を象徴しています。20ドルの名簿と、生年月日・性別・郵便番号というありふれた3項目。それだけで、州知事の医療記録という最も機微な情報が暴かれてしまった。この衝撃が、準識別子・k-匿名性・そしてその後の差分プライバシーへと続く、匿名化研究の長い歩みの出発点になりました。

なお、この事例は語り継がれるなかで単純化されてきた面もあり、再識別が実際にこれほど容易だったのかについては批判的な再検討も存在します[4]

用語解説

  • k-匿名性(k-anonymity)・・・データの中で、同じ特徴(準識別子)を持つ人が常に少なくともk人いるようにする考え方。例えば、同じ条件に当てはまる人が5人いれば、その中の誰の情報かを1人に絞り込みにくくなる。
  • 準識別子・・・それ単体では個人を特定できなくても、複数を組み合わせると個人の特定につながる可能性がある情報のこと。生年月日、性別、郵便番号などがその例。
  • リンケージ・・・別々のデータを、共通する情報を手がかりに結びつけること。例えば、2つのデータに同じ生年月日や郵便番号が含まれていれば、それらを手がかりに同じ人の情報として結びつけられる場合がある。
  • フィンガープリント・・・データの中で、その人を見分ける手がかりになる特徴や情報の組み合わせを指す。
  • HIPAA プライバシー・ルール・・・国で、患者の医療情報をどのように扱うかを定めた法律。医療機関や保険者などに対して、個人が識別される情報の利用や提供を制限し、プライバシーを守ることを求めている。

参考文献

  1. Paul Ohm, “Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization,” UCLA Law Review 57: 1701-1777, 2010.
  2. Latanya Sweeney, “k-Anonymity: A Model for Protecting Privacy,” International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 10(5): 557–570, 2002.
  3. Latanya Sweeney, “Computational Disclosure Control: A Primer on Data Privacy Protection,” Ph.D. dissertation, Massachusetts Institute of Technology, 2001.
  4. Daniel C. Barth-Jones, “The ‘Re-Identification’ of Governor William Weld’s Medical Information: A Critical Re-Examination of Health Data Identification Risks and Privacy Protections, Then and Now,” SSRN, 2012.

参考文献の補足説明

  1. 匿名化がなぜ破られるのかを、法と技術の両面からわかりやすく論じた代表的論文。Weld事例も紹介されています。
  2. k-匿名性を定式化した論文。Weld知事の医療記録が特定される過程も記されています。
  3. Sweeneyの博士論文。MIT の学位論文リポジトリで全文公開されています。
  4. Weld事例の「あざやかな再識別」という通説を、当時の人口データから批判的に再検討した論考。