Articles

データを守りながら、社会をより良くする ——「暗号×プライバシー保護」研究の挑戦 SDC4Societyプロジェクトが目指すもの

南 和宏, 岩崎 香具矢(編集), 服部 優子(挿絵)

掲載日: 2026.07.01

テクニカルレポートNo. 1

皆さん、こんにちは。「SDC4Society」プロジェクトで研究代表者を務めております、情報・システム研究機構の南です。本記事では、当研究プロジェクトが立ち上がった背景や目的、具体的な研究内容について、できるだけ分かりやすくご紹介します。 

「データを使いたい」と「個人情報を守りたい」は両立できるか?

現代社会はデータによって支えられています。例えば、患者のゲノム情報(遺伝子変異)と病気のデータを分析することで、どの遺伝子変異がどの病気の発症リスクと関係しているのかを明らかにできる可能性があります。また、複数の企業が物流データを共有することで、サプライチェーン全体の効率化や無駄の削減が期待されます。さらに、公的調査データを詳細に活用できれば、社会的格差や少子化などの課題に対して、より効果的な政策の立案が可能になるでしょう。 

しかし、そこには根本的なジレンマがあります。データを活用すればするほど、新たな発見や価値を生み出せる一方で、個人のプライバシーが侵害されるリスクも高まります。本プロジェクトは、このジレンマを解決するための統計的開示抑制(SDC: Statistical Disclosure Control、以下SDC)と呼ばれるプライバシー保護技術の研究開発に取り組んでいます。そして、これらの技術を社会実装することで、安全かつ有効なデータ利活用の実現を目指しています。 

国内のプライバシー保護研究の精鋭が集結

本プロジェクトは、科学技術振興機構(JST) 経済安全保障重要技術育成プログラム(K Program)の研究開発構想「セキュアなデータ流通を支える暗号関連技術(高機能暗号)」に採択され、プライバシー保護技術や応用暗号技術の分野で国内トップクラスの研究者20名以上が参画しています。情報・システム研究機構、群馬大学、中央大学、京都橘大学をはじめとする全国の研究機関が連携し、理論研究から実証実験、そして社会実装までを一体的に推進します。 

研究期間は2025年度から2029年度までの5年間です。この期間を通じて、官民が保有する実データを活用した実証実験を実施し、安全性と有用性を両立したデータ利活用技術の確立を目指します。そして、SDCと高機能暗号を融合した新しいデータ保護基盤を構築することで、「安全なデータ流通」の先進的なモデルを国内外に発信し、情報セキュリティやプライバシー保護の側面からデータ駆動型社会の発展に貢献していきます。 

「匿名データ」は本当に安全?——意外なほど脆い現実

「個人情報を取り除いた匿名データなら安全では?」と思う方も多いかもしれません。しかし、現実はそれほど単純ではありません。 

1997年、米国マサチューセッツ州の公的機関は、氏名住所、社会保障番号などの個人を直接識別できる情報直接識別子を削除した医療保険に関するデータを研究者向けに無料配布していました。一見すると安全な匿名データに見えますが、当時マサチューセッツ工科大学(MITの大学院生だったLatanya Sweeneyは、この医療保険データと公的に入手可能な有権者名簿に共通に含まれる生年月日・性別・郵便番号の3つの属性を手掛かりに2つのデータの個人のレコードを照合しました。その結果、当時の州知事のWilliam Weldの医療記録を特定し、病名まで判明させることに成功したのです。この事例は、氏名等の直接識別子を削除しただけでは完璧な匿名化とは言えず、別のデータと照合することで個人が再識別される可能性があることを示した代表的な例として広く知られています。 

日本でも同様の問題が起きています。2013年、JR東日本と日立製作所は、Suica利用履歴データを活用した分析サービスの開始を発表しました。JR東日本は氏名や電話番号などの直接識別子が含まれていないSuicaの乗降履歴データを日立製作所に提供し、日立製作所はそのデータを分析して、駅周辺のマーケティングや都市分析に活用する計画でした。提供されたデータには個人を特定する直接識別子が含まれていなかったため、JR東日本は「個人情報には当たらない」と説明していました。 

しかし、利用者への十分な説明や周知がないままデータ提供が進められていたことが報道されると、乗降履歴から推定される利用駅の組み合わせや行動パターンによって個人が特定されるおそれがあると懸念されました。一連の出来事を受けて、データ提供に関する事前説明や周知のあり方、移動履歴のプライバシー性について社会的な議論が生じました。 

これらの事例が示しているのは、統計データや匿名データであっても、公開や共有の方法によっては個人情報の漏えいや再識別のリスクを伴うという厳しい現実です。このように、統計情報の公開によって個人や組織に関する情報が推測・特定されてしまう問題は「統計開示(statistical disclosure)と呼ばれ、世界中でデータ利活用を進める上での重要な課題となっています。このような統計開示のリスクを抑えながら、データの有用性をできるだけ維持するための技術群が、SDCです。 

「暗号化したまま計算する」という革命的な発想

次に、本プロジェクトのもう一つの柱である「高機能暗号について紹介します。 

高機能暗号とは、データを暗号化したまま計算できる技術です。通常、データを分析するためには一度復号して中身を見る必要があります。しかし、高機能暗号を使えば、データの中身を誰にも見せることなく、暗号化したまま分析処理ができます。ただし、実際の分析処理はもう少し複雑で、データを提供する複数組織間で、暗号化されたメッセージを交換する「高機能暗号プロトコルとして実行されます。図1の高機能暗号プロトコルは複数組織のデータを統合するデータ分析の途中過程の情報を暗号技術で守りながら、最終的な分析結果のみを平文で復元できます。まるで魔法のような技術ですが、近年急速に研究開発が進み、実用化も始まっています。SDCが「公開するデータを安全に加工する技術」だとすれば、高機能暗号は「データを公開せずに活用する技術」と言えます。 

1:高機能暗号で実現する異なる組織のデータ統合

例えば、病院A・病院B・病院Cがそれぞれ患者データを保有しているとします。これらのデータを統合して分析できれば、より大規模なサンプルを用いて、疾患と薬の効果や副作用との関係を高い精度で解析できるようになります。しかし、各病院は患者のプライバシーを守る必要があるため、他の病院に患者データをそのまま提供することはできません。高機能暗号を用いれば、各病院はデータを外部に開示することなく、暗号化されたまま共同で分析を行うことができます。その結果、患者のプライバシーを保護しながら、単独の病院では得られない規模の知見を得ることが可能になります。 

高機能暗号を用いれば、このような仕組みは医療分野に限りません。金融機関同士が顧客データを直接共有することなく不正送金を検知したり、複数のメーカーや物流事業者が機密情報を開示することなくサプライチェーン全体を最適化したりすることが可能になります。このように、複数組織に分散したデータに対する横断的な分析を、プライバシーや企業秘密を保護しながら実現できるのです。 

しかし、ここにも重要な落とし穴があります。高機能暗号は、計算中のデータを保護することはできますが、計算結果そのものが安全であることまでは保証してくれません。つまり、高機能暗号によって「計算の過程」におけるデータの秘匿性は守られても、計算が終わった後に公開される「結果」から、元の機密情報が推測されてしまう可能性は残ります。このようなリスクは、高機能暗号だけでは防ぐことができないのです。 

例えば、複数の病院が高機能暗号を用いて共同分析を行い、「特定の遺伝子変異を持つ患者は特定の薬に高い効果を示す」という結果を得たとします。しかし、分析対象となった患者数が極端に少ない場合、その結果から特定の患者の疾患や遺伝情報が推測されてしまう可能性があります。このように、高機能暗号は計算中のデータを守る技術であって、分析結果の公開に伴うプライバシーリスクを直接防ぐ技術ではありません。

本プロジェクトが目指すもの——「出口」まで守る完全な防御

高機能暗号が「データを使う過程」を守る技術だとすれば、「分析結果を公開する段階」を誰が守るのでしょうか。その答えがSDC技術との連携です。SDCとは、公開するデータや分析結果に対して、修正、集約、削除、ノイズの付加といった「秘匿処理」を施し、個人や組織の機密情報が漏えいするリスクを低減するための方法論です。したがって高機能暗号出力する分析結果についてはSDCの技術で別途安全な統計データに変換することが必要です。ただし、図2のように、高機能暗号プロトコルの出力にSDCを適用する単純方式では高機能暗号プロトコルからSDCに提供される平文のデータの安全性が保証されないという課題が残ります。

図2:高機能暗号の出力へのSDC技術のナイーブな適用

そこで本プロジェクトでは、SDC技術そのものを高機能暗号のプロトコルとして実装することを目指しています(図3。これにより、データが暗号化された状態で処理される段階から、分析結果や統計データとして公開される段階まで、一貫したセキュリティを実現します。 

具体的には、高機能暗号によって計算過程におけるデータの秘匿性を保証し、SDCによって公開されるデータや分析結果の開示リスクを制御します。つまり、計算中の安全性は暗号技術によって、公開後の安全性はSDCによって担保することで、データが生成されてから共有・分析され、最終的に公開されるまでの「ライフサイクル全体」にわたるプライバシー保護を実現します。 

このように、高機能暗号とSDCを統合して連携させることが、本プロジェクトの中核となるコンセプトです。 

図3:高機能暗号とSDCのシームレスな連携によるデータ流通ライフサイクル全体でのデータ保護

3つの研究テーマ

このビジョンを実現するために、研究チームは3つの柱で研究を進めています。

  1. プライバシーモデルの体系化
    これまで世界中で、さまざまなプライバシー保護技術が提案されてきました。しかし、それぞれの技術は異なる攻撃者モデルや利用場面を想定しており、安全性や有用性を単純に比較することはできません。そのため、実際のデータ利活用の現場では、「どのような状況で、どの技術を選択すべきか」という明確な指針が十分に整備されていないのが現状です。
    本プロジェクトでは、これらのプライバシー保護技術を共通の枠組みの下で理論的・実証的に整理し、それぞれの特徴や適用条件を体系化します。さらに、アメリカやヨーロッパをはじめとする各国の公的統計機関における実践事例を調査・比較しながら、安全性と有用性の観点から各手法を評価します。これにより、「どのようなデータに対して、どの程度のリスクを許容し、どの手法を適用すべきか」を示す実践的なガイドラインの整備を目指します。
  2. 高機能暗号によるSDC技術の効率化
    本プロジェクトでは、SDC処理を暗号化されたデータに対して直接実行できる新たな暗号プロトコルを開発します。これにより、データを復号して第三者に開示することなく、安全な統計処理やデータ分析を実現します。例えば、複数の組織が互いのデータを共有できない場合でも、それぞれのデータを秘匿したまま共同で分析を行うことが可能になります。また、データ提供者の個人情報を保護したまま統計処理を実行することもできます。さらに、開発した技術は研究成果にとどめるのではなく、誰もが利用できるソフトウェアとして公開する予定です。これにより、安全なデータ利活用技術の社会実装を加速し、産学官のさまざまな分野での活用を促進します。
  3. 高次元データへの差分プライバシー技術
    複数の組織が保有するデータを組み合わせると、多数の項目を含む大規模で複雑なデータが生成されます。このような「高次元データ」※に対して従来のプライバシー保護手法を適用すると、多くの情報を削除したり大幅に加工したりする必要があり、分析に役立つ情報まで失われてしまいます。本プロジェクトでは、この課題に取り組むため、高次元データの構造を活用しながら、情報損失をできる限り抑えつつ、差分プライバシー※による厳格なプライバシー保護を実現する新しい手法を開発します。これにより、データの価値を維持したまま、安全なデータ利活用を可能にします。

実現すれば、社会はどう変わるか

最後に、本プロジェクトの成果が社会にもたらす恩恵と将来展望についてお話しします。

本プロジェクトでは、SDC技術と高機能暗号技術を実務で活用するためのガイドラインを整備します。このガイドラインでは、多様なプライバシー保護技術を体系的に整理し、それぞれの特徴や適用条件を明らかにするとともに、実際の利用場面に応じてどの技術を選択・適用すべきかを示します。これにより、企業や行政機関、研究機関が安心してデータ利活用に取り組める環境の実現を目指します。

また、重要なSDC技術や高機能暗号プロトコルを実装したソフトウェアを自由に利用可能な形で公開することで、研究成果を広く社会に還元します。これにより、安全なデータ利活用技術の普及と社会実装を加速し、医療、金融、物流、公的統計など幅広い分野での活用を促進します。

SDCおよび高機能暗号技術の社会実装は、段階的に進めていきたいと考えています(図4)。

図4:本プロジェクトの研究成果活用
公的統計の安全な公開から行政・民間データの統合まで

第一段階では、公的統計データから作成される統計表を、これまでよりも詳細な粒度で安全に公開できるようになります。従来はプライバシー保護の観点から公開が難しかった統計情報についても、SDC技術を活用することで開示リスクを抑えながら提供することが可能になります。例えば、政府は町丁目レベルの世帯所得分布や、年収と未婚・既婚状況のクロス集計といった詳細な統計情報を安全な形で公開できるようになります。これにより、自治体は地域ごとの実態をより正確に把握し、子育て支援や福祉施策、地域活性化施策などをより効果的に設計できるようになるでしょう。また、研究者や企業にとっても、社会課題や市場動向をより深く分析するための貴重な基盤データとなります。

第二段階では、政府や省庁、自治体など複数の組織に分散して保管されているデータを、高機能暗号プロトコルを用いて安全に横断分析できるようになります。これにより、個々の組織では把握できなかった社会課題の全体像を明らかにすることが可能になります。

例えば、税務データと社会保障データを組み合わせることで、所得格差の是正に向けた税・社会保障政策の効果をより精緻に評価できるようになります。また、人口動態や地域経済に関するデータを横断的に分析することで、少子高齢化への対応や地域の実情に応じた政策立案も可能になるでしょう。

さらに第三段階では、行政機関が保有するデータと民間企業が保有する大規模データを、安全性を確保しながら連携・分析できるようになります。これにより、医療、交通、物流、金融、エネルギーなど幅広い分野でデータ活用が進み、社会全体の最適化が加速すると期待されます。

例えば、医療機関の診療データと製薬企業の研究データを連携させることで新たな治療法の開発が促進されるかもしれません。また、物流事業者や小売事業者のデータを組み合わせることで、サプライチェーン全体の効率化や環境負荷の低減も期待できます。

このようにSDC技術と高機能暗号技術は、相反すると見なされてきた「データの利活用」と「プライバシーの保護」を両立させ、これまで使えなかったデータを安全に活かせる社会への扉を開きます。その恩恵を最終的に受けるのは、私たち一人ひとりです。本プロジェクトは、プライバシーへの信頼を土台に、データの価値を社会全体で安全に引き出していく——そうした持続可能なデータ利活用社会の実現を目指します。

用語解説

  • 統計的開示抑制(SDC)・・・公表する統計データから、特定の個人や企業の機密情報が逆算されるのを防ぐプライバシー保護技術。数値を伏せる(マスキング)・大まかにまとめる(再符号化)、わずかな誤差を加える(ノイズ付加)といった処理を施し、回答者のプライバシーを守りながら、研究やビジネスに使えるデータとしての有用性をできるだけ保つことが目的です。
  • 直接識別子・・・氏名、住所、電話番号など、それ単体で個人を直接特定を可能にする情報のこと。
  • 再識別・・・匿名化されたデータを、他の情報との突合などにより、特定の個人と再び結びつけてしまうこと。
  • 統計開示・・・公表された統計データや集計結果から、本来明らかにすべきでない個人・組織の情報が推測または特定されてしまうこと。
  • 高機能暗号・・・データを暗号化したまま処理(計算・検索など)できる暗号技術。中身を隠したまま活用できる点が、従来の暗号と異なる。
  • 復号・・・暗号化されたデータを、鍵を用いて元の読める状態(平文)に戻すこと。
  • 高機能暗号プロトコル・・・プロトコルとは、複数の人や組織がメッセージをやり取りする際の手順を定めたものであり、暗号プロトコルでは、送信途中でメッセージが盗まれるのを防ぐためにメッセージを暗号化します。通常の暗号プロトコルでは、受け手はまず暗号化されたメッセージを復号してから処理しますが、高機能暗号プロトコルでは暗号化されたまま処理できるため、データを処理する人とデータの最終的な受け手を分離できます。
  • 差分プライバシー・・・データを分析・公開する際に、特定の個人がデータに含まれているかどうかが結果に与える影響を抑え、個人の情報を推測されにくくするための技術。集計結果などにノイズ(ランダムな揺らぎ)を加えることで、この保護を実現する 
  • 高次元データ・・・人やものなど、ある対象について、多数の項目や特徴を含むデータ。たとえば、購買履歴、位置情報、健康情報、行動履歴など、多くの項目を組み合わせたデータを指す。