Sentetik Veri Kümeleri Gizliliğin Korunmasına Yardımcı Olabilir

Sentetik ağlar, bir Penn Eyalet istatistikçisine göre, bireysel ya da kurumsal mahremiyeti korurken bazı verilerin kullanılabilirliğini artırabilir.

Penn Eyaleti Eberly Bilim Koleji, istatistik profesörü Aleksandra Slavkoviç, "En büyük ilgim, gizli verilerin bilimsel keşfe yardımcı olacak şekilde daha geniş bir şekilde paylaşılmasını sağlayacak metodoloji geliştirmektir." Dedi. "Gizli verileri hassas bilgilerin keşfedilmesi için ölçülebilir minimum riskle paylaşabilmek ve yine de istatistiki doğruluk ve bütünlük sağlamak."

Slavkoviç, özellikle bilgisayar ve sosyal bilimcilerle disiplinlerarası işbirlikleri aracılığıyla bu veri gizliliği sorununa çözümler buldu. Araştırmaları, bireyler veya kurumlar gibi varlıklar arasındaki ilişki bilgilerini alan ağ verileri de dahil olmak üzere çeşitli verilere odaklanmaktadır. Washington, DC'deki Amerikan Bilimin Geliştirilmesi Derneği'nin 2019 yıllık toplantısında, bugün (16 Şubat), farklı bir gizlilik kavramına uyan sentetik ağlar sağlama yaklaşımlarını rapor etti.

Diferansiyel mahremiyet, bireylere mahremiyet kaybı seviyesinin matematiksel olarak kanıtlanabilir bir garantisini sunar.

Bilim adamları araştırmaları için başkaları tarafından toplanan verilere erişmek istiyorlar, ancak bu erişim kişisel olarak tanımlanabilen verilerin çıkarılmasından sonra bile kişisel gizliliği tehlikeye atabilir.

Slavkoviç, "Yardımcı verilerin bolluğu ana suçlu." Dedi. “Veri toplama ve kayıt bağlantısındaki metodolojik ve teknolojik gelişmeler, eldeki veri kümesiyle bağlantılı olabilecek çeşitli veri kaynaklarına daha kolay erişim ve veri paylaşımı için kurumlara fon sağlama gereklilikleri sayesinde, veri gizliliği riskleri artmaktadır. Gizlilik kaybını yönetmek için çözümler, sağlam bilimsel keşif sağlamak için çok önemlidir. "

Örneğin, bir HIV ilacı hakkında yapılan bir ilaç denemesinden aleni olarak elde edilebilir bilgiler, tedavi grubunda kimin ve kontrol grubunda kimin olduğunu gösterir. Tedavi grubu sadece HIV tanısı konan insanları içerecektir ve veri sahipleri bu veri setinden kişisel özelliklerini saklasalar bile, bazı tanımlayıcı bilgiler kalacaktı. Günümüzde çevrimiçi olarak sosyal medyada ve diğer veri kümelerinde çok fazla bilgi bulunduğundan, noktaları bağlamak ve insanları tanımlamak, potansiyel olarak HIV durumlarını ortaya çıkarmak mümkündür.

Slavkoviç, "İki veri setini birbirine bağlama teknikleri, seçmen kayıtları ve sağlık sigortası verisi büyük ölçüde gelişti," dedi. “İlk bulgulardan birinde, Latanya Sweeny (şu anda Harvard'da), bu tür verileri birleştirerek, ABD Nüfus Sayısındaki kişilerin yüzde 87'sini doğum tarihlerine, cinsiyetlerine ve 5 basamaklarına göre belirleyebileceğinizi göstermiştir. posta kodu. Son zamanlarda araştırmacılar, kullanıcıları yüzde 96,7 doğrulukla tanımlayabildiklerini göstermek için tweet'leri ve ilişkili Twitter meta verilerini kullandılar. "

Slavkoviç, yalnızca veritabanlarında yer alan ve bu bilgilerin veritabanlarında yer alan kurumlar olmadığını, veri tabanının dışındaki kişilerin de doğrudan ya da birliktelik yoluyla gizliliğin ihlal edilebileceğini belirtti. Bir veri kümesindeki bilgiler ile sosyal medyadaki bilgiler arasındaki bağlantılar ciddi bir mahremiyete yol açabilir - HIV durumu veya cinsel yönelim gibi bir şey ortaya çıkarsa ciddi sonuçlara yol açabilir.

Gizlilik önemli olmakla birlikte, toplanan veri kümeleri araştırmacılar için önemli bir bilgi kaynağı oluşturur. Şu anda, verilerin istisnai olarak hassas olduğu bazı durumlarda, araştırmacılar araştırma yapmak için fiziksel olarak veri havuzlarına gitmeli, araştırmayı daha zor ve pahalı hale getirmelidir.

Slavkoviç ağ verileriyle ilgileniyor. İnsanların veya kurumların - düğümlerin - ve düğümlerin arasındaki bağlantıların birbirine bağlılığını gösteren bilgi. Yaklaşımı biraz değişmiş, yansıtılmış ağ veri kümeleri oluşturmak, düğümlerin bir kısmı hareket etmiş, bağlantılar değişmiş veya kenarlar değişmiş.

Slavkoviç, "Amaç, sıkı diferansiyel gizlilik gereksinimlerini karşılayan yeni ağlar oluşturmak ve aynı zamanda istatistiksel özelliklerin çoğunu orijinal ağdan yakalamaktır." Dedi.

Bu sentetik veri setleri, bazı araştırmacıların araştırma ihtiyaçlarını karşılaması için yeterli olabilir. Diğerleri için, veri depolama alanına gitmeden önce yaklaşımlarını ve hipotezlerini test etmek yeterli olacaktır. Araştırmacılar, orjinal verileri depo sitesinde kullanmak için izin beklerken, kodları test edebilir, keşif araştırması yapabilir ve belki de temel analiz yapabilir.

Slavkoviç, "Tüm istatistiksel analiz taleplerini aynı tür değiştirilmiş verilerle yerine getiremiyoruz" dedi. “Bazı insanlar orijinal verilere ihtiyaç duyacak, ancak diğerleri sentetik ağlar gibi sentetik verilerle uzun sürebilir.”

İlgili haberler

Soruşturma göndermek