Öneri sistemleri günümüz internetinde her yerde bulunur hale geldi. İçerik yayın platformları, e-ticaret siteleri ve sosyal ağların tümü, hizmetlerini kişiselleştirmek amacıyla önerilerden yararlanıyor. Ancak öneriler, son kullanıcı için – yeni favori sanatçınızı keşfetmekten, ilgi alanlarınızla ilgili gelişmelerden haberdar olmaya kadar – büyük fayda sağlayabilirken, modern öneri motorları kullanıcı önerilerini (ör. tıklamalar, görüntülemeler, fare kaydırmaları) kullanıcı gizliliğini ihlal etmek pahasına toplayarak oluşturuyor.

Kısa süre önce Brave, tarayıcıya entegre edilmiş gizliliği koruyan haber toplayıcısı olan Brave News’i tanıttı. Bu hizmet, kullanıcıların en sevdikleri haber kuruluşlarının RSS beslemelerine anonim olarak abone olmalarını ve en son haberleri tek bir yerden takip etmelerini sağlıyor. Kullanıcılar, 15 farklı kaynak kategorisi arasından seçim yapabiliyor ve kaynak ekleyerek veya çıkararak haber akışını kolayca özelleştirebilir.

Normalde, Google News veya Apple News gibi haber toplayıcılar, kullanıcılara ilgilendikleri makaleleri ve yayınları bulmalarına yardımcı olmak için haber tavsiye hizmetleri sunar. Bunu yapmak için sağladıkları hizmetlerdeki tıklama davranışlarına dayalı olarak kullanıcılarının ilgi alanı profillerini oluştururlar. Örneğin ne açtınız, bir makalede ne kadar süre kaldınız, neleri görüntülediniz veya neleri hiç açmadınız… Brave, Kullanıcılarının profillerini çıkarmıyor çünkü hassas veya tanımlanabilir kullanıcı verilerini toplamama konusunda çok katı bir politikaları var. Bu nedenle, Brave News’de kullanıcı gizliliği pahasına öneriler sunulmuyor, bunun yerine el yapımı buluşsal yöntemler uygulanıyor.

Önerileri kullanıcı verilerine dayandıramamak, kullanıcıya uygun içerik önerme yeteneğini büyük ölçüde sınırlamakta. İdeal olarak kullanıcıların cihazları, bu hassas bilgileri Brave dahil başka kimseyle paylaşmak zorunda kalmadan, zaman içinde kullanıcıların neyle ilgilendiğine dair kalıpları gözlemleyecek kadar akıllı olmalı. Bu amaçla, sunucularda kullanıcı etkileşim verilerinin bir araya getirilmesini gerektirmeyen, cihaz üzerinden gizliliğe saygılı önerilerde bulunmak amacıyla yeni bir çerçeve öneriyoruz. Bu çerçeveyi bu blog gönderisinin geri kalanında açıklamaya çalışacağız.

Not: Son zamanlarda, Google’ın “gizlilik” ve “üçüncü parti çerezleri kaldırma” hedeflerine yönelik önerisi olan FLoC’u (Federe Öğrenme Yoluyla webi izleme) duymuş olabilirsiniz. Bu öneri, mahremiyetin ne olduğuna dair yanlış bir fikri teşvik ettiği ve nihayetinde sadece başka bir izleme türü olduğu için ağır bir şekilde eleştirildi (bkz. Bu blog gönderisinde açıklanan tekniklerin ve sistemin FLoC ile tamamen ilgisiz olduğunu ve Brave’in ziyaret ettiğiniz web siteleri ve ilgi alanlarınızla ilgili bilgileri ifşa etmediğini vurguluyoruz.)

Gizlilikle Birleştirilmiş Federe Öğrenme

Gizliliğe saygılı Federe Öğrenme tavsiyeleri üzerine olan bu çalışma, gelecekte Brave ile mahremiyet korunarak Federe öğrenimden nasıl yararlanmanın planlandığının yalnızca bir örneği. Bu yeni paradigma, Brave News için yerel haber önerileri gibi yeni hizmetler sunulmasına ve hali hazırda mevcut olan yerel reklam gösterimlerinin optimize edilmesine olanak sağlayacak. Bu devam eden çaba hakkında daha fazla bilgi için gönderimizi okumaya devam edin.

Sisteme Genel Bakış

Brave, Federe öğrenmeye gizlilik öncelikli yeni bir çerçeve öneriyor. Federe Öğrenme [1] son yıllarda önemli bir ivme kazanmıştır. Bu yaklaşım, merkezi bir sunucunun kullanıcı verilerini toplamasına ve depolamasına gerek kalmadan tahmin modellerini işbirliği içinde öğrenmesine olanak tanıyor. Kullanıcılar özel verilerini kendi yerel modelleri üzerinde eğitir ve yalnızca yerel model güncellemelerini merkezi bir sunucu ile paylaşır. Merkezi sunucu, tüm yerel modellerin toplamı olarak global bir model hesaplar ve işlemin tekrarlandığı kullanıcılara geri gönderir. Brave’in çerçevesinde 4 ana bileşen var: İstemci, LDP Modülü, Proxy Ağı ve Sunucu.

İstemci ve LDP Modülü

Başlangıçta, her istemci xu’yu gömerek kendi yerel kullanıcısını rastgele başlatır. İstemci sunucudan gelen öğe matrisi V’yi sürekli olarak işlemek, yerel kullanıcı yerleştirmesini güncellemek ve bir yerel öğe matrisi gradyan güncellemesi ∇V üretmek için kullanmakla görevlendirilir. İstemci, yerel kullanıcı yerleştirmesini asla kimseyle paylaşmaz. Yerel öğe matrisi güncellemesi, LDP modülü tarafından özelleştirilir ve proxy ağı ile güvenli bir şekilde paylaşılır. İşlem tamamlandıktan sonra cihazdaki önerileri hesaplamak için alınan en son öğe matrisi ile birlikte yerel yerleştirme müşterilerce kullanabilir.

Proxy Ağı

Özelleştirilmiş güncellemeler proxy ağına ulaştığında meta verileri (yani IP adresi) güncellemelerden çıkarılır, güncellemeler parçalara bölünür, mevcut zamanlama modellerini kırmak için diğer kullanıcıların güncellemeleriyle karıştırılır ve son olarak sunucuya iletilir. Proxy ağı, her çağda her istemciden gelen birden çok güncellemenin akışları arasındaki bağlantının kesilmesiyle ilgilenir. Bu, kullanıcı parmak izini büyük ölçüde azaltır ve öneri sahibinin, hem dönemler içinde hem de dönemler arasında uzunlamasına bir profilinin oluşturulmasını engeller.

Sunucu

Öncelikle sunucu, paylaşılan modelin global bölümünü oluşturan bir öğe matrisini rastgele başlatır. Bu, aşama 0’da birleşik öğrenme sürecini başlatmak için tüm istemcilere gönderilir. Her aşamada, yeterli özelleştirilmiş gradyan güncellemesi sunucuya ulaştığında, bunlar bir global öğe matrisi güncellemesi \NablaV oluşturmak için bir araya toplanır. Bu, daha sonra bir sonraki federe öğrenme dönemini başlatmak için her müşteriye gönderilen güncellenmiş bir madde matrisi V’ hesaplamak için kullanılır.

Model Güncellemelerini Gizli Yapma

Federal Öğrenmede kullanıcı özel verileri istemciyi asla doğrudan terk etmemesine rağmen her istemciden sunucuya model güncellemeleri biçiminde bir bilgi çıkışı var. Brave kullanıcıların model güncelleştirmelerini korumak amacıyla diferansiyel yerel gizlilik ve seyrek iletişime dayalı bir özelleştirme mekanizması seçiyor. Diferansiyel gizlilik, her kullanıcının modele, model çıktısına belirli bir kullanıcının katkısını göstermeyecek şekilde katkısını oluşturuyor.

Gradyan güncellemelerini sunucuya göndermeden önce özelleştirmek için, [2]’de önerilen rastgele ikili yanıt mekanizmasını öneri görevimize uyarlıyoruz. Önerilen uyarlama, gerçek değerli, çok boyutlu öğe gradyan matrisini \NablaV alır, rastgele bir öğe ve ondan bir faktör seçer ve seçilen gradyan değerini iki zıt küresel sabitin B,−B iletim frekansında kodlar.

Bu mekanizmanın ∇V~ çıktısı, iletişim verimliliğini büyük ölçüde artıran basit bir tanımlama grubu ile temsil edilebilir. Bu tür demetlerden k tane üretiliyor; burada k, her kullanıcının katkıda bulunduğu seçili güncelleme sayısıdır. Artan k, protokolün faydasını iyileştirir, ancak sonuçta gizliliği zayıflatır, çünkü daha fazla bilgi özelleştirilir.

Bu tür mesajların tek bir gözleminin, tek bir kullanıcının temel parametre güncellemesi hakkında çok az veya hiç bilgi vermediğini belirtmek önemlidir. Ancak, merkezi parametre sunucusunda toplandıktan sonra bu güncellemeler, madde gradyan matrisi ∇V’nin yansız bir tahmincisi yapmak için bir araya gelir.

DENEYSEL ÖZET

İŞE YARIYOR MU?

Performansı, güncelleme başına gizlilik bütçesi ϵ, güncelleme sayısı k ve nüfus büyüklüğünün bir fonksiyonu olarak çizerek önerilen sistemin etkinliğini gösteriyoruz. Sorunumuz için en kolay ayar bu olduğundan, başlangıçta 1.000 öğelik küçük bir öğe seti boyutuna odaklanıyoruz.

Halihazırda 10.000 kullanıcı ve güncelleme başına gizlilik bütçesi ϵ 2.5 için rekabetçi performansa (HR@10 ≈ 0.65) ulaşabileceğimizi gösteriyoruz. Katılımı 50.000 kullanıcıya çıkardığımızda, HR@10 0,7’ye gizlilik bütçesi ϵ 1 kadar düşük bir seviyede ulaşıyoruz.

Öğe seti daha büyükse ne olur?

Göz önünde bulundurulan öğelerin sayısı arttıkça performansın nasıl geliştiğini anlamak için araştırmamızı 1.000’den büyük öğe setlerine genişletiyoruz. Küçük popülasyon boyutu için, en küçük öğe setinde bile neredeyse hiç öğrenme (HR@10=0.1160) mümkündür. Orta nüfus (10.000 katılımcı) için, yalnızca 1.000 öğeli ayarları göz önünde bulundurduğumuzda iyi fayda gösteriyoruz, ancak öğe seti boyutu 5.000’e yükseltildiğinde fayda hızla düşüyor. Beklendiği gibi, 50.000 katılımcı kullanıldığında, yardımcı program daha yavaş düşüyor ve tüm öğe seti boyutları kabul edilebilir performans HR@10>0.5 gösteriyor.

Sisteminiz çeşitli kıyaslamalarda nasıl karşılaştırılır?

Doğal bir üst sınır belirlemek amacıyla geleneksel mahramiyeti olmayan matris çarpanlara ayırmayı (MF-NP) üst limit olarak belirledik. Sistemimizi ayrıca Gao ve diğerleri ile karşılaştırıyoruz. [5] Bildiğimiz kadarıyla mevcut literatürdeki en karşılaştırılabilir yöntem olan DPLCF. Sistemimiz FMF-LDP olarak belirtilmektedir. Tam 20M MovieLens veri kümesi üzerinde test ediyoruz.

Sistemimiz, kullanıcı gizliliğinden ödün vermeden makul bir fayda sağlamanın mümkün olduğunu gösteren 5 kat iyileştirmeye karşılık gelen 0,5 ve daha yüksek HR@10 ile rastgele taban çizgisini açıkça geride bırakıyor. Beklendiği gibi, sistem özel olmayan eşdeğerinin performansına uymuyor ve ayrıca Gao ve diğerlerinin gerisinde kalıyor. [5], ancak biz, kullanıma hazır 20M MovieLens veri setinin sağladığından daha uygun kullanıcı ve öğe setiyle yöntemimizin aslında rekabetçi bir alternatif olduğunu savunuyoruz.

Yazının orjinal metnine buradan ulaşabilirsiniz.

Referanslar

[1] H. B. McMahan, E. Moore, D. Ramage, and B. A. y Arcas, “Federated learning of deep networks using model averaging,” CoRR, 2016. Available: http://arxiv.org/abs/1602.05629

[2] T. T. Nguyen, X. Xiao, Y. Yang, S. C. Hui, H. Shin, and J. Shin, “Collecting and Analyzing Data from Smart Device Users with Local Differential Privacy,” Available: http://arxiv.org/abs/1606.05053

[3] J. A. Calandrino, A. Kilzer, A. Narayanan, E. W. Felten, and V. Shmatikov, “”You might also like:” Privacy risks of collaborative filtering,” Proceedings – IEEE Symposium on Security and Privacy, 2011.

[4]  S. K. Lam, D. Frankowski, and J. Riedl, “Do you trust your recommendations? an exploration of security and privacy issues in recommender systems,” Emerging Trends in Information and Communication Security, 2006.

[5] C. Gao, C. Huang, D. Lin, D. Jin, and Y. Li, “DPLCF: Differentially Private Local Collaborative Filtering,” SIGIR 2020 – Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval, 2020.