2023'te Makine Öğrenmesi: Neredeyiz ve Nereye Gidiyoruz?

Beyninizin unutabilmeyi dilediğiniz o korkunç derecede utanç verici anının bir klibini tekrar oynatarak geceleri hiç uyumadan yattığınız oldu mu? Bazı anıları aklımızda tutmak nahoş, verimsiz ve hatta zararlı olabilir. Keşke insan beynimiz bir şeyi unutma yeteneğine sahip olsaydı, biz de bunu yapmak isterdik.

Görünüşe göre makineler ve machine learning modelleri aynı zorlukla karşı karşıya: verimsiz veya zararlı anıları unutmak her zaman ” sil” üzerine basit bir tıklama kadar sorunsuz ve kolay olmuyor.

Peki makinelerin unutmasını sağlayan bu alan nedir?

İçindekiler

Makine Öğrenmesi’ne Giriş
Uygulamalar ve Motivasyonlar
Algoritmalar ve Değerlendirme
Mevcut Zorluklar

Makine Öğrenmesi'ne Giriş

Makine öğrenmesinden vazgeçme nedir ve makine öğrenmesinden farkı nedir ? Neden makine öğrenmesinden vazgeçmeye ihtiyacımız var ve bu hangi değerin kilidini açabilir? Makine öğrenmesinden vazgeçmeye yönelik mevcut yöntemlerin ve paradigmaların altında yatan sezgi nedir?

Makine öğrenmesini geri alma, eğitilmiş bir modele , üzerinde eğitildiği girdi veri kümesinin belirli bir alt kümesini performansı önemli ölçüde etkilemeden “unutmasını” öğreten nispeten yeni bir alandır . Çeşitli motivasyonlar vardır: bazı kişisel bilgiler, veri gizliliği politikalarındaki güncellemeler nedeniyle artık mevcut değildir; bazı verilerin eski veya yanlış olduğu kanıtlanmıştır ve model için verimsizdir; veya bir model, önyargıları devam ettiren veriler üzerinde yanlışlıkla eğitildi ve önyargıya neden olan belirli alt kümeyi kaldırmak istiyoruz.

Merak ediyor olabilirsiniz: Bu, sorunlu veri alt kümesini bırakmak ve güncellenmiş veri kümesini kullanarak bir modeli yeniden eğitmek gibi basit bir görev gibi görünüyor . Neden karmaşıklaştıralım?

Görünen o ki, ChatGPT gibi Büyük Dil Modelleri gibi birçok model , ilk etapta eğitmek için genellikle çok büyük hesaplama kaynakları gerektiriyor. Unutma seti genellikle toplam eğitim setinin yalnızca küçük bir kısmını oluşturur; bu nedenle “sıfırdan yeniden eğitme” yaklaşımı, aşırı derecede pahalı ve tekrarlanan bir çözüm haline gelir ve orijinal modelin performansını korurken unutma setini kaldıran daha iyi bir algoritma gerektirir.

Uygulamalar ve Motivasyonlar

Makine öğrenmesini geri almanın gelişimini motive eden bazı kullanım durumları nelerdir? Makine öğrenmesinden geri alma, bu alanlara ve görevlere benzersiz bir şekilde nasıl katkıda bulunur? Gelecekteki hangi potansiyel uygulamalar araştırılıyor ve ne bekleyebiliriz?

Hesaplamalı kaynakları ölçeklendirme nedeniyle, makine öğrenmeden öğrenmenin sıfırdan tam yeniden eğitime göre sağladığı avantajın, genellikle gerçek hayattaki uygulamalarda olmak üzere daha büyük veri kümelerinde çok daha önemli olduğu fikrinden bahsetmiştik.

Makine öğrenmesini geri almayı gerektiren en önemli uygulama alanlarından birkaçına bakalım:

Adil ve etik modeller (önyargı giderme): Çok büyük gerçek dünya verileri üzerinde eğitildiklerinde, modeller bazen veri kümesinin doğasında bulunan önyargıları yakalar. Model ölçeklendikçe, algoritma bazen önyargıyı artırabilir. Bazı durumlarda, model yanlılığının sonucu özellikle zararlı olabilir, örneğin suçları önlemede tahmine dayalı polislik için kullanılan modeller veya bir aday havuzundan işe alma gibi. Bu önyargılar tanımlandığında, derhal ortadan kaldırılmalıdır ve makine öğrenmesinden geri alma, bunu yapmak ve zararı azaltmak için potansiyel bir yol sunar.
Veri güncellemeleri (hayat boyu öğrenme): Bir modelin verileri, çeşitli nedenlerle veri kümesinde düzeltmeler veya güncellemeler yapıldıktan sonra güncelliğini yitirebilir. Bu verimsiz veri noktalarını unutarak ve unutarak, modeller bu değişikliklere uyum sağlayabilir ve daha doğru tahminler üretebilir. Bu, özellikle yaşam boyu öğrenme gibi dinamik öğrenme modellerinde kullanışlıdır ; eski veya yanlış verilerin boşaltılması, hesaplamanın hem doğruluğunu hem de verimliliğini artırır.
Veri gizliliği (unutulma hakkı): Bu belki de makine öğrenmesini geri almanın en yaygın olarak ilişkilendirildiği şeydir. Hızla değişen dijital dünyada, dijital uygulamaları yöneten yasa ve yönetmelikler sürekli olarak güncellenmektedir. Kişisel verilerin belirli niteliklerinin unutulması, veri sızıntılarına veya anonimleştirme endişelerine karşı koruma sağlayarak modellerin GDPR³ gibi düzenlemelerle uyumlu kalmasına yardımcı olur.

Algoritmalar ve Değerlendirme Metrikleri

Makine öğrenmesini geri almadaki ana algoritma iç paradigmaları nelerdir ve bunlar nasıl uygulanır? Her birinin güçlü ve zayıf yönleri nelerdir? Makine öğrenmesini geri alma performansını değerlendirmek için hangi ölçümler önerilmiştir?

Yöntemler

Esasen, verileri tamamen yeniden eğitmeden kaldırmanın arkasındaki mantık , belirli özellikler ile çıktı arasındaki ilişkiyi azaltmaktır. “d ata zehirlenmesi” olarak bilinen ana tekniğe bakalım :

Modeli belirli bir özellik veya öznitelik hakkında “kafa karıştırmak” için kasıtlı olarak yanlış veriler eklediğimiz yer burasıdır.
İşte bir örnek: Bir suç raporları veri kümesi üzerinde eğitilmiş bir model, 50-60 yaşları arasındaki kişilerin suç işleme olasılığının yüksek olduğu bir eğilim gözlemliyor. Sonuç olarak, gelecekteki tahmine dayalı suç tespitinde haksız yere 50-60 yaş grubunu hedefler. Bu yanlılığı azaltmak için, diğer özelliklere müdahale etmeden 50-60 yaş grubununkiyle eşleşen, diğer yaş grupları arasında sentetik bir suç istatistikleri veri seti oluşturabiliriz . Bu da mahkumiyet ile 50-60 yaş grubu arasındaki ilişkinin gücünü zayıflatmaktadır .

Değerlendirme metrikleri

Bu nispeten yeni bir alan olduğu için, makine öğrenmeden çıkarma performansını daha iyi değerlendirmek için her gün birçok değerlendirme standardı öneriliyor. Aşağıda, makine öğrenmeden çıkarma yöntemlerinin kalitesini ve etkililiğini ölçmek için önerilen birkaç değerlendirme metriğini vurguluyoruz:

Unutma oranı: başlangıçta bir veri kümesine ait olan ancak öğrenme sürecinden sonra artık tanınmayan veri örneklerinin oranını ölçer.
Üyelik Çıkarımı Saldırısı : bir rakibin, bir veri örneğinin model için eğitim setinin bir parçası olup olmadığı konusunda doğru çıkarım yapma derecesini ölçer. Bu ölçüm özellikle güvenlik bağlamlarıyla ilgilidir.

Mevcut Zorluklar

Makine Öğrenmesi alanının bir bütün olarak karşılaştığı başlıca zorluklar nelerdir? Belirli bağlamlarda veya uygulamalarda ortaya çıkan zorluklar nelerdir?

Makine öğrenmesini geri alma, birkaç nedenden dolayı oldukça karmaşık bir görev olabilir. Aslında, Temmuz 2023’te Google, etkili makine öğrenmesini geri alma yöntemlerini birleştirmek ve ilerletmek amacıyla halka açık bir yarışma başlatır.

Standart değerlendirme eksikliği. Bazı yayınlar, CIFAR10 ve CIFAR100 gibi iyi bilinen veri setlerini karşılaştırma ölçütü olarak kullanarak birleşik bir değerlendirme metriği kavramını ele almış olsa da, alandaki farklı araştırmacılar tarafından üretilen sonuçları birleştirebilecek evrensel bir değerlendirme standardı yoktur.
Aslında bu, Google’ın son makine öğrenmesini geri alma mücadelesinin amaçlarından biridir: “elmadan elmaya”² farklı yöntemleri karşılaştırmak için bir platform sağlamak.
Düşman saldırılarına karşı duyarlılık. Araştırmalar, bazı veri alt kümelerini unutması öğretilen modellerin, öğrenmeyi unutmaya dahil olan zehirleme mekanizması nedeniyle kamufle edilmiş saldırıların kurbanı olabileceğini bulmuştur.

Gelecekteki yönlendirmeler

Bu mevcut engeller, gelecekteki ilginç araştırma soruları için potansiyel yönler sağlar:

Modelleri kamufle edilmiş zehirlenme saldırılarına karşı savunmak için nasıl eğitiriz ?
Öğrenmeyi unutma verimliliğini optimize etmek için hesaplama kaynaklarından nasıl yararlanabiliriz?
Eğitim verisi eksikliğinin üstesinden gelmek için verileri etkili bir şekilde nasıl temizleyebilir ve üretebiliriz?
Tutarlı değerlendirme sağlamak için öğrenme algoritmalarını değerlendirmek için bir dizi standardı nasıl birleştirebiliriz?

Conclusion

Bu zamana kadar benimle birlikte olduğun için teşekkürler! Bu makalede, ana motivasyonları ve uygulama alanları, mevcut yöntemler ve paradigmalar ve mevcut zorluklar dahil olmak üzere makine öğrenmesinden vazgeçme alanını inceledik.

Bu dizinin ilerleyen kısımlarında, gerçek istatistiksel ve görüntü veri kümeleriyle mevcut öğrenmeden çıkarma algoritmalarının ve Python uygulamalarının teknik yönlerine daha derin bir dalış yapacağız

Kaynakça

[1] Shaik, T., Tao, X., Xie, H., Li, L., Zhu, X., & Li, Q. (2023). Machine Unlearning Manzarasını Keşfetmek: Kapsamlı Bir Araştırma ve Taksonomi. https://doi.org/10.48550/ARXIV.2305.06360

[2] İlk Machine Unlearning Challenge duyurusu. (2023, 29 Haziran). .googleblog.com . https://ai.googleblog.com/2023/06/announcing-first-machine-unlearning.html

[3] Avrupa Birliği Temel Haklar Ajansı. (2019). Genel Veri Koruma Yönetmeliği: Sivil toplum üzerine bir yıl: farkındalık, fırsatlar ve zorluklar. Yayın Ofisi. https://data.europa.eu/doi/10.2811/538633