Menu Close

MOSTLY AI: En doğru sentetik veri oluşturucu

İşletmeler ilgili içgörüleri çıkarmaya ve güçlü machine learning modelleri oluşturmaya çalışırken, yüksek kaliteli, doğru sentetik veri kümelerine olan ihtiyaç arttı. MOSTLY AI, en son bulgularımızı sunmaktan heyecan duyuyor. Bu blog gönderisinde, MOSTLY AI ve en popüler açık kaynaklı sentetik veri üreticilerinden ( SDV ) biri tarafından üretilen sentetik verileri karşılaştıran ve elde edilen sentetik verileri kullanarak bir makine öğrenimi modeli oluşturarak sentetik veri kalitesini değerlendiren bir deneyin sonuçlarını sunacağız.

MOSTLY AI'yı diğerlerinden ayıran nedir?

Sentetik veri oluşturma yöntemimiz, Generative AI’daki en son gelişmeleri kapsamlı bir veri koruma ve uyumluluk anlayışıyla birleştirir. MOSTLY AI tarafından oluşturulan her sentetik veri setinin, orijinal verilerin istatistiksel özelliklerini koruyarak orijinalliğini korurken hassas bilgileri güvence altına almasını, en son teknolojiye sahip algoritmalardan ve modellerden yararlanarak sağlıyoruz.

Sentetik veri üretimimizi iyileştirmenin yollarını ararken, Databricks blogunda Sean Owen tarafından yazılmış bir gönderiye rastladık. Gönderi, sentetik veri kümeleri oluşturmak için Sentetik Veri Kasası’nın (SDV) kullanımını açıkladı. MOSTLY AI’nin SDV’ye kıyasla nasıl olduğunu merak ettik ve çözümümüzün performansını SDV’lerle karşılaştırmak için bir çalışma yapmaya karar verdik.

MOSTLY_AI
MOSTLY_AI

Örnek veriler

Değerlendirme sürecimizde sistematik bir yaklaşım izledik. İlk olarak, makalede bahsedilen veri setini elde ederek karşılaştırma için güvenilir bir karşılaştırma ölçütü elde ettik. Veriler Databricks’te ‘/databricks-datasets/nyctaxi/tables/nyctaxi_yellow’ konumunda bulunur. Tanınmış NYC Taxi veri kümesidir. On yılı aşkın bir süredir, New York City’deki taksi yolculuklarıyla ilgili alma ve bırakma yerleri, mesafeler, ücretler, geçiş ücretleri ve bahşişler gibi temel bilgileri toplamıştır.

Daha sonra, veri setinin %80’ini sentezlemek için hem Sentetik Veri Kasası (SDV) hem de MOSTLY AI’ın sentetik veri oluşturucusunu kullandık ve özelliklerini ve modellerini doğru bir şekilde yakalamayı amaçladık. Adil bir değerlendirme oluşturmak için kalan %20’yi test ve doğrulama amacıyla bir kenara ayırdık. Bu adım, sentetik veri setimizin performansını SDV’nin sonuçlarına göre kapsamlı bir şekilde değerlendirmemizi sağladı.

Sentetik veriler – Kalite değerlendirmesi

Hem MOSTLY AI hem de SDV tarafından üretilen sentetik verilerin kalitesini ve doğruluğunu değerlendirmek için iki farklı ölçüm metriği kullandık. MOSTLY AI QA raporuna göre, sentetik veri setimiz %96 doğruluk elde etti . Buna karşılık, SDV’nin performansı %40 doğrulukla ölçüldü ve sonuçlarda önemli bir eşitsizliğin altı çizildi. Ek olarak, SDV’nin Kalite Raporu kullanılarak kalite puanları değerlendirilirken, MOSTLY AI’nin sentetik veri seti %97’lik bir derecelendirme aldı ve bu, gerçek dünya dağılımlarına ve istatistiksel özelliklere yüksek düzeyde bağlılığı gösteriyor. SDV, %77’lik bir kalite puanı elde etti. 

Makine öğrenimi modeli oluşturarak değerlendirme

Değerlendirmemizin son aşamasında, referans verilen blog gönderisinde kullanılan metodolojiyi yansıtan LightGBM kullanarak bir regresyon modeli oluşturduk. Temel olarak amaç, bir müşterinin taksi şoförüne teklif etme olasılığının daha yüksek olduğu bahşiş miktarını tahmin etmeye çalışan bir regresyon modeli oluşturmaktır. Uzatma seti, MOSTLY AI ve SDV tarafından oluşturulan sentetik veri setlerinin yanı sıra orijinal veri setinde eğitilen modellerin tahmin performansını değerlendirmek için test yatağı görevi gördü. Özellikle, orijinal veriler 0,99’luk bir RMSE’ye (Kök Ortalama Kare Hatası) ulaştı ve bu da onun güçlü tahmin kabiliyetini gösterdi. MOSTLY AI tarafından üretilen sentetik veri seti, 1.00 RMSE ile yakından takip ediliyor, orijinal veri dağılımına doğru bir şekilde yaklaşma yeteneğini doğrular. Buna karşılık, SDV sentetik veri seti, orijinal veri setinin tahmin performansından daha büyük bir sapmaya işaret eden 1,64’lük daha yüksek bir RMSE vermiştir. 

1,52’lik bir RMSE’nin elde edildiği blog gönderisinde bildirilen sonuçlarla karşılaştırıldığında, değerlendirmemiz önemli bir gelişme gösteriyor. 1.00’lik bir RMSE ile, MOSTLY AI tarafından oluşturulan sentetik veri seti, çok daha iyi performans gösterir ve orijinal verilerin doğruluğuna oldukça yakındır. Ayrıca SDV’nin daha gelişmiş algoritması olan TVAE’yi kullanarak deneyler yaptık ve bu da 1.06’lık bir RMSE ile sonuçlandı. SDV’nin TVAE algoritması rekabetçi bir şekilde performans gösterse de, sentetik verilerimiz onu geride bıraktı.

Conclusion

MOSTLY AI ve SDV tarafından üretilen sentetik veri kümelerini karşılaştıran değerlendirmemizde, MOSTLY AI’nin çözümünün doğruluk ve kalite açısından rakiplerini geride bıraktığı açıktır. RMSE 1.00’e ulaşan ve orijinal verilerin performansına çok yaklaşan sentetik veri kümemizle, sentetik veri oluşturma yeteneklerimizin yüksek hassasiyetini ve aslına uygunluğunu gösterdik. Özellikle, sentetik verilerimiz hem SDV’nin standart algoritmasından hem de daha gelişmiş TVAE algoritmasından daha iyi performans gösterdi.

Kuruluşlar, sentetik verilerden yararlanarak çok sayıda avantajdan yararlanabilir. İlk olarak, sentetik veri kümelerimizin yüksek doğruluğu ve kalitesi, güvenilir model eğitimi ve testi sağlayarak veri bilimcilerin yalnızca orijinal verilere dayanmadan sağlam makine öğrenimi modelleri geliştirmelerini sağlar. İkinci olarak, hassas bilgiler sentezlenmiş ancak istatistiksel olarak temsili değerlerle değiştirildiğinden, sentetik veriler mahremiyet endişelerini en aza indirir. Bu, kuruluşların veri odaklı içgörülerin gücünden yararlanmaya devam ederken sıkı veri gizliliği düzenlemelerine uymasını sağlar.

en_USEnglish