Menü Kapat

Yapay Zeka Eğitimi Nasıl Ölçeklenir

Araştırma

Son birkaç yılda, AI araştırmacıları, sinirsel ağ eğitimini hızlandırmakta ve birçok makineye büyük miktarda veri dağıtımı sağlayan veri paralelliği yoluyla artan bir başarı elde etmişlerdir. Araştırmacılar, görüntü sınıflandırma ve dil modellemesi için on binlerce parti büyüklüğünü ve Dota 2 oyununu oynayan milyonlarca RL ajanı için başarılı bir şekilde kullandılar. Bu büyük partiler, artan miktarda işlemin tek bir modelin eğitimine verimli bir şekilde aktarılmasını sağlıyor. AI eğitim hesaplamasındaki hızlı büyümenin önemli bir etkinleştiricisidir. Ancak, çok büyük olan toplu iş boyutları hızlı bir şekilde azalan algoritmik geri dönüşler göstermektedir ve bu sınırların neden bazı işler için daha büyük ve diğerleri için daha küçük olduğu açık değildir.
Buna paralel olarak yapılan tamamlayıcı bir çalışma, büyük bir parti eğitiminin titiz deneysel testlerinin yanı sıra önceki çalışmalarda bir takım tutarsızlıkları ortadan kaldırarak önceki literatürün kapsamlı bir incelemesini gerçekleştirdi. Görevler arasındaki paralellik potansiyelinde önemli bir değişiklik bulmuşlar ve çalışmamız bu varyansın büyük bir bölümünü açıklıyor gibi görünüyor. Çalışmaları ayrıca büyük parti eğitimlerinin genellemeyi etkilemediğini gösteriyor. Bunun ve diğerleri gibi sistematik araştırmaların bu alan için inanılmaz derecede değerli olduğuna inanıyoruz ve “AI Biliminde” çalışmaya devam etmeye kararlıyız.

Degrade gürültü ölçeği (uygun şekilde eğitime göre ortalaması alınmış), kritik parti büyüklüğündeki değişimin büyük çoğunluğunu (r2 =% 80) altı büyüklük sırasını kapsayan bir dizi görevde açıklamaktadır. Parti boyutları, görüntü sayısı, belirteçler (dil modelleri için) veya gözlemlerde (oyunlar için) ölçülür.

Ağ gradyanlarının sinyal-gürültü oranını ölçen basit bir istatistik olan gradyan gürültü ölçeğini ölçerek, maksimum yararlı parti büyüklüğünü yaklaşık olarak tahmin edebileceğimizi bulduk. Sezgisel olarak, gürültü ölçeği model tarafından görüldüğü gibi verilerdeki değişimi ölçer (eğitimin belirli bir aşamasında). Gürültü ölçeği küçük olduğunda, çok fazla veriye paralel olarak bakmak hızlı bir şekilde gereksiz hale gelir, oysa büyük olduğunda, büyük veri gruplarından çok şey öğrenebiliriz.

Bu istatistik türü, örneklem büyüklüğü seçimi için yaygın olarak kullanılır ve derin öğrenme için kullanılması önerilmiştir, ancak modern eğitim çalışmaları için sistematik olarak ölçülmemiştir veya uygulanmamıştır. Bu öngörüyü, resim tanıma, dil modelleme, Atari oyunları ve Dota dahil, yukarıdaki şekilde gösterilen çok çeşitli makine öğrenme görevleri için doğruladık. Özellikle, tüm bu görevler için çok çeşitli parti boyutlarında (her biri için öğrenme oranını ayrı ayrı ayarlamak) eğitim çalışmaları yaptık ve eğitimdeki hızlanmaları gürültü skalasının ne olacağını öngördüğü ile karşılaştırdık. Büyük parti büyüklükleri genellikle etkili olmak için dikkatli ve pahalı ayarlama veya özel öğrenme oranı programları gerektirdiğinden, zamanın üst sınırını bilmek yeni modellerin eğitiminde önemli bir pratik avantaj sağlar.

Bu denemelerin sonuçlarını, eğitim için duvar saati ile eğitim yapmak için kullandığımız toplu hesaplamalar arasındaki (dolar maliyetiyle orantılı) arasındaki bir değişim açısından görselleştirmenin faydalı olduğunu gördük. Çok küçük parti boyutlarında, partiyi iki katına çıkarmak, ekstra hesaplama kullanmadan yarım saatte çalışmamızı sağlar (iki kat daha fazla cips yarısı kadar uzun süre çalışırız). Çok büyük parti boyutlarında, daha fazla paralelleştirme daha hızlı bir eğitime yol açmaz. Ortadaki eğride bir “bükülme” var ve gradyan gürültü ölçeği bu bükülmenin nerede gerçekleştiğini öngörüyor.

Paralelliğin arttırılması, daha karmaşık modelleri makul bir sürede eğitmeyi mümkün kılar. Pareto sınır grafiğinin algoritmalar ve ölçekler arasındaki karşılaştırmaları görselleştirmenin en sezgisel yolu olduğunu görüyoruz.

Bu eğrileri bir performans seviyesi belirleyerek (Beatar Rider’ın Atari oyununda 1000 puan) ve çeşitli performans boyutlarında bu performansa ne kadar süre katlandığını görerek yapıyoruz. Sonuçlar, modelimizin tahminlerini performans hedefinin birçok farklı değeri arasında nispeten yakından takip ediyor.

Unutmayın her geri bildirim bizi daha ileriye taşıyacaktır!

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir