Tek Seferde Taklit Öğrenim

Nasıl Çalışır ve Nedir?

Taklit öğrenme, izolasyondaki farklı görevleri çözmek için yaygın olarak uygulanmaktadır. Bu istediklerimizden çok uzak: ideal olarak, robotlar verilen herhangi bir görevin çok az gösteriminden öğrenebilmeli ve göreve özgü mühendislik gerektirmeden anında aynı görevin yeni durumlarına genelleyebilmelidir. Bu yazıda, bir kereye mahsus taklit öğrenme dediğimiz bu yeterliliğe ulaşmak için bir meta-öğrenme çerçevesi öneriyoruz.

Özellikle, çok büyük bir görev kümesinin olduğu ayarı göz önünde bulundurduğumuzda her görevin birçok örneği vardır. Örneğin, bir görev, bir masadaki tüm blokları tek bir kuleye istiflemek olabilir, başka bir görev de bir masadaki tüm blokları iki bloklu kulelere yerleştirmek olabilir. Her durumda, görevin farklı örnekleri aşağıdakiler gibi oluşur: farklı başlangıç durumlarına sahip farklı blok kümeleri. Eğitim süresinde, algoritmalar tüm görevlerin bir alt kümesi için gösterimlerle birlikte sunulur. Girdi bir gösterimi ve mevcut durumu (başlangıçta paritenin diğer gösterisinin başlangıç durumu olan) alan bir sinir ağı eğitilmiş ve ortaya çıkan durumların ve eylemlerin sırasının en az olduğu gibi eşleşmesi hedefiyle bir eylem çıkaran ikinci gösteri ile mümkün. Test zamanında, yeni bir görevin tek bir örneğinin gösterimi sunulur ve sinir ağının bu yeni görevin yeni örneklerinde iyi performans göstermesi beklenir. Yumuşak dikkat kullanımı, modelin eğitim verilerinde görülmeyen koşulları ve görevleri genelleştirmesini sağlar. Bu modeli daha geniş çeşitlilikte görevler ve ortamlar üzerinde eğiterek, her türlü gösteriyi zorlu çeşitli görevler gerçekleştirebilecek sağlam politikalara dönüştürecek genel bir sistem elde edileceğini tahmin ediyoruz.

Tek Seferde Taklit Öğrenim

Nasıl Çalışır ve Nedir?

Araştırma Makalesi

Unutmayın her geri bildirim bizi daha ileriye taşıyacaktır!