Öğrenen Robotlar

Algoritmalar

Yapılan yeni algoritma ile, tek seferde taklit öğrenim geliştirildi, böylece bir insanın VR’da gerçekleştireceği hareket ile yeni bir görevi nasıl yapabileceğini algoritmaya bildiriliyor. Tek bir gösterim yapıldığında, robot aynı işlevi keyfi bir başlangıç konfigürasyonundan çözebilir.

Genel Prosedür

Sistem bir simülatör içinde gösterilen bir davranışı öğrenebilir, daha sonra bu davranışı gerçekte farklı kurulumlarda çoğaltabilir.

Sistem iki sinir ağından beslenir: bir görüntü ağı ve bir imitasyon ağ.

Görüntü ağı, robotun kamerasından bir görüntü alır ve nesnelerin konumlarını temsil eden bir durum gösterir. Önceden olduğu gibi, görsel ağ, farklı ışıklandırma, doku ve nesnelerden oluşan yüz binlerce benzetilmiş görüntü ile eğitilmiştir. (Görüntü sistemi asla gerçek bir görüntü üzerinde eğitilmez.)

İmitasyon ağı bir gösterim gözlemler, görevin amacını ortaya çıkarmak için işler ve daha sonra başka bir başlangıç yapılandırmasından başlayarak amacını yerine getirir. Bu nedenle, imitasyon ağ gösterimi yeni bir ortama yaymalıdır. Fakat taklit ağı nasıl genelleştirileceğini nasıl biliyor?

Ağ bunu eğitim örneklerinin dağılımından öğrenir. Her görev için binlerce gösterim yapan onlarca farklı görev üzerine eğitilmiştir. Her eğitim örneği, aynı görevi gerçekleştiren bir çift gösterimdir. Ağa ilk gösterimin tamamı ve ikinci gösterimden tek bir gözlem verilir. Daha sonra, göstericinin bu gözlemde ne gibi bir harekete geçeceğini tahmin etmek için denetimli öğrenmeyi kullanırız. Eylemin etkin bir şekilde tahmin edilebilmesi için, robotun ilk gösterimden görevin ilgili bölümünü çıkarmayı öğrenmesi gerekir.

Blok istiflemesi için uygulanan eğitim verileri, blokları aynı sıradaki eşleşen bir kule kümesine yığan, ancak farklı başlangıç durumlarından başlayan çift yörüngeden oluşur. Bu şekilde, taklit ağ, göstericinin blok sıralaması ve kulelerin büyüklüğü hakkında endişe duymadan kulelerin boyutuna uymayı öğrenir.

Blok İstifleme

Renk kodlu blok yığınları oluşturma görevi, simülasyonda kodlanmış bir politika ile çözülebilecek kadar basit. İmitasyon ağı için eğitim verilerini oluşturmak için senaryo politikası kullanılmış. Test zamanında, imitasyon ağ daha önce hiç dağınık insan verisi görmemiş olsa da, bir insan tarafından yapılan gösterimleri ayrıştırmayı başardı.

İmitasyon ağ, gösteri yörüngesine ve blokların konumlarını temsil eden durum vektörüne yumuşak bir dikkat çekerek sistemin değişken uzunluktaki gösterilerle çalışmasına izin verir. Ayrıca, farklı blokların konumlarına dikkat ederek, daha önce hiç olmadığı kadar fazla yörüngeyi taklit etmesine olanak tanır ve blokları, eğitim verilerinde herhangi bir gösteriden daha fazla blok içeren bir konfigürasyonda istifler.

İmitasyon ağının sağlam bir politika öğrenmesi için, senaryo politikasının çıktılarına mütevazı bir miktar ses koymak etmek zorunda kaldındı. Bu, kodlanmış politikayı, işler ters gittiğinde nasıl kurtarılacağını göstermeye zorladı; Ses koymadan, imitasyon ağ tarafından öğrenilen politika genellikle istifleme görevini yerine getiremez.

Bu projeyi araştırmamıza yardımcı olmak istiyorsanız, AIX’te bize katılın.

Öğrenen Robotlar

Algoritmalar

Genel Prosedür

Blok İstifleme

Remember, every feedback will move us forward!