Yeni Başlayanlar İçin Dil Modeli Kılavuzu

Dil modeli, kelime veya kelime grupları üzerindeki olasılık dağılımını temsil eder. Farklı dil modeli türleri ve yetenekleri hakkında daha fazla bilgiyi bu blog yazımızda bulabilirsiniz!

Metinsel verilerden bilgi çıkarma, son on yılda önemli ölçüde değişim gösterdi. Doğal dil işleme terimi, metin madenciliğini geride bıraktığından, metodoloji de büyük bir değişime uğradı. Bu değişimin temel itici güçlerinden biri, ham metinden değerli bilgiler çıkarmayı amaçlayan birçok uygulamanın temelini oluşturan dil modellerinin ortaya çıkmasıdır.

Doğal dil işleme alanında öğrenirken, son yıllarda dil modellerinin evrimi beni büyüledi. GPT-3 ve potansiyel tehditlerini duymuş olabilirsiniz, ancak bu noktaya nasıl gelindi? Bir makine nasıl bir gazeteci gibi makale üretebilir?

Dil Modeli Nedir?

Dil modeli, kelimeler veya kelime dizileri üzerindeki olasılık dağılımını temsil eder. Pratikte, belirli bir kelime dizisinin “geçerlilik” olasılığını sağlar. Bu, dilbilgisel geçerliliği değil, insanların yazma tarzına benzeyen bir dil kullanımını ifade eder. Bu nokta oldukça önemlidir. Diğer makine öğrenme modelleri, özellikle derin sinir ağları gibi, bir dil modelinin sihirli bir çözüm sunmadığını, ancak dışarıdan örneklerde yeniden kullanılabilir, büyük miktarda bilgiyi öz ve özgün bir şekilde birleştiren bir araç olduğunu gösterir.

Bir Dil Modeli Ne Yapabilir?

Bağlamdan kelime olasılıklarını çıkarmak için gerekli olan doğal dilin soyut anlayışı, bir dizi görev için kullanılabilir. Lemmatizasyon veya kök çıkarma, bir kelimeyi en temel biçimine indirgemeyi ve böylece belirteç sayısını önemli ölçüde azaltmayı amaçlamaktadır. Bu algoritmalar, kelimenin konuşmadaki rolü biliniyorsa daha iyi çalışır. Bir fiilin son ekleri bir ismin son eklerinden farklı olabilir, dolayısıyla bir dil modeli için ortak bir görev olan konuşma bölümü etiketlemenin (veya POS etiketlemenin) mantığı budur.

İyi bir dil modeliyle metinlerin çıkarıcı veya soyutlayıcı özetlemesini gerçekleştirebiliriz. Farklı dillere yönelik modellerimiz varsa makine çeviri sistemi rahatlıkla kurulabilir. Daha az basit kullanım örnekleri arasında soruların yanıtlanması yer alır (bağlamlı veya bağlamsız, makalenin sonundaki örneğe bakın). Dil modelleri ayrıca konuşma tanıma, OCR, el yazısı tanıma ve daha fazlası için de kullanılabilir. Çok çeşitli fırsatlar var…

Dil Modeli Türleri

İki tür dil modeli vardır:

Olasılıksal yöntemler.
Sinir ağı tabanlı modern dil modelleri

Aralarındaki farka dikkat etmek önemlidir.

OLASILIKSAL DİL MODELİ

N-gram olasılıkları hesaplanarak basit bir dil modeli inşa edilir. N-gram, n kelime dizisini temsil eder, burada n sıfırdan büyük bir tam sayıdır. Bir n-gram’ın olasılığı, n-gram’ın son kelimesinin belirli bir n-1 gramdan sonra (son kelime hariç) gelme olasılığına dayanır. Bu, son kelimeyi dışarıda bırakarak n-1 gramdan sonraki son kelimenin görülme sıklığını ifade eder ve Markov varsayımıyla uyumludur. Şu anki n-1 gramı ele aldığımızda, n-gram olasılıkları, geçmişe yani n-2, n-3 vb. gramalara bağlı değildir.

Bu yaklaşımın belirgin dezavantajları vardır. En önemlisi, sadece önceki n kelimenin bir sonraki kelimenin olasılığını etkilediğidir. Karmaşık metinler, bir sonraki kelimenin seçiminde derin bir içeriğe sahip olabilir, ki bu sadece önceki n kelimeyi kullanarak anlaşılamayabilir, hatta n büyük olsa bile, örneğin 20 veya 50. Bir terimin önceki kelimenin seçimini etkileyebilmesi, bağlam sorunu olarak adlandırılabilir.

Buna ek olarak, bu yaklaşımın zayıf bir şekilde ölçeklendiği açıktır. Boyut arttıkça (n), olası permütasyonların sayısı hızla artar, bu da çoğu metinde hiç kullanılmayan permütasyonların sayısının artmasına neden olur. Ayrıca, oluşmayan n-gramlar seyreklik sorunlarına yol açabilir, çünkü olasılık dağılımının ayrıntı düzeyi oldukça düşük olabilir. Bu nedenle, birkaç farklı kelimenin benzer olasılıklara sahip olduğu durumlar vardır ve bu da kelime seçiminin zorlaşmasına yol açabilir.

SİNİR AĞI TABANLI DİL MODELLERİ

Sinir ağı temelli dil modelleri, giriş verilerini kodlama yöntemiyle seyreklik sorununu hafifletirler. Kelime yerleştirme katmanları, her kelimenin anlamsal ilişkilerini içeren rasgele boyutlu vektörler oluşturur. Bu sürekli vektörler, bir sonraki kelimenin olasılık dağılımında gereken ayrıntı düzeyini oluşturur. Ayrıca, tüm sinir ağları çok sayıda matris hesaplamasını içerdiğinden, dil modeli bir işlevdir, bu nedenle bir sonraki kelimenin olasılık dağılımını oluşturmak için tüm n-gram sayımlarını saklamak gereksizdir.

Dil Modellerinin Evrimi

Sinir ağları seyreklik sorununu çözse de bağlam sorunu devam ediyor. İlk olarak, bağlam problemini giderek daha verimli bir şekilde çözmek için dil modelleri geliştirildi; olasılık dağılımını etkilemek için giderek daha fazla bağlam kelimesi getirildi. İkinci olarak amaç, modele hangi bağlam kelimelerinin diğerlerinden daha önemli olduğunu öğrenme yeteneği veren bir mimari yaratmaktı.

Daha önce özetlediğim ilk model, yoğun (veya gizli) bir katman ve sürekli bir kelime çantası (CBOW) Word2Vec modelinin üzerine yığılmış bir çıktı katmanıdır. Bir CBOW Word2Vec modeli, sözcüğü bağlamdan tahmin edecek şekilde eğitilir. Skip-Gram Word2Vec modeli tam tersini yaparak kelimeden bağlamı tahmin eder. Uygulamada, bir CBOW Word2Vec modelinin eğitilmesi için aşağıdaki yapının birçok örneğine ihtiyaç vardır: girdiler, çıktı olan sözcüğün öncesinde ve/veya sonrasında n sözcüktür. Bağlam sorununun hala sağlam olduğunu görebiliriz.

TEKRARLAYAN SİNİR AĞLARI (RNN)

Tekrarlayan sinir ağları (RNN’ler) bu konuda bir gelişmedir. RNN’ler uzun kısa süreli bellek (LSTM) veya geçitli tekrarlayan birim (GRU) hücre tabanlı ağ olabileceğinden, bir sonraki kelimeyi seçerken önceki tüm kelimeleri hesaba katarlar. AllenNLP’nin ELMo’su, kelime sayımından önceki ve sonraki bağlamı hesaba katan çift yönlü bir LSTM kullanarak bu kavramı bir adım daha ileriye taşıyor.

TRANSFORMATÖRLER

RNN tabanlı mimarilerin temel dezavantajı sıralı doğalarından kaynaklanmaktadır. Sonuç olarak, paralelleştirme olasılığı olmadığından uzun diziler için eğitim süreleri hızla artar. Bu sorunun çözümü trafo mimarisidir.

OpenAI’nin GPT modelleri ve Google’ın BERT’i de transformatör mimarisini kullanıyor. Bu modeller aynı zamanda “Dikkat” adı verilen bir mekanizmayı da kullanır; bu mekanizma sayesinde model, belirli durumlarda hangi girdilerin diğerlerinden daha fazla ilgiyi hak ettiğini öğrenebilir.

Model mimarisi açısından ana kuantum sıçramaları, öncelikle seyreklik problemini çözen ve dil modellerinin kullandığı disk alanı alanını azaltan RNN’ler, özellikle LSTM ve GRU ve ardından paralelleştirmeyi mümkün kılan ve dikkat mekanizmaları yaratan transformatör mimarisi oldu. Ancak bir dil modelinin üstün olabileceği tek yön mimari değildir.

GPT-1 mimarisiyle karşılaştırıldığında GPT-3’ün neredeyse hiçbir yeniliği yoktur. Ama çok büyük. 175 milyar parametresi vardır ve ortak taramada şimdiye kadar bir modelin eğitildiği en büyük derlem üzerinde eğitilmiştir. Bu kısmen bir dil modelinin yarı denetimli eğitim stratejisi nedeniyle mümkündür. Bir metin, bazı kelimelerin çıkarıldığı bir eğitim örneği olarak kullanılabilir. GPT-3’ün inanılmaz gücü, geçtiğimiz yıllarda internette ortaya çıkan metinlerin aşağı yukarı tamamını okumasından ve doğal dilin içerdiği karmaşıklığın çoğunu yansıtma yeteneğine sahip olmasından kaynaklanmaktadır.

ÇOK AMAÇLI EĞİTİM

Son olarak Google’ın T5 modelini incelemek istiyorum. Daha önce dil modelleri, konuşma bölümü (POS) etiketleme veya küçük değişikliklerle makine çevirisi gibi standart NLP görevleri için kullanılıyordu. Biraz yeniden eğitimle BERT, doğal dilin temel yapısını anlama konusundaki soyut yeteneği nedeniyle bir POS etiketleyici olabilir.

T5 ile NLP görevlerinde herhangi bir değişikliğe gerek kalmıyor. İçinde bazı <M> jetonları bulunan bir metin alırsa, bu jetonların uygun kelimelerle doldurulması gereken boşluklar olduğunu bilir. Ayrıca sorulara da cevap verebilir. Sorulardan sonra bir bağlam alırsa yanıt için bağlamı arar. Aksi takdirde kendi bilgisinden cevap verir. Eğlenceli gerçek: Bir bilgi yarışmasında kendi yaratıcılarını yendi.

Dil Modellerinin Geleceği

Kişisel olarak yapay zeka konusunda en ileri olduğumuz alanın bu olduğuna inanıyorum. Yapay zeka ile ilgili birçok iddia bulunuyor ve birçok basit karar sistemi ve neredeyse her sinir ağı yapay zeka olarak adlandırılıyor, ancak bu genellikle pazarlama stratejilerinden ibarettir. Yapay zeka, temel olarak bir makinenin insan benzeri zeka yeteneklerini gerçekleştirebilmesini ifade eder. Transfer öğrenme, bilgisayarlı görüş alanında öne çıkarken ve bir yapay zeka sistemi için hayati bir kavram olan transfer öğrenme, aynı modelin bir dizi farklı doğal dil işleme görevini başarıyla yerine getirebilmesi ve girdi verilerinden mantıklı sonuçlar çıkarabilmesi ile gerçek anlamını bulur. Bu, bizi gerçek insan benzeri zeka sistemleri oluşturmaya daha da yaklaştırıyor gibi görünüyor.

LANGUAGE ACQUISITION MODEL

AI Editor

These may interest you!

3 Adımda Yapay Zekayla Öğrenme ve Yenilik Kültürü Oluşturun

Meta Llama 3 Hakkında Bilmeniz Gerekenler

Nvidia Chat with RTX Nedir?