Sinir Dil Modelleri için Ölçekleme Yasaları
2020 yılında OpenAI tarafından yayımlanmış popüler “Scaling Laws for Neural Language Models” makalesinin Türkçe çevirisidir.
Basit Açıklama
“Dil Modelleri için Ölçekleme Yasaları” adlı makale, bilgisayarların dili anlamasını ve metin oluşturmasını daha iyi hale getirmek için kullandığımız yapay zeka modellerini nasıl büyütebileceğimizi anlamakla ilgilidir.
Bu makale ne hakkında?
- Nöral Dil Modelleri: Bunlar, insan benzeri metinler oluşturmayı ve anlamayı öğrenmiş bilgisayar programlarıdır. Mesela sohbet botları, arama motorları veya chatgpt gibi araçlar bu kategoriye girerler.
- Ölçekleme Yasaları: Diyelim ki bir robot yapıyorsunuz ve onu daha akıllı yapmak istiyorsunuz. Bu makale, dil modelleri için modeli büyütürsek ne olur? (yani daha fazla “nöron” eklersek), Daha fazla metinle eğitirsek ne olur? Daha uzun süre çalıştırırsak nasıl etkiler? Sorularını cevaplıyor ve bu faktörlerin performansı nasıl etkilediğini inceliyorlar.
Ana Bulgular
Araştırmacılar üç ana faktörü incelemişler ve bunların birbirleriyle nasıl etkileştiğini bulmuşlar:
- Model Büyüklüğü: Yapay zeka modelinin büyüklüğü (içindeki “nöron” sayısı).
- Veri Miktarı: Modelin eğitildiği metin miktarı.
- Hesaplama Gücü (Eğitim Süresi): Modeli eğitmek için kullanılan bilgisayar gücü ve zaman.
İlginç bazı sonuçlar bulunmuş:
- Büyük Modeller Daha İyi Çalışıyor: Modelin büyüklüğünü artırırsanız, metin yazma veya soruları yanıtlama gibi görevlerde daha iyi hale gelirler ancak, model aşırı büyürse ve yeterince veriyle eğitilmezse, bu pek işe yaramaz.
- Veri Çok Önemli: Modeli akıllı yapmak istiyorsanız, sadece büyütmek yetmez, ona öğrenmesi için daha fazla metin vermeniz gerekir. Bunu şöyle düşünün: Çok zeki olsanız bile, çalışmadığınız bir sınavdan yüksek not alamazsınız.
- Azalan Verim: Ölçeklendikçe, iyileştirmeler giderek daha küçük hale gelir. Yani, bir noktadan sonra modele daha fazla nöron veya veri eklemek, harcanan maliyete değmez.
Bu Neden Önemli?
Bu “yasalar”, bilim insanlarına ve mühendislere daha iyi yapay zeka modelleri tasarlarken kaynaklarını nasıl harcayacakları konusunda yol göstermektedir. Örneğin:
- Eğer eğitmek için az metniniz varsa, çok büyük bir model yapmak mantıklı değildir.
- Çok fazla bilgisayar gücünüz olsa bile, yeterince veri olmadan model düşündüğünüz kadar akıllı olamaz.
İlginç Bir Sonuç:
Araştırmacılar, model büyüklüğü, veri miktarı ve hesaplama gücü arasında “tatlı bir denge” olduğunu keşfettiler. Bu dengeyi korursanız, kaynakları boşa harcamadan en iyi sonuçları alabilirsiniz.
Bu Sizin İçin Neden Önemli?
Bu ölçekleme yasalarını anlamak, daha akıllı ve kullanışlı yapay zeka araçları geliştirmemize yardımcı olur. Örneğin:
- Ödevlere yardımcı olan araçlar,
- İnternette arama yapmayı iyileştiren sistemler,
- Daha iyi çeviri araçları,
- Ya da sanat yapabilen programlar.
Bu kuralları bilerek, araştırmacılar daha az zaman ve para harcayarak daha etkileyici yapay zeka sistemleri yaratabilirler.
Öz
Dil modeli performansının çapraz-entopi kaybı (cross entropy loss) üzerindeki deneysel (ampirik) ölçeklenme yasalarını inceliyoruz. Kayıp, model boyutu, veri kümesi boyutu ve eğitim için kullanılan hesaplama miktarıyla birlikte bir kuvvet yasasına göre ölçeklenir ve bazı eğilimler yedi büyüklük mertebesinden fazlasını kapsar. Ağ genişliği veya derinliği gibi diğer mimari detayların, geniş bir aralıkta minimal etkileri vardır.
Aşırı öğrenmenin model/veri kümesi boyutuna ve eğitim hızının model boyutuna bağlılığı basit denklemlerle açıklanır. Bu ilişkiler, sabit bir hesaplama bütçesinin en iyi şekilde nasıl tahsis edileceğini belirlememizi sağlar. Daha büyük modeller, önemli ölçüde daha örnek-verimlidir, bu nedenle en hesaplama-verimli eğitim, çok büyük modellerin nispeten mütevazı miktarda veriyle eğitilmesini ve önemli ölçüde yakınsamadan önce durdurulmasını içerir.
Giriş
Dil, yapay zekâ çalışmalarına doğal bir alan sağlar, çünkü akıl yürütme görevlerinin büyük çoğunluğu dil içinde verimli bir şekilde ifade edilebilir ve değerlendirilebilir, ayrıca dünyadaki metinler, üretken modelleme yoluyla denetimsiz öğrenme için zengin bir veri kaynağı sunar. Son zamanlarda derin öğrenme, dil modellemede hızlı bir ilerleme kaydetmiş ve en son teknolojiye sahip modeller, birçok spesifik görevde insan seviyesine yaklaşan performans göstermiştir. Buna, tutarlı çok paragraflı metin örneklerinin oluşturulması da dahildir. Dil modelleme performansının model mimarisine, sinirsel model boyutuna, eğitimde kullanılan hesaplama gücüne ve bu eğitim süreci için mevcut verilere bağlı olması beklenebilir. Bu çalışmada, dil modelleme kaybının tüm bu faktörlere olan bağımlılığını deneysel olarak inceleyeceğiz ve özellikle Transformatör mimarisine odaklanacağız. Dil görevlerindeki yüksek performans tavanı ve düşük başlangıç noktası, ölçek açısından yedi büyüklük mertebesini (seven orders of magnitude) aşan eğilimleri incelememizi sağlar. Çalışmamız boyunca, eğitim süresi, bağlam uzunluğu, veri kümesi boyutu, model boyutu ve hesaplama bütçesinin bir fonksiyonu olarak performans için kesin kuvvet-yasası ölçeklenmeleri gözlemleyeceğiz.
Özet
Transformatör dil modelleri için temel bulgularımız şunlardır:
Performans, ölçeğe güçlü, model şekline ise zayıf bir şekilde bağlıdır: Model performansı en güçlü şekilde ölçeğe bağlıdır ve bu ölçek üç faktörden oluşur: Model parametrelerinin sayısı N(gömmeler hariç), veri kümesinin boyutu D, ve eğitim için kullanılan hesaplama miktarı C. Mantıklı sınırlar içinde, performans diğer mimari hiperparametrelerden (örneğin, derinlik ile genişlik oranı gibi) çok zayıf bir şekilde etkilenir.
Pürüzsüz güç yasaları: Performans, N, D, C ölçek faktörlerinden her biri ile, diğer iki faktörün sınırlandırmadığı durumlarda, bir güç yasası ilişkisi sergiler ve bu eğilimler altı mertebeden daha geniş bir ölçekte devam eder. Performansın üst sınırında bu eğilimlerden sapma belirtileri gözlemlemiyoruz, ancak sonuçta sıfır kayba ulaşmadan önce performansın düzleşmesi gerektiği açıktır.
Aşırı öğrenmenin evrenselliği: Performans, N ve D’yi birlikte ölçeklendirdiğimiz sürece tahmin edilebilir şekilde iyileşir; ancak N veya D’nin biri sabit tutulup diğeri artırıldığında, azalan getiri düzenine girer. Performans cezası, N^{0.74} / D oranına bağlıdır; bu da model boyutunu 8 kat artırdığımızda, ceza almamak için veri miktarını yaklaşık 5 kat artırmamız gerektiği anlamına gelir.
Eğitimin evrenselliği: Eğitim eğrileri, model boyutundan büyük ölçüde bağımsız olan tahmin edilebilir güç yasalarını takip eder. Bir eğitim eğrisinin erken kısmını çıkarsayarak, çok daha uzun süre eğitildiğinde elde edilecek kaybı yaklaşık olarak tahmin edebiliriz.
Transfer, test performansıyla iyileşir: Modelleri, eğitim aldıkları dağılımdan farklı bir dağılıma sahip metinlerde değerlendirdiğimizde, sonuçlar eğitim doğrulama kümesindeki sonuçlarla güçlü bir şekilde korelasyon gösterir ve kayıpta yaklaşık sabit bir kayma ile ilişkilidir. Başka bir deyişle, farklı bir dağılıma geçiş sabit bir ceza gerektirir ancak bunun dışında eğitim kümesindeki performansa paralel bir şekilde iyileşir.
Örnek verimliliği: Büyük modeller, küçük modellere göre daha örnek verimlidir ve aynı performans seviyesine daha az optimizasyon adımıyla (Şekil 2) ve daha az veri noktası kullanarak (Şekil 4) ulaşır. Yakınsama verimsizdir: Sabit bir hesaplama bütçesi C ile çalıştığımızda, ancak model boyutu N veya kullanılabilir veri D üzerinde herhangi bir kısıtlama olmadan, çok büyük modeller eğitip, tam yakınsama sağlamadan eğitim durdurularak optimal performansa ulaşılır. Maksimum hesaplama verimliliğine sahip eğitim, küçük modelleri yakınsama noktasına kadar eğitmeye kıyasla çok daha örnek verimli olacaktır ve veri gereksinimleri D ∼C^{0.27} olarak hesaplama ile çok yavaş büyür.
Optimal toplam boyutu: Bu modelleri eğitmek için ideal toplam boyutu (batch size) , yalnızca kayıp fonksiyonunun bir gücü olarak belirlenebilir ve [MKAT18]’de ölçülen gradyan gürültüsü ölçeği kullanılarak hesaplanabilir; en büyük modeller için yakınsamada yaklaşık 1–2 milyon token civarındadır.
Bir araya getirildiğinde, bu sonuçlar dil modelleme performansının, model boyutu, veri ve hesaplama uygun bir şekilde ölçeklendirildikçe düzgün ve öngörülebilir bir şekilde iyileştiğini gösterir. Daha büyük dil modellerinin, mevcut modellerden daha iyi performans göstereceğini ve daha örnek verimli olacağını tahmin ediyoruz.
Ölçekleme Yasalarının Özeti
Dilin otoregresif olarak modellenmesi için eğitilen bir Transformatörün test kaybı, performans yalnızca gömme olmayan parametrelerin sayısı N, veri kümesi boyutu D veya en iyi şekilde tahsis edilen hesaplama bütçesi C_min ile sınırlı olduğunda bir kuvvet yasası kullanılarak tahmin edilebilir (bkz. Şekil 1):
- Sınırlı sayıda parametreye sahip, yeterince büyük veri kümeleri üzerinde yakınsamaya yönelik eğitilmiş modeller için:
2. Erken durdurma ile sınırlı veri kümesiyle eğitilen büyük modeller için:
3. Sınırlı miktarda hesaplama, yeterince büyük bir veri kümesi, optimum boyutta bir model ve yeterince küçük bir toplam (batch) iş boyutu ile eğitim yapıldığında (hesaplamanın optimum kullanımı):
Bu ilişkiler C_min’de sekiz büyüklük sırası, N’de altı büyüklük sırası ve D’de iki büyüklük sırası boyunca geçerlidir. Bunlar model şekline ve diğer Transformatör hiperparametrelerine (derinlik, genişlik, öz-dikkat başlarının sayısı) çok zayıf bir şekilde bağlıdır ve Webtext eğitim seti ile ilişkili belirli sayısal değerlere sahiptir. Güç yasaları αN, αD, αmin C, N, D veya C_min’i ölçeklendirdiğimizde beklenen performans iyileştirme derecesini belirtir; örneğin, parametre sayısını iki katına çıkarmak, 2 −αN = 0,95 faktörü kadar daha küçük bir kayıp üretir. Nc, C_min c ve Dc’nin kesin sayısal değerleri kelime dağarcığı boyutuna ve belirteçlemeye (tokenizasyona) bağlıdır ve bu nedenle temel bir anlama sahip değildir.
Veri paralelliği için hız/verimlilik dengesini belirleyen kritik toplam boyutu ([MKAT18]), aynı zamanda L’deki bir güç yasasına kabaca uyar:
Denklem (1.1) ve (1.2) birlikte, model boyutunu artırdıkça veri kümesi boyutunu D ∝ N αN αD ∼ N0.74'e göre alt doğrusal olarak artırmamız gerektiğini önermektedir. Aslında, (1.1) ve (1.2)’yi birleştiren ve N ve D’ye eşzamanlı bağımlılığı ve aşırı uyum derecesini yöneten tek bir denklem olduğunu buluyoruz:
Şekil 4'te solda resmedilen uyumlarla. Bu işlevsel formun, diğer üretken modelleme görevleri için eğitilmiş log-olasılığını da parametrelendirebileceğini varsayıyoruz. Belirli bir modeli, sonsuz veri sınırında sonlu sayıda parametre güncelleme adımı S için eğitirken, başlangıçtaki geçici bir dönemden sonra, öğrenme eğrileri (Şekil 4'ün sağına bakın) doğru bir şekilde uydurulabilir:
Burada Sc ≈ 2,1 × 103 ve αS ≈ 0,76 ve Smin(S), Denklem (5.4) kullanılarak tahmin edilen en düşük olası optimizasyon adımı sayısıdır (parametre güncellemeleri). Sabit bir hesaplama bütçesi C dahilinde, ancak başka hiçbir kısıtlama olmadan eğitim yapıldığında, Denklem (1.6), optimum model boyutu N, optimum parti boyutu B, optimum adım sayısı S ve veri kümesi boyutu D’nin şu şekilde büyümesi gerektiği tahminine yol açar:
İle
Bu, ampirik olarak optimal sonuçlara yakın bir şekilde şu oranlarla uyumlu hale gelir: N∝C_min^0.73, ve B∝C_min^0.24 veS∝C_min^0.03. Hesaplama bütçesi C arttıkça, bu bütçenin öncelikli olarak daha büyük modeller üzerine harcanması gerekir; eğitim süresinde veya veri küpü boyutunda dramatik artışlar olmadan. Bu aynı zamanda, modeller büyüdükçe örneklem verimliliğinin artacağını da ima eder. Uygulamada, araştırmacılar genellikle donanım kısıtlamaları nedeniyle daha küçük modelleri, maksimum hesaplama verimliliğine ulaşacak olandan daha uzun süre eğitirler. Optimal performans, toplam hesaplama ile bir güç yasasına bağlıdır. Denklem (1.5) için bazı temel teorik motivasyonlar, öğrenme eğrisi analizleri ve bunların eğitim süresi üzerindeki etkileri ile sonuçlarımızın her bir token başına dökümünü sunuyoruz. Ayrıca, LSTM’ler ve yinelemeli Transformers ile kısa karşılaştırmalar da yapıyoruz [DGV+18].
Notasyon
Aşağıdaki gösterimi kullanıyoruz:
- L : Çapraz entropi kaybı (cross-entropy loss) nats biriminde ifade edilir. Genellikle bir bağlamdaki tokenler üzerinde ortalama alınır, ancak bazı durumlarda bağlam içindeki belirli tokenler için kayıp rapor edilir.
- N : Tüm kelime dağarcığı ve konumsal yerleştirme (positional embeddings) hariç model parametrelerinin sayısıdır. C ≈ 6NBS, gömme (embedding) dışı toplam eğitim hesaplama miktarının bir tahminidir. Burada B, toplam boyutu ve S, eğitim adımlarının (örneğin, parametre güncellemeleri) sayısıdır. Sayısal değerler PF-gün biriminde verilmiştir; 1 PF-gün = 10^15×24×3600=8.64×10^19 float işlemine eşittir.
- D: Veri kümesinin token cinsinden büyüklüğü.
Bcrit, kritik toplam boyutu [MKAT18], Bölüm 5.1'de tanımlanmış ve tartışılmıştır. Kritik toplam boyutunda eğitim, zaman ve hesaplama verimliliği arasında kabaca optimal bir denge sağlar. - Cmin : Belirli bir kayıp değerine ulaşmak için gereken minimum gömme dışı hesaplama miktarının bir tahminidir. Bu, modelin kritik toplam boyutundan çok daha küçük bir toplam boyutunda eğitilmesi durumunda kullanılan eğitim hesaplamasıdır.
- Smin: Belirli bir kayıp değerine ulaşmak için gereken minimum eğitim adımlarının bir tahmini. Bu, modelin kritik toplam boyutundan çok daha büyük bir toplam boyutunda eğitilmesi durumunda kullanılan eğitim adımlarının sayısıdır.
- αX : Kaybın L(X)∝1/X^αX şeklinde ölçeklenmesi için güç yasası (power-law) üstel değerleri; burada X, N, D, C, S, B veya Cmin olabilir.
Arka Plan ve Yöntemler
WebText [RWC+19] veri kümesinin genişletilmiş bir sürümü olan WebText2 üzerinde dil modelleri eğitiyoruz, bayt çifti kodlaması [SHB15] kullanılarak ve nvocab = 50257 kelime dağarcığı boyutuyla tokenize ediliyor. 1024 tokenli bir bağlam üzerinde ortalaması alınan otoregresif logaritmik olasılığı (yani çapraz entropi kaybını) optimize ediyoruz, bu aynı zamanda başlıca performans ölçütümüzdür. WebText2 test dağıtımındaki ve diğer metin dağıtımlarının bir kısmındaki kaybı kaydediyoruz. Karşılaştırma için öncelikle yalnızca kod çözücü [LSP+18, RNSS18] Transformatör [VSP+17] modellerini eğitiyoruz, ancak ayrıca LSTM modellerini ve Evrensel Transformatörleri de eğitiyoruz.
Transformatörlerin Parametre ve Hesaplama Ölçeklemesi
Transformatör mimarisini n_layer (katman sayısı), d_model (kalıntı akışının boyutu), d_ff (ara beslemeli ileri katmanın boyutu), d_attn (dikkat çıktısının boyutu) ve n_heads (katman başına dikkat başlığı sayısı) hiperparametrelerini kullanarak parametrelendiriyoruz. Aksi belirtilmediği sürece nctx = 1024 olacak şekilde girdi bağlamına nctx tokenlerini dahil ediyoruz.
Model boyutunu belirtmek için N’yi kullanırız; bu boyutu, gömülmeyen parametrelerin sayısı olarak tanımlarız:
Burada önyargıları ve diğer alt öncü terimleri hariç tutarız. Modellerimiz ayrıca bir gömme matrisinde n_vocabd_model parametrelerine sahiptir ve konumsal yerleştirmeler için n_ctxd_model parametrelerini kullanır, ancak ‘model boyutu’ N’yi tartışırken bunları dahil etmiyoruz; bunun önemli ölçüde daha temiz ölçekleme yasaları ürettiğini göreceğiz. Transformatörün ileri geçişini değerlendirmek kabaca şunları içerir:
İki çarpanının matris çarpımında kullanılan çarpma-biriktirme (multiply accumulate) işleminden geldiği toplama-çarpma işlemleri. İşlem başına daha ayrıntılı bir parametre ve hesaplama sayısı Tablo 1'de yer almaktadır.
dmodel > nctx/12 olan bağlamlar ve modeller için, token başına bağlam bağımlı hesaplama maliyeti, toplam hesaplamanın nispeten küçük bir kesridir. Öncelikle dmodel >> nctx/12 olan modelleri incelediğimiz için, eğitim hesaplama tahminimize bağlam bağımlı terimleri dahil etmiyoruz. Geriye doğru geçişi hesaba katarak (ileri geçişin yaklaşık iki katı hesaplama), daha sonra tahmini gömme olmayan hesaplamayı eğitim token başına C ≈ 6N float operatörü olarak tanımlıyoruz.
Eğitim Prosedürleri
Aksi belirtilmediği sürece, 1024 tokenlik 512 dizilik bir toplu boyutla sabit 2,5 × 105 adım için Adam optimizer [KB14] ile modelleri eğitiyoruz. Bellek kısıtlamaları nedeniyle, en büyük modellerimiz (1 milyardan fazla parametre) Adafactor [SS18] ile eğitildi. Ek D.6'da tartışıldığı gibi çeşitli öğrenme oranları ve çizelgeleri denedik. Yakınsamadaki sonuçların öğrenme oranı çizelgesinden büyük ölçüde bağımsız olduğunu bulduk. Aksi belirtilmediği sürece, verilerimizde yer alan tüm eğitim çalıştırmaları, 3000 adımlı doğrusal ısınma ve ardından sıfıra kosinüs bozunması olan bir öğrenme oranı çizelgesi kullandı.
Veri Kümeleri
Modellerimizi [RWC+19]’da açıklanan WebText veri kümesinin genişletilmiş bir sürümü üzerinde eğitiyoruz. Orijinal WebText veri kümesi, en az 3 karma alan (karma beğeni gibi bir olumlu etkileşimdir), Aralık 2017'ye kadar Reddit’ten giden bağlantıların bir web kazımasıdır. İkinci sürüm olan WebText2'de, yine en az 3 karma ile Ocak-Ekim 2018 dönemindeki Reddit bağlantılarını da ekledik. Karma eşiği, insanların bağlantıyı ilginç veya yararlı bulup bulmadığına dair bir sezgisel yöntem olarak hizmet etmiştir.
Yeni bağlantıların metni Newspaper3k python kütüphanesi ile çıkarıldı. Toplamda, veri kümesi 96 GB metin ve 1,62 × 1010 kelime (wc ile gösterilmiştir) içeren 20,3 milyon belgeden oluşuyor. Daha sonra, 2,29 × 1010 token üreten [RWC+19]’da açıklanan geri döndürülebilen (reversable) tokenizer uyguluyoruz. Bu tokenların 6,6 × 108'ini test seti olarak kullanmak üzere ayırdık ve ayrıca Books Corpus, Common Crawl [Fou], İngilizce Wikipedia ve herkese açık İnternet Kitapları koleksiyonunun benzer şekilde hazırlanmış örnekleri üzerinde de testler yaptık.
Ampirik Sonuçlar ve Temel Güç Yasaları
Dil modeli ölçeklemesini karakterize etmek için, aşağıdakiler de dahil olmak üzere çeşitli faktörleri değiştirerek çok çeşitli modeller eğitiyoruz:
- Model boyutu (768 ila 1,5 milyar gömme olmayan parametre arasında değişen boyut)
- Veri kümesi boyutu (22 milyon ila 23 milyar token arasında değişen boyut)
- Şekil (derinlik, genişlik, dikkat başlıkları ve ileri besleme boyutu dahil)
- Bağlam uzunluğu (çoğu çalışma için 1024, ancak daha kısa bağlamlarla da deneyler yapıyoruz)
- Toplam boyutu (çoğu çalışma için 2¹⁹, ancak kritik toplam boyutu ölçmek için bunu da değiştiriyoruz)
Bu bölümde, teorik analizi sonraki bölümlere bırakarak, verileri deneysel olarak motive edilmiş uyumlarla birlikte sunacağız.
Yaklaşık Transformatör Şekli ve Hiperparametre Bağımsızlığı
Toplam gömme olmayan parametre sayısı N’yi sabit tuttuğumuzda, dönüştürücü performansı nlayer, nheads ve dff şekil parametrelerine çok zayıf bir şekilde bağlıdır. Bu sonuçları elde etmek için tek bir hiperparametreyi değiştirirken sabit boyutlu modelleri eğittik. Bu, nheads durumu için en basit olanıydı. nlayer’ı değiştirirken, N ≈ 12nlayerd 2 modelini sabit tutarken aynı anda dmodel’i değiştirdik. Benzer şekilde, dff’yi sabit model boyutunda değiştirmek için, Tablo 1'deki parametre sayımlarının gerektirdiği şekilde aynı anda dmodel parametresini de değiştirdik. ResNets için önerildiği gibi, daha derin Dönüştürücüler etkili bir şekilde daha sığ modellerin toplulukları olarak davranırsa, nlayers’ın bağımsızlığı ortaya çıkar. Sonuçlar Şekil 5'te gösterilmiştir.
Gömme Olmayan Parametre Sayısıyla Performans N
Şekil 6'da, şekli (nlayer, dmodel) = (2, 128) olan küçük modellerden, şekli (6, 4288) ile (207, 768) arasında değişen milyar parametreli modellere kadar çok çeşitli modellerin performansını gösteriyoruz. Burada, tam WebText2 veri kümesinde yakınsamaya yaklaşan bir eğitim yaptık ve aşırı uyum gözlemlemedik (muhtemelen en büyük modeller hariç).
Şekil 1'de gösterildiği gibi, Denklem (1.5)’in ilk terimine uydurulabilen, gömme olmayan parametre sayısı N ile sabit bir eğilim buluyoruz, böylece:
Bu eğilimleri gözlemlemek için performansı N’nin bir fonksiyonu olarak incelemek çok önemlidir; bunun yerine toplam parametre sayısını (gömme parametreleri dahil) kullanırsak eğilim bir nebze belirsizleşir. Bu, gömme matrisinin performansı etkilemeden küçültülebileceğini, yakın tarihli çalışmalarda görüldüğü gibi, göstermektedir. Bu modeller WebText2 veri kümesinde eğitilmiş olsa da, çeşitli diğer veri kümelerindeki test kayıpları da Şekil 8'de gösterildiği gibi, neredeyse aynı güce sahip N’deki bir kuvvet yasasıdır.
LSTM’ler ve Evrensel Transformatörlerle Karşılaştırılması
Şekil 7'de LSTM ve Transformer performansını, gömme olmayan parametre sayısı N’nin bir fonksiyonu olarak karşılaştırıyoruz. LSTM’ler aynı veri kümesi ve bağlam uzunluğuyla eğitildi. Bu şekillerden, LSTM’lerin bağlamda erken görünen tokenler için Transformatör’ler kadar iyi performans gösterdiğini, ancak daha sonraki tokenler için Transformatör performansına yetişemediğini görüyoruz. Performans ve bağlam konumu arasındaki kuvvet yasası ilişkilerini Ek D.5'te sunuyoruz; Burada daha büyük modeller için giderek artan kuvvetler, desenleri hızlı bir şekilde tanıma yeteneğinin arttığını gösteriyor. Ayrıca ekteki Şekil 17'de standart Transformatör’lerin performansını yinelemeli Transformatörlerle karşılaştırıyoruz. Bu modeller parametreleri yeniden kullanır ve bu nedenle parametre başına ek hesaplama maliyetiyle N’nin bir fonksiyonu olarak biraz daha iyi performans gösterir.
Veri Dağılımları Arasında Genelleme
Modellerimizi bir dizi ek metin verisi dağılımında da test ettik. Bu veri kümelerindeki test kaybı, model boyutunun bir fonksiyonu olarak Şekil 8'de gösterilmiştir; tüm durumlarda modeller yalnızca WebText2 veri kümesinde eğitilmiştir. Bu diğer veri dağılımlarındaki kaybın, WebText2'deki iyileşmeyle doğrudan paralel olarak, model boyutuyla düzgün bir şekilde iyileştiğini görüyoruz. Genellemenin neredeyse yalnızca dağıtım içi doğrulama kaybına bağlı olduğunu ve eğitim süresine veya yakınsamaya yakınlığa bağlı olmadığını görüyoruz. Ayrıca model derinliğine bağlı olmadığını da gözlemliyoruz.
Veri Kümesi Boyutu ve Hesaplama ile Performans
Şekil 1'de test kaybı için deneysel eğilimleri veri kümesi boyutu D (token cinsinden) ve eğitim hesaplaması C’nin bir fonksiyonu olarak gösteriyoruz. D’li eğilim için WebText2 veri kümesinin sabit alt kümelerinde (nlayer, nembd) = (36, 1280) olan bir model eğittik. Test kaybı azalmayı bıraktığında eğitimi durdurduk. Ortaya çıkan test kayıplarının veri kümesi boyutunda basit kuvvet yasasına uygun olabileceğini görüyoruz:
Veri ve uyum Şekil 1'de görünür. Eğitim sırasında kullanılan toplam gömme olmayan hesaplama miktarı C = 6NBS olarak tahmin edilebilir, burada B toplu boyut, S parametre güncellemelerinin sayısı ve 6 faktörü ileri ve geri geçişleri hesaba katar. Dolayısıyla verilen bir C değeri için çeşitli N’li tüm modelleri tarayarak modeli bulabiliriz
Adım S = C / 6BS’de en iyi performans. Bu sonuçlarda, parti boyutu B’nin tüm modeller için sabit kaldığına dikkat edin, bu da bu deneysel sonuçların gerçekten en iyi olmadığı anlamına gelir. Daha sonraki bölümlerde daha temiz eğilimler üretmek için ayarlanmış bir Cmin kullanarak bunu hesaba katacağız. Sonuç, Şekil 1'deki sol taraftaki grafikte koyu siyah çizgi olarak görünür. Şunlarla uyumlu hale getirilebilir:
Şekilde ayrıca bireysel modellerin ne zaman en uygun olduğunu açıklamak için bireysel öğrenme eğrilerinin görüntüleri de yer almaktadır. Daha sonra hesaplamanın en uygun tahsisini daha yakından inceleyeceğiz. Veriler, örnek verimliliğinin model boyutuyla birlikte arttığını güçlü bir şekilde göstermektedir ve bunu ekteki Şekil 19'da doğrudan gösteriyoruz.
Sonsuz Veri Sınırını ve Aşırı Uyumlamayı Çizelgeleme
Bölüm 3, dil modelleme performansı için birkaç temel ölçekleme yasası buldu. Burada, N ve D’yi aynı anda değiştirirken D tokenli bir veri kümesi üzerinde eğitilen N boyutlu bir modelin performansını inceleyeceğiz. En iyi şekilde eğitilen test kaybının Denklem (1.5)’in ölçekleme yasasıyla uyumlu olduğunu deneysel olarak göstereceğiz. Bu yasa, aşırı uyumu kontrol ederken artan boyuttaki modelleri eğitmek için ne kadar veriye ihtiyacımız olduğunu yönlendirir.
Proposed L(N, D) Equation
(1.5) parametrelemesini seçtik (kolaylık olması açısından burada tekrarlanmıştır):
Üç ilkeyi kullanarak:
- Kelime dağarcığı boyutundaki veya tokenizasyondaki değişikliklerin kaybı genel bir faktörle yeniden ölçeklendirmesi beklenir. L(N, D) (ve tüm kayıp modelleri) parametrelendirmesi doğal olarak böyle bir yeniden ölçeklendirmeye izin vermelidir.
- D’yi sabitleyip N → ∞ göndererek, toplam kayıp L(D)’ye yaklaşmalıdır. Tersine, N’yi sabitleyip D → ∞ göndererek, kayıp L(N)’ye yaklaşmalıdır.
- L(N, D) D = ∞ noktasında analitik olmalıdır, böylece tam sayı kuvvetleri olan 1/D’de bir seri açılımı vardır. Bu ilke için teorik destek ilk ikisine göre önemli ölçüde daha zayıftır.
L(N, D) seçimimiz ilk gereksinimi karşılar çünkü Nc, Dc’yi sözcük dağarcığındaki değişikliklerle yeniden ölçekleyebiliriz. Bu ayrıca Nc, Dc değerlerinin temel bir anlamı olmadığı anlamına gelir.
Test kaybı iyileşmeyi bıraktığında eğitimi erken durdurduğumuz ve tüm modelleri benzer şekilde optimize ettiğimiz için, daha büyük modellerin her zaman daha küçük modellerden daha iyi performans göstermesini bekliyoruz. Ancak, sabit ve sonlu bir D ile hiçbir modelin mümkün olan en iyi kayba (örneğin, metnin entropisine) yaklaşabileceğini de beklemiyoruz. Benzer şekilde, sabit bir boyuta sahip bir model kapasite sınırlı olacaktır. Bu hususlar, ikinci ilkemizi motive etmektedir.
Not edilmelidir ki, sonsuz D için L(N) ve sonsuz N için L(D) hakkında bilgi sahibi olmak, L(N,D) içindeki tüm parametreleri tam olarak belirler. Üçüncü ilke daha spekülatiftir. Çok büyük D değerlerinde aşırı öğrenmenin ∝ 1/D ölçeklenmesini beklemek için basit ve genel bir neden vardır. Aşırı öğrenme, veri kümesinin varyansı veya sinyal-gürültü oranı ile ilgili olmalıdır ve bu değer 1/D1 olarak ölçeklenir. Bu beklenti, D→∞ sınırında kaybın genişletilebileceğini beklediğimiz için herhangi bir düzgün kayıp fonksiyonu için geçerli olmalıdır. Ancak, bu argüman, sonlu yığın boyutu ve optimizasyonun etkinliğine yönelik diğer sınırlamalar gibi diğer varyans kaynaklarının üzerinde 1/D1 düzeltmelerinin baskın olduğunu varsayar. Ampirik doğrulama olmadan, uygulanabilirliği konusunda çok emin olamayız.
Üçüncü ilkemiz, Denklem (1.5) içindeki N ve D’nin rolleri arasındaki asimetrinin açıklamasını yapar. Çok benzer simetrik ifadeler4 mümkün olsa da, bunlar tam sayı kuvvetleriyle bir 1/D1 genişlemesine sahip olmayacak ve ek bir parametrenin tanıtılmasını gerektirecektir. Her halükarda, L(N,D) için geliştirdiğimiz denklemimizin verilere iyi uyum sağladığını göreceğiz ki, bu da L(N,D) yaklaşımımız için en önemli gerekçedir.
Sonuçlar
Tüm modellerimizi %10'luk sönümleme (dropout) düzenliyoruz ve test kaybını takip ederek ve artık azalmadığında durduruyoruz. Sonuçlar, Şekil 9'da, Denklem (1.5)’teki dört parametre αN, αD, Nc, Dc’ye bir uyum dahil olmak üzere gösterilmektedir:
Veri kümesinin 1024 faktörüyle yaklaşık 2 × 107 tokene düşürüldüğü çalışmalar haricinde mükemmel bir uyum elde ediyoruz. Bu kadar küçük bir veri kümesiyle, bir dönem yalnızca 40 parametre güncellemesinden oluşur. Belki de bu kadar küçük bir veri kümesi, dil modellemesi için farklı bir rejimi temsil eder, çünkü aşırı uyum eğitimin çok erken aşamalarında gerçekleşir (bkz. Şekil 16). Ayrıca, parametrelerin Bölüm 3'te elde edilenlerden çok az farklı olduğunu unutmayın, çünkü burada yalnızca L(N, ∞) veya L(∞, D) yerine tam L(N, D) uyguluyoruz. Sonsuz veri sınırının sınır bölgelerini çizmek için, aşırı uyumun kapsamını doğrudan inceleyebiliriz. En büyük modeller dışında, tam 22B jetonlu WebText2 veri kümesiyle eğitim sırasında aşırı uyum belirtisi görmüyoruz, bu nedenle bunu D = ∞’nin temsilcisi olarak alabiliriz. Bu nedenle, sonlu D’yi sonsuz veri sınırıyla şu şekilde tanımlayarak karşılaştırabiliriz:
Ve bunu N, D’nin bir fonksiyonu olarak incelediğimizde, aslında, Şekil 16'da gösterildiği gibi, δL’nin yalnızca N ve D’nin belirli bir kombinasyonuna bağlı olduğunu deneysel olarak görüyoruz. Bu, Denklem (1.5)’in ölçekleme yasasından kaynaklanmaktadır ve şu anlama gelir:
Büyük D’de bu formülün 1/D’nin kuvvetleri şeklinde bir seri açılımı da olduğunu unutmayın. Farklı rastgele tohumlarla kayıptaki varyasyonun yaklaşık 0,02 olduğunu tahmin ediyoruz, bu da yakınsama eşiği içinde eğitim yaparken aşırı uyumu önlemek için şunu gerektirdiğimiz anlamına gelir:
Bu ilişkiyle, 1⁰⁹ parametreden küçük modeller 22B token WebText2 veri kümesinde minimum aşırı uyumla eğitilebilir, ancak en büyük modellerimiz bazı hafif aşırı uyumlarla karşılaşacaktır. Daha genel olarak, bu ilişki, aşırı uyumu önlerken veri kümesi boyutunun model boyutunda alt doğrusal olarak büyüyebileceğini gösterir. Ancak bunun genellikle maksimum hesaplama verimliliğine sahip eğitimi temsil etmediğini unutmayın. Ayrıca, veri kümesi ve model boyutunu değiştirirken düzenlemeyi (örneğin bırakma olasılığını) optimize etmediğimizi vurgulamalıyız.
Model Boyutu ve Eğitim Süresiyle Ölçekleme Yasaları
Bu bölümde, basit bir ölçekleme yasasının model boyutu N ve eğitim süresi fonksiyonu olarak kayıp için iyi bir açıklama sağladığını göstereceğiz. İlk olarak, [MKAT18] sonuçlarının, modellerimizin çoğunun optimum bir toplu boyutta eğitilmemiş olması gerçeğini hesaba katan evrensel bir eğitim adımı Smin tanımlamak için nasıl kullanılacağını açıklayacağız. Daha sonra, Denklem (1.6)’yı kullanarak kaybın model boyutu ve eğitim süresi bağımlılığına uyabileceğimizi göstereceğiz. Daha sonra bu sonuçları, model boyutu ve eğitim süresi arasındaki eğitim hesaplamasının optimum tahsisini tahmin etmek için kullanacağız ve ardından bu tahmini doğrulayacağız.
Bcrit’te Eğitim İçin Ayarlama (L)
Eğitimin toplam boyutu (batch size) bağımlılığı için basit bir ampirik teori [MKAT18]’de geliştirilmiştir (ayrıca bkz. [SLA+18, ZLN+19]). Eğitim için kritik bir toplam boyutu Bcrit olduğu ileri sürülmüştür; B’ye kadar Bcrit için toplam boyutu, hesaplama verimliliğinde çok az bozulma ile artırılabilirken, B > Bcrit için B’deki artışlar azalan getirilerle sonuçlanır.
Ayrıca, gradyan gürültü ölçeğinin (gradient noise scale) Bcrit için basit bir tahmin sağladığı ve bunların hiçbirinin elde edilen kayıp değeri dışında doğrudan model boyutuna bağlı olmadığı ileri sürülmüştür. Bu sonuçlar, eğitim süresinin ve hesaplamanın toplam boyutuna göre nasıl değişeceğini tahmin etmek için kullanılabilir. Hem eğitim süresini hem de hesaplamayı mümkün olduğunca etkili bir şekilde kullanmak için, B ≈ Bcrit toplu boyutuyla eğitim yapmak en iyisidir. B Bcrit’te eğitim, eğitim adımlarının sayısını en aza indirirken, B Bcrit hesaplama kullanımını en aza indirir. Daha spesifik olarak, çok çeşitli sinir ağı görevleri için eğitim adımlarının sayısı S ve işlenen veri örneklerinin sayısı E = BS’nin şu basit ilişkiyi sağladığı gösterilmiştir:
Kayıp L’nin herhangi bir sabit değerine eğitim verirken. Burada Smin, L’ye ulaşmak için gereken minimum adım sayısı iken Emin, işlenmesi gereken minimum veri örneği sayısıdır. Ekteki Şekil 18'de Transformatörler için (5.1) ilişkisini gösteriyoruz. Bu ilişki kritik toplu boyutu tanımlar:
Bu, kaybın hedef değerinin bir fonksiyonudur. Kritik toplu boyutta eğitim, yaklaşık olarak en uygun zaman/hesaplama takasını yapar, 2Sdakikalık eğitim adımları ve E = 2Edakikalık veri örneklerinin işlenmesini gerektirir. Şekil 10'da, kritik toplu boyutu ve eğim gürültü ölçeğini iki farklı model için eğitim kaybının bir fonksiyonu olarak çizdik. Bcrit(L)’nin model boyutundan bağımsız olduğunu ve yalnızca L kaybına bağlı olduğunu görüyoruz. Bu nedenle [MKAT18]’in tahminleri Transformer dil modelleri için geçerli olmaya devam ediyor. Kritik toplu boyut, kayıptaki bir kuvvet yasasıyla uyumlu hale getirilebilir:
Burada B∗ ≈ 2 × 108 ve αB ≈ 0,21'dir.
Bcrit(L) için bu parametrelendirmeyi seçtik çünkü kayıp minimum değeri Lmin’e yaklaştıkça, gradyan gürültü ölçeğinin ıraksaması (diverging) beklenir ve Bcrit’in bu gürültü ölçeğini izlemesini bekleriz. Modellerimizin ona yaklaştığına dair bir işaret görmediğimiz için Lmin’i bilmiyoruz, ancak doğal dilin entropisi sıfır olmadığından Lmin > 0'dır. Lmin, elde ettiğimiz L değerlerinden çok daha küçük olduğundan, Bcrit’in L → 0 olarak ıraksadığı bir parametrelendirme kullandık. Bcrit(L)’yi, toplam iş boyutu B = 219 tokende eğitim sırasında eğitim adımı sayısı S ile B Bcrit’te eğitim sırasında eğitim adımı sayısı arasındaki ilişkiyi tahmin etmek için kullanacağız. Bu basitçe şudur:
Kayıp için herhangi bir verilen hedef değer L için. Bu ayrıca, B << Bcrit(L)’de eğitim yapacaksak, N boyutlu bir modelle L’ye eğitim için gereken hesaplamanın kritik değerini tanımlar. Bu:
C = 6NBS, toplu iş boyutu B’de kullanılan (gömme olmayan) hesaplamayı tahmin eder.
L(N, Smin) ve Model Boyutu ve Hesaplama ile Performans için Sonuçlar
Şimdi, sonsuz veri sınırında model boyutu ve eğitim süresine bağlı kaybın bağımlılığı için basit ve evrensel bir uyum elde etmek için Denklem (5.4)’te tanımlanan Smin’i kullanacağız. Burada kolaylık olması için tekrarlanan Denklem (1.6)’yı kullanarak kararlı, Adam-optimize edilmiş eğitim çalıştırmalarını kayıp için uygulayacağız:
Öğrenme hızı çizelgesinin ısınma periyodundan sonraki tüm eğitim adımlarını dahil ediyoruz ve parametrelerle verilere uyumu buluyoruz:
Bu parametrelerle, Şekil 4'e uyan öğrenme eğrisini elde ederiz. Uyumlar mükemmel olmasa da, Denklem (5.6)’nın basitliği göz önüne alındığında oldukça ikna edici olduklarına inanıyoruz. Veriler ve uyumlar, Şekil 11'de gösterildiği gibi farklı ve daha ilgi çekici şekilde görselleştirilebilir. Burada, eğitimde kullanılan toplam gömme olmayan hesaplama C’yi veya adım sayısı S’yi sabitleyerek test kaybını model boyutunun bir fonksiyonu olarak inceliyoruz. Uyumlar için yukarıdaki parametreler ve Denklem (5.5) ve (5.4) ile birlikte Denklem (5.6)’yı kullanıyoruz. Kaybın Smin üzerindeki kuvvet yasası bağımlılığı, optimize edici dinamiklerinin ve kayıp manzarasının etkileşimini yansıtır. Uyumlar, kaybın yaklaşık olarak ikinci dereceden olabileceği eğitimin sonlarında en iyi olduğundan, kuvvet yasası kaybın Hessian’ının spektrumu hakkında bilgi sağlamalıdır. Evrenselliği, Hessian özdeğer (eigenvalue) yoğunluğunun model boyutundan kabaca bağımsız olduğunu göstermektedir.
Erken Durdurma Adımında Alt Sınır
L(N, Smin) için sonuçlar, eğitim veri sınırlı olduğunda erken durdurmanın gerçekleşmesi gereken adımın alt sınırını (ve kaba tahminini) türetmek için kullanılabilir. Belirli bir model için sonlu ve sonsuz D öğrenme eğrilerinin Smin ≈ Sstop’a ulaşana kadar çok benzer olacağı fikrinden ilham alınmıştır. Bu nedenle aşırı uyum, eğitimi Sstop’ta sonlandırmaktan kaynaklanan düzeltmeyle orantılı olmalıdır. Bu, Sstop’u hafife alacaktır çünkü gerçekte test kaybı sonlu bir D’ye sahip olduğumuzda daha yavaş azalacaktır ve bu nedenle sonlu D’de optimum test kaybına ulaşmak için daha fazla eğitim adımına ihtiyacımız olacaktır. Bu mantık dizisi şu eşitsizliğe yol açar:
Burada L(N, ∞) sonsuz kullanılabilir veriyle değerlendirilen yakınsak kayıptır. Bu eşitsizlik ve ampirik verilerle karşılaştırılması ekteki Şekil 16'da gösterilmiştir. Bu şekilde, Sstop ve L(N, D) değerleri ampiriktir (ancak Sstop B Bcrit’te eğitimi taklit edecek şekilde ayarlanmıştır), L(N, ∞) ise D = ∞’da değerlendirilen L(N, D)’ye uyumdan hesaplanır.
Hesaplama Bütçesinin Optimum Tahsisi
Performansın ampirik eğilimini, Şekil 1'in sağ üst kısmında eğitim sırasında kullanılan hesaplamanın bir fonksiyonu olarak gösterdik. Ancak, bu sonuç sabit bir toplam boyutu B’de eğitimi içeriyordu, oysa aslında Bölüm 5.1'de tartışılan parti boyutu Bcrit’de eğitim alarak daha verimli bir şekilde eğitim alabileceğimizi biliyoruz. Kaybın büyük ve küçük değerleri sırasıyla daha az örnek veya daha az adımla elde edilebilirdi ve bu verimsizliğin kritik parti boyutuna göre standartlaştırılarak düzeltilmesi daha temiz ve daha öngörülebilir eğilimlerle sonuçlanır.
Bu bölümde bu gözden kaçırmayı düzelteceğiz. Daha da önemlisi, Bölüm 5'in sonuçlarını, model boyutu N ile eğitim sırasında işlenen veri miktarı, yani 2BcritSmin arasındaki hesaplamanın optimum tahsisini belirlemek için kullanacağız. Bu tahsisi hem deneysel hem de teorik olarak, L(N, Smin) denklemini kullanarak belirleyeceğiz ve bu yöntemlerin uyumlu olduğunu göstereceğiz.
Optimum Performans ve Tahsisler
Öncelikle kaybı Denklem (5.5)’ten optimal olarak tahsis edilmiş hesaplamanın bir fonksiyonu olarak inceleyelim. Sonuç, bir kuvvet yasası uyumuyla birlikte Şekil 13'te çizilmiştir. Şekil 1'deki hesaplama çizimiyle karşılaştırıldığında, Cmin ile yeni uyumun bir miktar iyileştiğini görüyoruz. L(Cmin) verildiğinde, verilen miktarda eğitim hesaplamasıyla minimum kaybı sağlayan optimal model boyutu N(Cmin)’i istemek doğaldır. Optimum model boyutu Şekil 14'te gösterilmiştir. N(Cmin)’in bir kuvvet yasasıyla çok iyi uyum sağlayabileceğini gözlemliyoruz:
Şekil 12'de, optimum olmayan boyutlardaki eğitim modellerinin etkisini gösteriyoruz (bkz. Ek B.4).
Tanım gereği Cmin ≡ 6NBcritS’dir ve bu nedenle daha fazla sonuç çıkarmak için N(Cmin) kullanabiliriz. Özellikle, önceki uyumlar B ∝ L −4.8 ve L ∝ C −0.05 dak gösterdiğinden, Bcrit ∝ C 0.24 dak sonucuna varabiliriz. Bu bizi, hesaplamayla optimum adım sayısının yalnızca çok yavaş artacağı sonucuna götürür, çünkü:
Şekil 14'teki deneysel sonuçları eşleştirmek. Aslında ölçülen üs o kadar küçüktür ki sonuçlarımız sıfır üssüyle bile tutarlı olabilir. Bu nedenle, dil modellemesini optimal bir hesaplama tahsisiyle ölçeklendirdiğimizde, ağırlıklı olarak model boyutunu N artırmamız gerektiği, aynı anda seri adım sayısında ihmal edilebilir bir artışla B ∝ Bcrit üzerinden toplu boyutu ölçeklendirmemiz gerektiği sonucuna varıyoruz. Hesaplama açısından verimli eğitim nispeten az sayıda optimizasyon adımı kullandığından, erken eğitim dinamiklerini hızlandırmak için ek çalışmalar gerekebilir.
L(N, Smin)’den Tahminler
L(Cmin) ve tahsisler için sonuçlar, Bölüm 5'te elde edilen L(N, Smin) denkleminden tahmin edilebilir. L(N, Smin) denklemimiz verildiğinde, Smin = Cmin 6NB’yi koyabilir ve ardından eğitim hesaplamasını sabitlerken kaybın N’ye bağlı olarak minimumunu bulabiliriz. Bu prosedürü, bazı ek tahminler de sağladığımız Ek B’de ayrıntılı olarak gerçekleştiriyoruz. Eğitim hesaplamasına bağlı olarak kayıp için şunu tahmin ediyoruz:
Burada:
Şekil 13'ün üssüyle mükemmel bir uyum içindedir. Ayrıca şunu da öngörüyoruz ki:
Bu, Şekil 14'ün ölçeklenmesiyle de birkaç yüzdelik oranda eşleşir. Ölçekleme yasalarımız, dil modellemesinin performansı için öngörücü bir çerçeve sağlar.
Çelişkiler ve Bir Varsayım
Hesaplama, veri veya model boyutunun büyük değerlerinde düz kuvvet yasası eğilimlerinden sapma belirtisi görmüyoruz. Ancak, doğal dilin sıfır olmayan entropisi olduğundan, eğilimlerimiz sonunda dengelenmelidir. Gerçekten de, bu bölümde açıklanan hesaplama açısından verimli eğitim eğilimleri zaten belirgin bir çelişki içeriyor. Burada belgelenenlerden birkaç büyüklük sırası daha büyük ölçeklerde, L(Cmin) ölçekleme yasası tarafından tahmin edilen performans, hesaplama ile eğitim verilerindeki yavaş büyüme göz önüne alındığında mümkün olması gerekenin altına düşer. Bu, ölçekleme yasalarımızın bu noktadan önce bozulması gerektiği anlamına gelir, ancak kesişim noktasının daha derin bir anlamı olduğunu varsayıyoruz: Transformer dil modellerinin maksimum performansa ulaştığı noktanın bir tahminini sağlar. Hesaplama açısından verimli eğitim tarafından kullanılan veri miktarı hesaplama bütçesiyle yavaşça arttığından, L(Cmin) tarafından tahmin edilen performans sonunda L(D) kuvvet yasası tarafından belirlenen bir alt sınıra ulaşır (bkz. Şekil 15). Bunu daha ayrıntılı olarak çözelim. Aşırı uyumu kontrol altında tutmak için, Bölüm 4'ün sonuçları veri kümesi boyutunu şu şekilde ölçeklendirmemiz gerektiğini göstermektedir:
Şekil 14'teki hesaplama açısından verimli N(Cmin) değerini kullandığımız yer. Bunu hesaplama açısından verimli eğitimin veri gereksinimleriyle karşılaştıralım. Kritik toplu iş boyutunda (yani C = 2Cmin) eğitim verirsek ve eğitim sırasında verileri asla yeniden kullanmazsak, veri kullanımının hesaplamayla birlikte şu şekilde arttığını görürüz:
Bu, veri kümesi boyutunun hesaplamayla üretken bir şekilde büyüyebileceği maksimum orandır, çünkü bu yalnızca tek bir dönem için eğitim aldığımız anlamına gelir. Ancak veri kümesini Denklem (6.6)’dakinden çok daha yavaş büyütür. Bu, eğitim süreci hiçbir veriyi yeniden kullanmasa bile, hesaplama açısından verimli eğitimin sonunda aşırı uyum sorunuyla karşılaşacağı anlamına geliyor! Şekil 1'e göre, veri kümesi boyutuyla darboğaza girdiğimizde (yani aşırı uyumla), kaybın L(D) ∝ D−0,095 olarak ölçeklenmesi gerektiğini bekliyoruz. Bu, veri sınırlı olduğumuzda kaybın hesaplamayla L(D(Cmin)) ∝ C −0,03 dakika olarak ölçekleneceği anlamına gelir. Bir kez daha, bu sonunda Şekil 13'teki L(Cmin) için tahminimizle kesişeceği için bir çelişkimiz var, burada L(Cmin) ∝ C −0,050 dakika ölçeklenmesi bulduk. L(D(Cmin)) ve L(Cmin) kesişim noktası şu şekilde oluşur:
Sayısal değerler oldukça belirsizdir, güç yasası uyumlarından türetilen üslerin kesin değerlerine bağlı olarak bir büyüklük mertebesinde bir yöne ya da diğerine değişiklik gösterebilir. En bariz yorum, ölçeklendirme yasalarımızın bu noktaya ulaştığımızda veya öncesinde geçerliliğini yitirdiğidir; bu nokta hâlâ hem hesaplama hem de model boyutu açısından birçok büyüklük mertebesi uzaktadır.
Bir başka varsayım, bu kesişim noktasının daha derin bir anlama sahip olduğu olabilir. Eğer model boyutunu N^*’nin ötesine, niteliksel olarak farklı veri gereksinimleri olmadan artıramıyorsak, belki de C^*_{min} ve N^*’ye ulaştığımızda, doğal dil verilerinde mevcut olan tüm güvenilir bilgiyi çıkarmış olduğumuz anlamına gelir. Bu yorumda, L^*, doğal dilin token başına düşen entropisi için kabaca bir tahmin sağlayabilir. Bu senaryoda, kayıp eğiliminin L∗L^*L∗’de ya da öncesinde yataylaşmasını bekleriz.
L(Cmin)’in yataylaşırken alacağı işlevsel formu, eğitim veri setimize eklenen bir gürültü versiyonunu düşünerek tahmin edebiliriz. Örneğin, modele gösterilen her bağlama rastgele bir token dizisi ekleyerek kaybı yapay olarak sabit bir ekleyici faktörle artırabiliriz. Bu durumda, gürültü tabanı ile mesafe (L−Lnoise), daha anlamlı bir performans metriği olur ve bu mesafedeki küçük bir azalma bile niteliksel performansta önemli bir artışı temsil edebilir. Yapay gürültü tüm eğilimlerimizi eşit şekilde etkileyeceğinden, kritik 6.8 noktası değişmez (yalnızca L^*’nin mutlak değeri değişir) ve bu, yataylaşmadan sonra meydana gelse bile anlamlı olabilir.
İlgili Çalışmalar
Güç yasaları (power laws), çok çeşitli kaynaklardan ortaya çıkabilir [THK18]. Yoğunluk tahmini modellerinde ve veri seti boyutunda güç yasası ölçeklendirmeleri [Was06] ile rastgele orman modellerinde [Bia12], bulgularımızla bağlantılı olabilir. Bu modeller, güç yasası katsayılarının, verilerdeki ilgili özelliklerin sayısının tersine çok kaba bir şekilde yorumlanabileceğini öne sürmektedir. Bazı erken çalışmalar [BB01, Goo01], performans ile veri seti boyutu arasında güç yasası ölçeklendirmeleri bulmuştur. Daha yeni çalışmalar [HNA+17, HAD19], model boyutu ile veri boyutu arasındaki ölçeklendirmeyi de araştırmıştır; bu çalışmalar, literatürde bizimkine en yakın olanlardır. Ancak [HNA+17], model boyutuyla veri seti boyutunun süper-lineer ölçeklendiğini bulurken, biz alt-lineer bir ölçeklendirme buluyoruz.
Hesaplama tahsisinin optimal düzenlenmesi ile ilgili bulgularımız ile [Kom19] arasında, güç yasası öğrenme eğrilerini içeren bazı paralellikler bulunmaktadır. EfficientNet [TL19] modelleri, doğruluk ile model boyutu arasında yaklaşık bir güç yasası ilişkisine uyuyor gibi görünmektedir. Çok yeni bir çalışma [RRBS19b], çeşitli veri setleri için hem veri seti hem de model boyutuyla ölçeklendirmeyi araştırmakta ve bizimkine benzer bir varsayımı uygun hale getirmektedir. EfficientNet [TL19], görüntü modellerinin optimal performansı için derinlik ve genişliğin üstel olarak ölçeklendirilmesini (farklı katsayılarla) savunmakta ve bu, derinliğin bir fonksiyonu olarak genişlikte bir güç yasası ölçeklendirmesiyle sonuçlanmaktadır. Dil modelleri için bu gücün, ölçek büyütüldüğünde yaklaşık bir olması gerektiğini buluyoruz (genişlik/derinlik sabit kalmalıdır). Ancak daha önemlisi, dil modelinin genel ölçeğinin, mimari hiperparametrelerin kesin detaylarından daha önemli olduğunu buluyoruz. [VWB16], derin modellerin daha sığ modellerin toplulukları olarak işlev görebileceğini ileri sürerek bu bulguyu potansiyel olarak açıklayabilir. Daha önceki çalışmalar [ZK16], genişlik ve derinliği karşılaştırmış ve geniş ResNet’lerin, görüntü sınıflandırmasında derin ResNet’lerden daha iyi performans gösterebileceğini bulmuştur.
Bazı çalışmalar, örnek başına hesaplamayı sabitler ve bu, model parametrelerinin sayısıyla orantılı olarak ölçeklenir; biz ise hem model boyutu hem de eğitim hesaplaması miktarıyla ölçeklendirmeyi araştırıyoruz. Çeşitli çalışmalar [AS17, BHMM18], aşırı parametrelenmiş modellerde genelleme konusunu araştırmış ve model boyutu veri seti boyutuna ulaştığında bir “tıkanma geçişi” (jamming transition) [GJS+19] bulmuştur (bu, tipik uygulamaların çok ötesinde birçok büyüklük derecesinde eğitim gerektirebilir ve özellikle erken durdurma kullanmaz). Biz böyle bir geçiş gözlemlemiyoruz ve gerekli eğitim verisinin model boyutuyla alt-lineer şekilde ölçeklendiğini buluyoruz. Model boyutundaki genişlemeler, özellikle büyük genişliklerde [JGH18, LXS+19], bazı ölçeklendirme ilişkilerimizi düşünmek için yararlı bir çerçeve sağlayabilir. Öğrenme eğrilerinin şekli gibi optimizasyon konusundaki sonuçlarımız, gürültülü bir kuadratik model kullanılarak muhtemelen açıklanabilir; bu, gerçekçi koşullarda oldukça doğru tahminler sağlayabilir [ZLN+19]. Bu bağlantıyı nicel hale getirmek, Hessian spektrumunun bir karakterizasyonunu gerektirecektir [Pap18, GKX19, GARD18].
Tartışma
Dil modeli log-olasılık kaybının, gömülü olmayan parametre sayısı N, veri kümesi boyutu D ve optimize edilmiş eğitim hesaplaması Cmin ile tutarlı ölçeklendirmeler gösterdiğini, bu durumun Denklem (1.5) ve (1.6) ile özetlendiğini gözlemledik. Buna karşılık, birçok mimari ve optimizasyon hiperparametresine çok zayıf bir bağımlılık olduğunu bulduk. N, D ve Cmin ile ölçeklendirmeler güç yasalarıyla tanımlandığı için, ölçek artışıyla birlikte azalan getiriler söz konusudur.
Kaybın N ve D’ye, alternatif olarak N ve S’ye bağımlılığını, bu parametreler aynı anda değiştirildiğinde hassas bir şekilde modelleyebildik. Bu ilişkileri, büyük dil modellerini eğitirken hesaplama ölçeklendirmesini, aşırı öğrenmenin büyüklüğünü, erken durdurma adımını ve veri gereksinimlerini çıkarmak için kullandık. Dolayısıyla ölçeklendirme ilişkilerimiz yalnızca gözlemden öteye geçerek öngörülebilir bir çerçeve sağlıyor. Bu ilişkiler, bir gazın makroskopik özelliklerini mikroskobik bileşenlerinin çoğunun detaylarından bağımsız olarak evrensel bir şekilde ilişkilendiren ideal gaz yasasına benzer olarak yorumlanabilir.
Bu tür ölçeklendirme ilişkilerinin, maksimum olasılık kaybına sahip diğer üretici modelleme görevlerine ve belki de diğer ortamlara uygulanacağı tahmininde bulunmak doğaldır. Bu amaçla, bu ilişkilerin görüntü, ses ve video modelleri gibi diğer alanlarda ve belki de rastgele ağ ayrıştırmada test edilmesi ilginç olacaktır. Şu anda hangi sonuçlarımızın doğal dil verilerinin yapısına bağlı olduğunu ve hangilerinin evrensel olduğunu bilmiyoruz. Ölçeklendirme ilişkilerinin türetilebileceği teorik bir çerçeve bulmak da heyecan verici olurdu: gözlemlediğimiz ‘termodinamiğin’ altında yatan bir ‘istatistiksel mekanik’. Böyle bir teori, diğer daha kesin tahminlerin türetilmesini ve ölçeklendirme yasalarının sınırlamalarının sistematik bir şekilde anlaşılmasını sağlayabilir.
Doğal dil alanında, kayıptaki sürekli iyileşmenin ilgili dil görevlerindeki iyileşmeye dönüşüp dönüşmediğini araştırmak önemli olacaktır. Sürekli nicel değişim, büyük nitel gelişmeleri maskeleyebilir: “daha fazlası farklıdır”. Örneğin, ekonominin toplamda düzgün büyümesi, onu destekleyen belirli teknolojik gelişmeler hakkında bir ipucu vermez. Benzer şekilde, dil modeli kaybındaki düzenli iyileşmeler, görünüşte nitel değişiklikleri gizleyebilir. Sonuçlarımız, daha büyük modellerin daha iyi performans göstermeye devam edeceğini ve daha önce düşünüldüğünden çok daha örnek verimli olacağını güçlü bir şekilde göstermektedir. Büyük modeller, büyük veriden daha önemli olabilir. Bu bağlamda, model paralelliği üzerine daha fazla araştırma yapılması gerekmektedir.
Derin modeller, cihazlar arasında parametreleri derinlik bazında bölen borulama [HCC+18] yöntemiyle eğitilebilir, ancak daha fazla cihaz kullanıldığında artırılmış mini-yığın boyutları gerektirir. Öte yandan geniş ağlar, daha az seri bağımlılıkla büyük katmanların birden fazla çalışan arasında bölünebilmesi nedeniyle paralelizasyona daha uygundur [SCP+18]. Seyreklik [CGRS19, GRK17] veya dallanma (ör. [KSH12]), büyük ağların artırılmış model paralelliğiyle daha hızlı eğitilmesini sağlayabilir. Ayrıca, ağları eğitim sırasında büyüten [WRH17, WYL19] gibi yöntemler kullanılarak, bir eğitim boyunca hesaplama-verimli sınırda kalmak mümkün olabilir.
Kaynak
Kaplan, McCandlish, Henighan, Brown, Chess (23 Jan 2020), Scaling Laws for Neural Language Models: