LinkBERT: Dil Modellerini Belge Linkleriyle Pretrain Etmek
“LinkBERT: Pretraining Language Models with Document Links” makalesinin incelemesi.
For English:
Özet
Dil modeli (LM) ön eğitimi, metin derlemlerinden çeşitli bilgileri öğrenerek aşağı yönlü görevlere yardımcı olabilir. Ancak BERT gibi mevcut yöntemler tek bir belgeyi modellemektedir ve belgelere yayılan bağımlılıkları veya bilgileri yakalamamaktadır. Bu çalışmada, belgeler arasındaki bağlantılardan (örneğin url linklerinden) yararlanan bir LM ön eğitim yöntemi olan LinkBERT’i öneriyoruz. Bir metin bütünü verildiğinde, bunu belgelerin bir grafiği olarak görürüz ve bağlantılı belgeleri aynı bağlama yerleştirerek LM girdileri oluştururuz. Daha sonra LM’i kendi kendini denetleyen iki ortak hedefle önceden eğitiyoruz: maskeli dil modelleme (MLM) ve yeni önerimiz, belge ilişkisi tahmini. LinkBERT’in iki alanda çeşitli alt görevlerde BERT’den daha iyi performans gösterdiğini gösteriyoruz: genel alan (hyperlink bağlantılarıyla Wikipedia’da önceden eğitilmiş) ve biyomedikal alan (PubMed’de alıntı bağlantılarıyla önceden eğitilmiş). LinkBERT özellikle çok atlamalı akıl yürütme ve few-shots QA için etkilidir (HotpotQA ve TriviaQA’da +%5 mutlak iyileşme) ve biyomedikal LinkBERT’imiz çeşitli BioNLP görevlerinde yeni teknolojiler belirliyor (BioASQ ve USMLE’de +%7). Önceden eğitilmiş modellerimiz LinkBERT ve BioLinkBERT’in yanı sıra kod ve verileri de yayınlıyoruz
Geniş Özet
- LinkBert, çok atlamalı bilgiyi ve belge ilişkilerini öğrenmek için kendi kendini denetleyen öğrenmeyi kullanır.
- LinkBERT, genel ve biyomedikal alanlardaki çeşitli alt görevlerde BERT’den daha iyi performans gösterir ve özellikle çok atlamalı akıl yürütme ve az sayıda soru yanıtlama konusunda etkilidir.
- Erişimle zenginleştirilmiş dil modelleri, model çıkarımının iyileştirilmesinde umut vaat ediyor. Bu konudakiş bazı önemli çalışmalar şunlardır: Guu ve diğerleri (2020), bir LM’i, bağlantı metnindeki maskelenmiş belirteçleri yanıtlamak için metni alan bir alıcıyla önceden eğitir. Asai ve diğerleri (2020), LM ön eğitiminde göze çarpan bilgiler sağlamak için hyperlinkler gibi belge bağlantılarını birleştirmeye odaklanıyor. Caciularu ve diğerleri (2021) ve Levine ve diğerleri (2021), LM’lerin ön eğitimi için aynı LM bağlamında birden fazla ilgili belge kullanır. Chang ve diğerleri (2020), Asai ve diğerleri (2020) ve Seonwoo ve diğerleri (2021), alıcıları açık alan soru yanıtlama konusunda eğitmek için hyperlink’leri kullanıyor. Ma ve diğerleri (2021), erişime yönelik hiper bağlantıya duyarlı ön eğitim görevlerini inceliyor. Calixto ve diğerleri (2021), çok dilli LM’leri öğrenmek için Wikipedia hyperlinklerini kullanıyor. Zhang ve diğerleri (2019), He ve diğerleri (2020), Wang ve diğerleri (2021b), Sun ve diğerleri (2020), Yasunaga ve diğerleri (2021) ve Zhang ve diğerleri (2022) LM’leri bilgi grafikleri veya sinirsel grafikle zenginleştiriyor ağlar.
- Hyperlinkler, yalnızca sözcüksel benzerlik yoluyla açıkça anlaşılamayan arka plan bilgisi ve ilgili belgelerin sağlanması açısından avantajlıdır.
En iyi belgeleri elde etmek ve kenarlar oluşturmak için TF-IDF kosinüs benzerliği metriğini kullanın. - Eğitim için kullanılan AdamW optimize edici — (β1, β2) = (0,9, 0,98).
- LinkBERT’i üç boyutta farklı boyutta ön eğitilmiştir: -tiny, -base ve -large.
- -tiny modeli İlk 5.000 adım öğrenme oranını warmup yapılır ve doğrusal olarak azaltılır. 5e-3 peak learning rate, 0,01 weight decay ve 512 token 2.048 sequence iş büyüklüğü ile 10.000 adımla eğitilmiştir. Eğitim, fp16 özellikli 2 GeForce RTX 2080 Ti GPU üzerinde 1 gün sürmüştür.
- -base için, LinkBERT’i Devlin ve diğerleri (2019) tarafından yayımlanan BERTbase checkpointi ile başlatıldı ve ön eğitime devam edildi. 3e-4'lük en yüksek öğrenme oranını kullanın ve 40.000 adım için finetune yapıldı. Eğitim, fp16 özellikli dört A100 GPU üzerinde 4 gün sürdü.
- -large için -base ile aynı prosedürü izlendi ancak 2e-4'lük en yüksek öğrenme oranı kullanıldı. Eğitim, fp16 özellikli 8 A100 GPU’da 7 gün sürdü.
- LinkBERT, GLUE’daki tüm veri kümelerinde BERT’ten önemli ölçüde daha iyi performans gösteriyor.
- LinkBERT, cümle düzeyinde dil anlama performansını korurken, QA görevleri için yararlı olan bilgilerin öğrenilmesinde özellikle etkilidir. LinkBERT’le, BERT’e kıyasla belge ilişkilerinin daha iyi anlaşıldığını gösterir.
Şekiller
Sağdaki ikinci tablo: GLUE karşılaştırmasındaki performans. LinkBERT karşılaştırılabilir veya orta derecede iyileştirilmiş performansa ulaşır.
Sonuç
Belgeler arası hyperlink gibi bağlantı bilgilerini içeren yeni bir dil modeli (LM) ön eğitim yöntemi olan LinkBERT’i sunduk. Hem genel alanda (hyperlink bağlantılarıyla Wikipedia’da önceden eğitilmiştir) hem de biyomedikal alanda (alıntı bağlantılarıyla PubMed’de önceden eğitilmiştir), LinkBERT, çok çeşitli alt görevlerde önceki BERT modellerinden daha iyi performans göstermektedir. Kazanımlar, çok atlamalı akıl yürütme, çoklu belge anlayışı ve az sayıda soru yanıtlama açısından oldukça büyüktür; bu da LinkBERT’in belge bağlantıları aracılığıyla göze çarpan bilgileri etkili bir şekilde içselleştirdiğini göstermektedir. Sonuçlarımız LinkBERT’in çeşitli bilgi yoğun görevlere uygulanacak güçlü, önceden eğitilmiş bir LM olabileceğini göstermektedir.
Kaynaklar
[1] Michihiro Yasunaga Jure Leskovec∗ Percy Liang∗
Stanford University, 29 Mar 2022, LinkBERT: Pretraining Language Models with Document Links: