LinkBERT: Dil Modellerini Belge Linkleriyle Pretrain Etmek

Cahit Barkin Ozer
5 min readDec 28, 2023

--

“LinkBERT: Pretraining Language Models with Document Links” makalesinin incelemesi.

For English:

Özet

Dil modeli (LM) ön eğitimi, metin derlemlerinden çeşitli bilgileri öğrenerek aşağı yönlü görevlere yardımcı olabilir. Ancak BERT gibi mevcut yöntemler tek bir belgeyi modellemektedir ve belgelere yayılan bağımlılıkları veya bilgileri yakalamamaktadır. Bu çalışmada, belgeler arasındaki bağlantılardan (örneğin url linklerinden) yararlanan bir LM ön eğitim yöntemi olan LinkBERT’i öneriyoruz. Bir metin bütünü verildiğinde, bunu belgelerin bir grafiği olarak görürüz ve bağlantılı belgeleri aynı bağlama yerleştirerek LM girdileri oluştururuz. Daha sonra LM’i kendi kendini denetleyen iki ortak hedefle önceden eğitiyoruz: maskeli dil modelleme (MLM) ve yeni önerimiz, belge ilişkisi tahmini. LinkBERT’in iki alanda çeşitli alt görevlerde BERT’den daha iyi performans gösterdiğini gösteriyoruz: genel alan (hyperlink bağlantılarıyla Wikipedia’da önceden eğitilmiş) ve biyomedikal alan (PubMed’de alıntı bağlantılarıyla önceden eğitilmiş). LinkBERT özellikle çok atlamalı akıl yürütme ve few-shots QA için etkilidir (HotpotQA ve TriviaQA’da +%5 mutlak iyileşme) ve biyomedikal LinkBERT’imiz çeşitli BioNLP görevlerinde yeni teknolojiler belirliyor (BioASQ ve USMLE’de +%7). Önceden eğitilmiş modellerimiz LinkBERT ve BioLinkBERT’in yanı sıra kod ve verileri de yayınlıyoruz

Geniş Özet

  • LinkBert, çok atlamalı bilgiyi ve belge ilişkilerini öğrenmek için kendi kendini denetleyen öğrenmeyi kullanır.
  • LinkBERT, genel ve biyomedikal alanlardaki çeşitli alt görevlerde BERT’den daha iyi performans gösterir ve özellikle çok atlamalı akıl yürütme ve az sayıda soru yanıtlama konusunda etkilidir.
  • Erişimle zenginleştirilmiş dil modelleri, model çıkarımının iyileştirilmesinde umut vaat ediyor. Bu konudakiş bazı önemli çalışmalar şunlardır: Guu ve diğerleri (2020), bir LM’i, bağlantı metnindeki maskelenmiş belirteçleri yanıtlamak için metni alan bir alıcıyla önceden eğitir. Asai ve diğerleri (2020), LM ön eğitiminde göze çarpan bilgiler sağlamak için hyperlinkler gibi belge bağlantılarını birleştirmeye odaklanıyor. Caciularu ve diğerleri (2021) ve Levine ve diğerleri (2021), LM’lerin ön eğitimi için aynı LM bağlamında birden fazla ilgili belge kullanır. Chang ve diğerleri (2020), Asai ve diğerleri (2020) ve Seonwoo ve diğerleri (2021), alıcıları açık alan soru yanıtlama konusunda eğitmek için hyperlink’leri kullanıyor. Ma ve diğerleri (2021), erişime yönelik hiper bağlantıya duyarlı ön eğitim görevlerini inceliyor. Calixto ve diğerleri (2021), çok dilli LM’leri öğrenmek için Wikipedia hyperlinklerini kullanıyor. Zhang ve diğerleri (2019), He ve diğerleri (2020), Wang ve diğerleri (2021b), Sun ve diğerleri (2020), Yasunaga ve diğerleri (2021) ve Zhang ve diğerleri (2022) LM’leri bilgi grafikleri veya sinirsel grafikle zenginleştiriyor ağlar.
  • Hyperlinkler, yalnızca sözcüksel benzerlik yoluyla açıkça anlaşılamayan arka plan bilgisi ve ilgili belgelerin sağlanması açısından avantajlıdır.
    En iyi belgeleri elde etmek ve kenarlar oluşturmak için TF-IDF kosinüs benzerliği metriğini kullanın.
  • Eğitim için kullanılan AdamW optimize edici — (β1, β2) = (0,9, 0,98).
  • LinkBERT’i üç boyutta farklı boyutta ön eğitilmiştir: -tiny, -base ve -large.
  • -tiny modeli İlk 5.000 adım öğrenme oranını warmup yapılır ve doğrusal olarak azaltılır. 5e-3 peak learning rate, 0,01 weight decay ve 512 token 2.048 sequence iş büyüklüğü ile 10.000 adımla eğitilmiştir. Eğitim, fp16 özellikli 2 GeForce RTX 2080 Ti GPU üzerinde 1 gün sürmüştür.
  • -base için, LinkBERT’i Devlin ve diğerleri (2019) tarafından yayımlanan BERTbase checkpointi ile başlatıldı ve ön eğitime devam edildi. 3e-4'lük en yüksek öğrenme oranını kullanın ve 40.000 adım için finetune yapıldı. Eğitim, fp16 özellikli dört A100 GPU üzerinde 4 gün sürdü.
  • -large için -base ile aynı prosedürü izlendi ancak 2e-4'lük en yüksek öğrenme oranı kullanıldı. Eğitim, fp16 özellikli 8 A100 GPU’da 7 gün sürdü.
  • LinkBERT, GLUE’daki tüm veri kümelerinde BERT’ten önemli ölçüde daha iyi performans gösteriyor.
  • LinkBERT, cümle düzeyinde dil anlama performansını korurken, QA görevleri için yararlı olan bilgilerin öğrenilmesinde özellikle etkilidir. LinkBERT’le, BERT’e kıyasla belge ilişkilerinin daha iyi anlaşıldığını gösterir.

Şekiller

Şekil 1: Belge bağlantıları (örneğin hiper bağlantılar) göze çarpan çok atlamalı bilgi sağlayabilir. Örneğin Wikipedia makalesi “Gelgit Havzası” (solda), havzanın “Ulusal Kiraz Çiçeği Festivali”ne ev sahipliği yaptığını anlatıyor. Hyperlinkli makale (sağda), festivalin “Japon kiraz ağaçlarını” kutladığını ortaya koyuyor. Birlikte ele alındığında bu bağlantı, tek bir belgede bulunmayan yeni bilgileri önermektedir (örneğin, “Gelgit Havzası’nda Japon kiraz ağaçları vardır”) ve bu bilgiler, “Gelgit Havzası’nda hangi ağaçları görebilirsiniz?” sorusunun yanıtlanması da dahil olmak üzere çeşitli uygulamalar için yararlı olabilir. Dil modeli ön eğitimine daha fazla bilgi katmak için belge bağlantılarından yararlanmayı amaçlıyoruz.
Şekil 2: Yaklaşımımıza genel bakış, LinkBERT. Bir ön eğitim külliyatı göz önüne alındığında, bunu hyperlinkler gibi bağlantıların bulunduğu bir belge grafiği olarak görüyoruz (§4.1). Belge bağlantısı bilgisini LM ön eğitimine dahil etmek için, tek bir belgeyi (bitişik) veya bir çift rastgele belgeyi (rastgele) yerleştirme seçeneklerinin yanı sıra, bir çift bağlantılı belgeyi aynı bağlama (bağlantılı) yerleştirerek LM girdileri oluştururuz. BERT’de. Daha sonra LM’yi kendi kendini denetleyen iki hedefle eğitiyoruz: girdideki maskelenmiş belirteçleri tahmin eden maskeli dil modelleme (MLM) ve girdideki iki metin bölümünün (bitişik, bitişik) ilişkisini sınıflandıran belge ilişkisi tahmini (DRP). rastgele veya bağlantılı) (§4.2).
Soldaki ilk tablo: MRQA soru yanıtlama veri kümelerindeki performans (F1). LinkBERT, -tiny, -base ve -large ölçeklerindeki tüm veri kümelerinde sürekli olarak BERT’ten daha iyi performans gösterir. Kazanç özellikle HotpotQA, TriviaQA, SearchQA gibi bağlamda birden fazla belgeyle akıl yürütmeyi gerektiren veri kümelerinde büyüktür.

Sağdaki ikinci tablo: GLUE karşılaştırmasındaki performans. LinkBERT karşılaştırılabilir veya orta derecede iyileştirilmiş performansa ulaşır.

Tablo 3: Bağlama dikkat dağıtıcı belgeler eklendiğinde SQuAD’deki performans (F1). BERT F1'de büyük bir düşüş yaşarken LinkBERT bunu yapmıyor, bu da onun belge ilişkilerini anlamadaki sağlamlığını gösteriyor.
Tablo 4: İnce ayar verilerinin %10'u kullanıldığında birkaç atışlı QA performansı (F1). LinkBERT, ön eğitimde BERT’ten daha fazla bilgiyi içselleştirdiğini öne sürerek büyük kazanımlar elde ediyor.
Tablo 5: Hangi bağlantılı belgelerin LM ön eğitimine dahil edileceğine ilişkin ablasyon çalışması (§4.3).
Tablo 6: LM ön eğitiminde belge ilişkisi tahmini (DRP) hedefine ilişkin ablasyon çalışması (§4.2).
Şekil 3: HotpotQA’da çok atlamalı akıl yürütmeye ilişkin örnek olay çalışması. Soruyu yanıtlamak için ilk belgede “Roden Brothers’ın Birks Grubu tarafından devralındığı” ifadesinin, ikinci belgede ise “Birks Grubu’nun genel merkezi Montreal’dedir” ifadesinin belirtilmesi gerekiyor. BERT, soru varlığının yakınındaki bir varlığı basitçe tahmin etme eğilimindeyken (ilk belgede “Toronto”), LinkBERT ikinci belgede (“Montreal”) cevabı doğru şekilde tahmin eder.
Tablo 7: BLURB kıyaslamasındaki performans. BioLinkBERT, BLURB’da yeni teknolojiler oluşturarak tüm görevlerde iyileştirme elde eder. PubMedQA ve BioASQ gibi belge düzeyindeki görevlerde kazançlar oldukça büyük.
Tablo 8: MedQA-USMLE Performansı. BioLinkBERT önceki tüm biyomedikal LM’lerden daha iyi performans göstermektedir.
Tablo 9: MMLU-profesyonel tıpta performans. BioLinkBERT, yalnızca 340M parametreye sahip olmasına rağmen, en büyük genel alan LM veya QA modelinden önemli ölçüde daha iyi performans göstermektedir.
Şekil 4: MedQA-USMLE’de çok atlamalı akıl yürütmeye ilişkin örnek olay çalışması. Soruyu yanıtlamak (solda) 2 adımlı akıl yürütmeyi (ortada) gerektirir: soruda açıklanan hasta semptomlarından (bacak şişmesi, pankreas kanseri), nedeni (derin ven trombozu) çıkarın ve ardından uygun tanı prosedürünü (kompresyon ultrasonografisi) çıkarın. ). Mevcut PubmedBERT, soruda geçen bir kelimeyi içeren bir seçeneği (D şıkkı için “kan”) basitçe tahmin etme eğilimindeyken, BioLinkBERT cevabı (B) doğru bir şekilde tahmin eder. Sezgimiz, alıntı bağlantılarının ön eğitimde ilgili belgeleri aynı bağlamda bir araya getirmesidir (sağda), bu da muhakeme için gereken çoklu atlama bilgisini kolaylıkla sağlar (ortada).

Sonuç

Belgeler arası hyperlink gibi bağlantı bilgilerini içeren yeni bir dil modeli (LM) ön eğitim yöntemi olan LinkBERT’i sunduk. Hem genel alanda (hyperlink bağlantılarıyla Wikipedia’da önceden eğitilmiştir) hem de biyomedikal alanda (alıntı bağlantılarıyla PubMed’de önceden eğitilmiştir), LinkBERT, çok çeşitli alt görevlerde önceki BERT modellerinden daha iyi performans göstermektedir. Kazanımlar, çok atlamalı akıl yürütme, çoklu belge anlayışı ve az sayıda soru yanıtlama açısından oldukça büyüktür; bu da LinkBERT’in belge bağlantıları aracılığıyla göze çarpan bilgileri etkili bir şekilde içselleştirdiğini göstermektedir. Sonuçlarımız LinkBERT’in çeşitli bilgi yoğun görevlere uygulanacak güçlü, önceden eğitilmiş bir LM olabileceğini göstermektedir.

Kaynaklar

[1] Michihiro Yasunaga Jure Leskovec∗ Percy Liang∗
Stanford University, 29 Mar 2022, LinkBERT: Pretraining Language Models with Document Links:

[https://arxiv.org/pdf/2203.15827.pdf]

--

--

Cahit Barkin Ozer
Cahit Barkin Ozer

Written by Cahit Barkin Ozer

Üretken YZ başta olmak üzere teknoloji alanındaki yenilikleri öğrenip sizlerle paylaşıyorum. Youtube Kanalım: https://www.youtube.com/@cbarkinozer

No responses yet