Self-Refine: Kendi Kendine Geri Bildirimle Yinelemeli İyileştirme

Cahit Barkin Ozer
4 min readDec 20, 2023

--

“Self-Refine: Iterative Refinement with Self-Feedback” makalesinin Türkçe özeti.

For English:

Özet

İnsanların yapamadığı gibi, büyük dil modelleri de her zaman ilk denemede en iyi çıktıyı üretmezler. İnsanların yazılı metinlerini geliştirme biçiminden motive olarak, yinelemeli geri bildirim ve iyileştirme yoluyla LLM’lerden gelen ilk çıktıları iyileştirmeye yönelik bir yaklaşım olan SELF-REFINE’ı tanıtıyoruz. Ana fikir, önce LLM kullanarak bir başlangıç çıktısı oluşturmaktır; daha sonra aynı LLM, kendi çıktısı için geri bildirim sağlar ve bunu yinelemeli olarak kendisini geliştirmek için kullanır. SELF-REFINE herhangi bir denetimli eğitim verisi, ek eğitim veya takviye öğrenimi gerektirmez ve bunun yerine oluşturucu, arıtıcı ve geri bildirim sağlayıcı olarak tek bir LLM kullanır. Ayrıca SELF-REFINE’ı, son teknoloji ürünü (GPT-3.5 ve GPT-4) LLM’leri kullanarak, diyalog yanıtı oluşturmadan matematiksel akıl yürütmeye kadar 7 farklı görevde değerlendiriyoruz. Değerlendirilen tüm görevlerde, SELF-REFINE ile oluşturulan çıktılar, insanlar ve otomatik ölçümler tarafından, geleneksel tek adımlı üretim kullanılarak aynı LLM ile oluşturulan çıktılara göre tercih edilir ve görev performansında mutlak ortalama ∼%20 oranında iyileşme sağlanır. Çalışmalarımız, GPT-4 gibi en son teknolojiye sahip LLM’lerin bile basit, bağımsız yaklaşımımız kullanılarak test zamanında daha da geliştirilebileceğini göstermektedir.

Şekiller

Şekil 1: Bir girdi verildiğinde 0) SELF-REFINE, bir çıktı oluşturup bunu geri bildirim 1) almak için aynı M modeline geri göndererek başlar. Geri bildirim, daha önce oluşturulan çıktıyı 2) iyileştiren M’e geri iletilir. 1) ve 2) adımları, bir durma koşulu karşılanana kadar yinelenir. SELF-REFINE, GPT-3.5 gibi bir dil modeliyle başlatılır ve insan yardımını gerektirmez.
Şekil 2: SELF-REFINE örnekleri: temel LLM tarafından oluşturulan ve daha sonra çıktıyı iyileştirmek için aynı LLM’e geri bildirim almak üzere aynı LLM’e geri gönderilen bir başlangıç çıktısı. Üst satırda, ilk diyalog yanıtının geri bildirim uygulayarak kullanıcıyı da anlayan daha ilgi çekici bir yanıta dönüştürülebildiği diyalog oluşturma işlemi gösterilmektedir. Alt satırda, geri bildirim uygulanarak kodun daha verimli hale getirildiği kod optimizasyonu için bu durum gösterilmektedir.
Şekil 3: SELF-REFINE algoritması.
Tablo 1: GPT-3.5, ChatGPT ve GPT-4'ü temel LLM olarak kullanan çeşitli görevlerde SELF-REFINE sonuçları. SELF-REFINE LLM’i sürekli olarak geliştirir.
Tablo 2: Genel geri bildirim oluşturmayı istemek (veya modelin hiç geri bildirim oluşturmamasını sağlamak), puanların azalmasına neden olur, bu da SELF-REFINE’nın geribildirim adımının önemini gösterir. Bu deneyler ChatGPT (Kod Optimizasyonu ve Duygu Tersine Çevirme (sentiment reversal) ) ve GPT-3.5 (Kısaltma Oluşturma(acronym generation) ) ile gerçekleştirilmiştir.
Şekil 4: Sol: Yineleme açısından puan iyileştirmeleri. Erken yinelemeler çıktı kalitesini önemli ölçüde artırır ve puanlar genellikle daha fazla yinelemeyle iyileşmeye devam eder. Sağ: SELF-REFINE tekrarlamalarla performans iyileştirmeleri. Kazançların çoğu (∆), hem Kod İşlemleri hem de Duyguların Tersine Çevrilmesi için ilk yinelemelerdedir. Sayıların ortalaması ChatGPT, GPT-3.5 ve GPT-4 üzerinden alınmıştır.
Şekil 5: Madaan ve diğerleri tarafından oluşturulan kodun karşılaştırılması. (2023) (solda) ve SELF-REFINE uygulandıktan sonraki çıktı (sağda). Daha yavaş olan girdi programla hemen hemen aynı olan temel çizgideki ilk kod, verimliliği artırmada başarısız olur ve yalnızca girdiyi okuma mantığını değiştirir. SELF-REFINE ilk önce bu kodun yavaş olduğunu teşhis eden geri bildirim üretir çünkü tutarı ödemek için tüm olası madeni para kombinasyonlarını yinelemek için altı iç içe döngü kullanıyor ve daha verimli bir yaklaşımın … olacağını öne sürüyor. SELF-REFINE daha sonra bu geri bildirimi gözden geçirilmiş kodu (sağda) oluşturmak için kullanır ve zaman karmaşıklığını O’ya (miktar ∗ madeni para) azaltır.
Tablo 3: SELF-REFINE’ın yakından ilişkili önceki iyileştirme yaklaşımlarıyla karşılaştırılması.

Geniş Özet

  • Yinelemeli geri bildirim ve iyileştirme yoluyla büyük dil modellerinin (LLM’ler) çıktısını iyileştirmek için SELF-REFINE adı verilen bir yöntemi açıklanmaktadır. Yaklaşım, çıktı hakkında geri bildirim sağlamak ve onu yinelemeli olarak iyileştirmek için aynı LLM’yi kullanarak bir LLM kullanarak bir başlangıç çıktısı oluşturmayı içerir.
    Bu süreç ek eğitim veya denetim gerektirmez ve çeşitli görevlere uygulanabilir.
  • Yazarlar, SELF-REFINE’ı 7 farklı görev üzerinde değerlendiriyor ve geleneksel tek adımlı üretime kıyasla görev performansını ortalama %20 artırdığını gösteriyor. Sonuçlar, en son teknolojiye sahip LLM’lerin bile bu basit yaklaşım kullanılarak daha da geliştirilebileceğini göstermektedir.
  • Metin, verilen kavramları içeren cümleler oluştururken SELF-REFINE yaklaşımını kullanmanın faydalarını tartışıyor. SELF-REFINE, Diyalog Yanıtı Oluşturma, Duyguları Tersine Çevirme ve Kısaltma Oluşturma gibi tercihe dayalı görevlerde yüksek kazanımlara yol açmaktadır.
  • Geri bildirimin kalitesi, genel geri bildirimle karşılaştırıldığında üstün sonuçlar veren spesifik, eyleme geçirilebilir geri bildirim ile KENDİNİ RAFİNE’de çok önemli bir rol oynar. Çoklu geri bildirim ve iyileştirme yinelemeleri çıktının kalitesini artırır, iyileştirme daha fazla yinelemeyle azalır. SELF-REFINE, iyileştirme gerektirmeden birden fazla başlangıç çıktısı oluşturma konusunda daha iyi performans gösterir. SELF-REFINE metodu kullanılırken daha zayıf modeller, iyileştirme süreciyle mücadele edebilir ve talimatlara uymada başarısız olabilir. Kalitatif analiz, SELF-REFINE’ın iyileştirilmiş çıktılar üretmedeki etkinliğini gösterir.
  • Araştırmacılar, Kod Optimizasyonu ve Matematiksel Muhakeme görevlerine odaklanarak toplam 70 örneği analiz etmişler.
    Sağlanan geri bildirimlerin çoğunlukla eyleme dönüştürülebilir olduğunu ve orijinal neslin sorunlu yönlerinin belirlenmesine yardımcı olduğunu buldular.
  • SELF-REFINE çıktıyı iyileştirmede başarısız olduğunda, bu genellikle hatalı iyileştirmelerden ziyade hatalı geri bildirimlerden kaynaklanıyordu. Doğru ve yararlı geri bildirim, başarılı vakalarda hayati bir rol oynadı ve rafine etme işleminde kesin düzeltmeler yapmaya yönlendirdi. Rafine edici, geri bildirimin kısmen yanlış olduğu durumlarda bile sorunları düzeltme becerisine sahip oldu ve optimumun altındaki geri bildirimlere karşı dayanıklılık gösterdi. Çalışma, web sitesi oluşturma gibi gerçek dünyadaki görevlerde SELF-REFINE’ın potansiyelini ortaya koydu.
  • SELF-REFINE, duyarlılığın tersine çevrilmesi, diyalog yanıtı oluşturma, kod optimizasyonu, matematik akıl yürütme, kısaltma oluşturma ve kısıtlı oluşturma gibi çeşitli görevlerde gösterilmektedir.
  • Sonuçlar, SELF-REFINE’ın bu görevlerdeki performansı artırmada etkili olduğunu ve farklı veri kümeleri için istatistiksel olarak anlamlı kazanımların gözlemlendiğini gösteriyor. Deneyler, insan performansını değerlendirmek ve bunu SELF-REFINE çıktısıyla karşılaştırmak için insan yorumcuları içerir.

Sonuç

Büyük dil modellerinin yinelemeli olarak kendi kendine geri bildirim sağlamasına ve kendi çıktılarını iyileştirmesine olanak tanıyan yeni bir yaklaşım olan SELF-REFINE’ı sunuyoruz. SELF-REFINE, tek bir LLM içerisinde çalışır ve ek eğitim verileri ya da pekiştirmeli öğrenme gerektirmez. SELF-REFINE’ın basitliğini ve kullanım kolaylığını çok çeşitli görevlerde gösteriyoruz. Araştırmamız, SELF-REFINE’ın çeşitli görevlerdeki potansiyelini ortaya koyarak, gerçek dünya ortamlarında insanın yaratıcı süreçlerinin maliyetini azaltmak amacıyla, büyük dil modellerinin devam eden araştırılmasına ve geliştirilmesine katkıda bulunuyor. Yinelemeli yaklaşımımızın bu alanda daha fazla araştırma yapılmasına yardımcı olacağını umuyoruz. Bu amaçla tüm kodlarımızı, verilerimizi ve istemlerimizi “https://selfrefine.info/” adresinde anonim olarak kullanıma sunuyoruz.

Kaynaklar

[1] Aman Madaan, Niket Tandon, Prakhar Gupta, Skyler Hallinan, Luyu Gao, Sarah Wiegreffe, Uri Alon, Nouha Dziri, Shrimai Prabhumoye, Yiming Yang, Shashank Gupta, Bodhisattwa Prasad Majumder, Katherine Hermann, Sean Welleck, Amir Yazdanbakhsh, Peter Clark, (25 May 2023), Self-Refine: Iterative Refinement with Self-Feedback. https://doi.org/10.48550/arXiv.2303.17651

[https://arxiv.org/abs/2303.17651]

--

--

Cahit Barkin Ozer
Cahit Barkin Ozer

Written by Cahit Barkin Ozer

Üretken YZ başta olmak üzere teknoloji alanındaki yenilikleri öğrenip sizlerle paylaşıyorum. Youtube Kanalım: https://www.youtube.com/@cbarkinozer

No responses yet