2023'ün En Başarılı İstem Mühendisliği Yöntemleri

Cahit Barkin Ozer
10 min readNov 9, 2023

--

Auto-Cot, Program-of-Thoughts, MultiModal-CoT, Tree-of-Thought, Graph-of-Thought, Algorithm-of-Thoughts, Skeleton-of-Thoughts, Chain-of-Empathy, Chain-of-Note, System-2-Attention, Contrastive-Chain-of-Thought, Thread-of-Thought ve Knowledge-Driven Chain-of-Thought gibi en yeni istem mühendisliği yaklaşımlardan bahsedeceğiz.

Bu yazıda son teknoloji istem mühendisliği yöntemlerini özet olarak açıklayıp bir adet örnek vereceğiz. Daha detaylı bilgi için kaynaklar kısmından makalelere göz atabilirsiniz.

For English:

Otomatik Düşünce Zinciri (Auto-CoT)

Auto-CoT, büyük dil modellerinin soruları yanıtlarken adım adım akıl yürütmeye teşvik eden istemleri otomatik olarak oluşturmaya yönelik bir tekniktir. Bu yöntem, bilimsel akıl yürütme veya matematiksel problem çözme gibi karmaşık akıl yürütme gerektiren görevler için yararlı olabilir.

Auto-CoT, öncelikle soru veri kümesini benzerliklerine göre kümelere bölerek çalışır. Daha sonra her kümeden temsili bir soru için düşünce zincirleri üretir. Bu düşünce zincirleri daha sonra LLM’in soruları yanıtlarken adım adım akıl yürütmesini sağlamak için kullanılabilecek göstergeleri oluşturmak için kullanılır.

Örnek

Harita üzerinde iki şehir arasındaki en kısa yolu bulmak gibi bir problem çözme görevi düşünün. Auto-CoT, LLM’i adım adım akıl yürütmeye teşvik eden istemler oluşturmak için şu şekilde kullanılır:

  • İki şehir arasındaki mesafe ne kadar?
  • İki şehir arasındaki olası güzergahlar nelerdir?
  • En kısa rota hangisidir?

Düşünce Programı İstemleme (Program-of-Thoughts Prompting — PoT)

PoT, LLM’leri sorunlara adım adım çözümler üretmeye teşvik eden bir tekniktir. LLM’e çözümün atması gereken adımları belirten bir şablon sağlayarak çalışır. Daha sonra LLM’den her adımın ayrıntılarını doldurması istenir. PoT, programlama veya mühendislik gibi muhakeme ve yürütmenin birleşimini gerektiren görevler için yararlı olabilir.

Örnek

Sayıların listesini sıralamak (sorting) için bir program yazmak gibi bir görevi düşünün. PoT, LLM’e çözümün atması gereken adımları belirten bir şablon sağlamak için kullanılabilir, örneğin:

1. Sıralanan sayıları saklamak için boş bir liste oluştur.
2. Sıralanmamış listedeki her numara için:
a. Sıralanmış listedeki sayı için doğru konumu bulun.
b. Numarayı sıralanmış listede doğru konuma ekleyin.

Çok Modlu Düşünce Zinciri Muhakemesi (Multimodal-CoT)

Multimodal-CoT, metin, görüntü ve ses gibi birden fazla modaliteden gelen bilgiler hakkında akıl yürütmeye yönelik bir tekniktir. Farklı modalitelerden gelen bilgileri tek bir gösterimde birleştirmek için çok modlu füzyon adı verilen bir teknik kullanılarak çalışır. Bu gösterim daha sonra tüm yöntemlerden gelen bilgiyi açıklayan bir akıl yürütme zinciri oluşturmak için kullanılır. Multimodal-CoT, tıbbi teşhis veya pazarlama araştırması gibi birden fazla kaynaktan gelen veriler arasındaki karmaşık ilişkilerin anlaşılmasını gerektiren görevlerde yararlı olabilir.

Örnek

Hastalığı olan bir hastaya teşhis koymak görevini düşünün. Multimodal-CoT, tanıyı açıklayan bir düşünce zinciri oluşturmak amacıyla tıbbi geçmiş, semptomlar ve tıbbi görüntüler gibi birden fazla yöntemden elde edilen bilgileri birleştirmek için kullanılabilir.

Düşünce Ağacı (Tree-of-Thoughts — ToT)

ToT, bir LLM’in bir soruyu yanıtlarken uyguladığı akıl yürütme sürecinin bir temsilidir. Her düğümün akıl yürütme sürecindeki bir adımı temsil ettiği bir ağaç yapısından oluşur. Düğümler, adımlar arasındaki ilişkileri temsil eden kenarlarla bağlanır. ToT’ler, bir LLM’in muhakeme sürecini anlamak ve LLM modellerinde hata ayıklamak için yararlı olabilir.

Rastgele seçilen bir Yaratıcı Yazma görevinde arama adımı örneği. Girdi verildiğinde, LLM 5 farklı planı örnekler, ardından hangi planın en iyi olduğuna karar vermek için 5 kez oylama yapar. Çoğunluğun seçimi çıktı pasajını yazmak için de kullanılır.

Örnek

Bu soruyu üç farklı uzmanın yanıtladığını düşünün.
Tüm uzmanlar düşüncelerinin 1 adımını yazacak,
Daha sonra bu düşüncelerini grupla paylaşırlar.
Tüm uzmanlar bir sonraki adıma geçer.
Herhangi bir uzman herhangi bir noktada hatalı olduğunu anlarsa o kısım iptal edilir.

Performans

Düşünce karmaşıklaştıkça ToT CoT’ye göre çok daha başarılı olmaktadır.

Düşünce Diyagramı (Graph-of-Thoughts — GoT)

GoT, akıl yürütme sürecinin ToT’den daha genel bir temsilidir. Nedensel ilişkiler, sıralı ilişkiler ve hiyerarşik ilişkiler gibi fikirler arasındaki daha geniş çeşitlilikteki ilişkileri temsil ederler. GoT’ler, bilimsel akıl yürütme veya hukuki akıl yürütme gibi fikirler arasındaki karmaşık ilişkilerin anlaşılmasını gerektiren görevler için yararlı olabilir.

GraphPrompt, ortak bir görev şablonu kullanarak ve öğrenilebilir bir ipucu ekleyerek pretraining ve sonraki görevleri kolaylaştırmayı amaçlayan, grafikler üzerinde pretrain ve istemleme için yeni bir çerçevedir. Dil tabanlı istemlemenin aksine, GraphPrompt’un yaklaşımı, dil tabanlı talimatlar yerine grafik yapılarına odaklandığı için hem görev şablonu hem de istem tasarımında farklılık gösterir. Bu nedenle, GraphPrompt’un istemleri daha soyuttur ve elle hazırlanamaz, bunun yerine grafik öğrenme ilkelerine uyum sağlamak için topolojiyle ilgili bilgilere dayanır. Bu esneklik, belirli düğümler veya grafik sınıflarıyla ilgili özelliklere dikkat edilen düğüm sınıflandırması ve grafik sınıflandırması gibi çeşitli aşağı akış görevlerinin gereksinimlerine göre uyarlanmış alt grafik temsilleri oluşturmak için farklı toplama şemaları gibi göreve özgü ayarlamalara izin verir. Ayrıca, özelliklerin önemi görevin örneklerine veya sınıflarına göre değişebilir ve GraphPrompt’un yaklaşımına daha fazla uyarlanabilirlik katar.

Örnek

Aşağıdaki akıl yürütme sürecini göz önünde bulundurun:

The car is red.
The car is a sports car.
Red sports cars are expensive.
Therefore, the car is expensive.

Bu akıl yürütme süreci aşağıdaki yapıya sahip bir GoT olarak temsil edilebilir:

Car is red
-> Car is sports car
-> Red sports cars are expensive
-> Car is expensive

Düşünce Algoritması (Algorithm-of-Thoughts — AoT)

AoT, GOT’a benzer bir akıl yürütme sürecinin temsilidir ancak algoritmik akıl yürütmeyi temsil etmek için özel olarak tasarlanmıştır. AoT’ler, doğal dil, sözde kod veya akış şemaları gibi farklı temsilleri kullanan algoritmaları temsil edebilir. AoT’ler, programlama veya öğretme gibi algoritmaların anlaşılmasını ve oluşturulmasını gerektiren görevler için yararlı olabilir.

Örnek

CoT, ToT ve AoT farkı

Performans

Başarı oranları ve her örnek için ortalama LLM sorgusu sayısı.
AoT error analizi

Düşünce İskeleti (Skeleton-of-Thought — SoT)

SoT, akıl yürütme sürecinin ToT’ye benzer bir temsilidir ancak soyut akıl yürütmeyi temsil etmek için özel olarak tasarlanmıştır. SoT’ler, doğal dil, diyagramlar veya matematiksel gösterim gibi farklı gösterimleri kullanarak soyut kavramları ve ilişkileri temsil edebilir. SoT’ler, felsefe veya matematik gibi soyut kavramların anlaşılmasını ve akıl yürütmesini gerektiren görevler için yararlı olabilir.

Sol: Düşünce İskeleti’nin (SoT) bir örneği. SoT, yanıtları sırayla üretmek yerine yanıtların farklı bölümlerini paralel olarak üretir. Daha ayrıntılı olarak, soru verildiğinde, SoT ilk önce LLM’den iskeleti vermesini ister, ardından birden fazla noktayı paralel olarak genişletmek için toplu kod çözme veya paralel API çağrıları gerçekleştirir ve son olarak nihai cevabı almak için çıktıları birleştirir. Sağda: Vicuna-80'deki normal üretime karşılaştırıldığında SoT’nin (SoT-R) istemlemenin net kazanma oranları ve hızları verilmiştir. Net kazanma oranı, SoT-R’nin normal üretime göre daha iyi ve daha kötü yanıtlara sahip olduğu soruların oranı arasındaki farktır. Hızlanma, normal gecikme süresi ile SoT-R üretimi arasındaki normal nesli temsil eden orandır. Daha yüksek her iki eksende de daha iyidir. Çoğu model için SoT-R yalnızca üretimi hızlandırmakla kalmaz, aynı zamanda yanıtların kalitesini de artırır.

Örnek

Empati Zinciri (Chain of Empath — CoE)

Empati Zinciri (CoE) yöntemi genel başarı sağlayan bir yöntem olmaktan ziyade duygusal işlemler için tercih edilen bir yöntemdir. Psikoterapi modellerine dayalı olarak insanın duygularının bilişsel akıl yürütmesini içeren bu yöntemin diğer istem mühendisliği yöntemlere benzediği söylenebilir. Çıktıyı oluşturmadan önce kullanıcının duygularına ve bilişsel hatalar gibi bu duygulara yol açan belirli faktörlere odaklanarak akıl yürütme sürecini metin üretimine entegre eder.

Farklı empati zinciri versiyonlarına örnekler
Diğer empatik zinciri versiyonları ile yapılan performans karşılaştırması

DBT-CoE yöntemi duygusal tepki vermede en yüksek F1 skoruna sahip, CBT-CoE yorumlamada en yüksek F1 skoruna sahip, keşfetmede ise temel yani CoE yöntemi en yüksek F1 skoruna sahiptir.

Not Zinciri (Chain-of-Note — CoN)

Not Zinciri (CoN), gürültülü veriler, alakasız belgeler ve etki alanı dışı senaryoları çözerek RAG uygulamalarını iyileştirmeyi amaçlamaktadır.

CoN yalnızca prompt şablonu değil, aynı zamanda not almak için finetune bir modeli de içerir. Dolayısıyla CoN, RAG ve finetune’un bir kombinasyonu olarak görülebilir.

Bu çalışma için uygun eğitim verilerinin toplanması önemlidir. Her okuma notuna manuel açıklama eklemek yoğun kaynak gerektirir, bu nedenle araştırma ekibi notlar oluşturmak için son teknoloji ürünü bir dil modeli kullanır. NoC’nin kurumsal bir ortamda uygulanması durumunda, yapay zeka ile hızlandırılmış bir veri üretkenliği stüdyosunun çok önemli olacağını burada belirtmeden geçemeyeceğim. Bu döngüdeki insan süreci, net bir sinyale sahip ilgili eğitim verileri için önemlidir.

Örnek CoN

Örnek istem:

Task Description: The primary objective is to briefly answer a specific 
question.

CoN’e uygun hale getirdikten sonra istem:

Task Description:

1. Read the given question and five Wikipedia passages to gather relevant
information.
2. Write reading notes summarizing the key points from these passages.
3. Discuss the relevance of the given question and Wikipedia passages.
4. If some passages are relevant to the given question, provide a brief
answer based on the passages.
5. If no passage is relevant, direcly
provide answer without considering the passages.
Bazı CoN örnek çalışma şekilleri

CoN Performans’ı:

Sistem 2 Dikkati (System 2 Attention)

Bu makalede istemlerinizdeki yanlış bilgileriniz veya hatalı tahminlerinizi cevabı yanlış yönlendirdiğini gösterdiği bulunmuş. Sonuç olarak olabildiğince tarafsız ve gereksiz bilgiden arındırılmış bir biçimde istem yazmak daha iyi sonuçlar vermektedir.

Örnek:

Saratoga ve Sunnyvale California’dadır bilgisi hatalı bundan dolayı cevap da halisünasyonlu oluyor.

Çözüm olarak istemi alıp görüşlerden arındıran bir istem hazırlanmış:

Bu yöntemin başarılı çalıştığı örnekler:

Performans:

Sistem 2 Dikkat, görüş içeren soruların gerçekçiliğini artırır. Bir soru soran, aynı zamanda bağlamın bir parçası olarak olası yanıtları öneren veya çürüten düşünceli girdi istemleri göz önüne alındığında, standart yapay zeka asistanları dalkavuktur ve gerçeklere dayalı doğruluğu kaybeder. System 2 Attention (S2A) bu sorunun azaltılmasına yardımcı olur. LLaMA-2–70B-chat’in değiştirilmiş TriviaQA istemlerindeki performansını rapor ediyoruz. Sol: giriş istemleri (taban çizgisi), Oracle’ın (görüşsüz) istemleriyle karşılaştırıldığında düşük performans gösterirken S2A, Oracle’a yakın performans gösterir. Sağda: görüş türüne göre döküm. Girdi doğru cevabı önerirse, temel bilgi istemi kehanetten daha iyi performans gösterir, ancak doğru cevabı reddederse veya yanlış bir cevap önerirse performans, kehanete kıyasla önemli ölçüde düşer. S2A, yanlış öneri kategorisindeki performansı biraz kaybetmesi dışında Oracle kadar iyi performans gösteriyor.
Sistem 2 Dikkat, uzun biçimli üretimlerde nesnelliği artırır. Model tarafından oluşturulan argümanları, bağlamsal bir alıntı ve alıntıyı beğendiklerini, beğenmediklerini, yazdıklarını veya yazmadıklarını belirten görüşe dayalı bir bilgi verilen LLaMA-2–70B-chat ile değerlendiriyoruz. Sol: GPT-4 (5 üzerinden) tarafından değerlendirilen model tarafından oluşturulan argümanların kalitesi, temel görüşlü istemler, oracle istemleri ve Sistem 2 Dikkati (S2A) için benzerdir. Ancak S2A’nın nesnelliği (yine GPT-4 tarafından da değerlendirilir) oracle istemlerinden bile daha yüksektir. Sağda: görüş türüne göre döküm. Temel, Oracle istemlerine göre benzer ve yazılı istemler için daha az objektiftir. S2A, hiçbir görüş içermeyen (hiçbiri) bilgi istemleri de dahil olmak üzere, tüm görüş türlerinde daha objektif üretimler sağlar.
Sistem 2 Dikkati matematik kelime problemlerini çözmeyi geliştirir. Sorunlu bir metne alakasız bir cümle (sol: rastgele, sağ: konu içi çeldirici) eklendiğinde model doğruluğu önemli ölçüde düşer (Baseline vs Oracle). İlgisiz cümleleri göz ardı etmeye yönelik talimatlar eklemek (Eğitimli İstem) pek bir gelişme sağlamaz. Sistem 2 Dikkat (S2A), dikkat edilmesi gereken ilgili metni çıkarır, potansiyel olarak eklenen dikkat dağıtıcı cümleyi kaldırır ve genel doğruluğu artırır.
Görüş içeren sorular için gerçekliği karşılaştıran ablasyon sonuçları. Talimatlı ipucunu (S2A-NI) veya ayrı bağlam ve soruyu (S2A-Tek) kullanmayan S2A, S2A’dan yalnızca biraz daha kötü performans gösterir. S2A’nın son üretimleri hala orijinal içeriğe (S2A-KeepOrig) katılabiliyorsa performans düşer. Standart LLM’lere talimatlı istemleme eklemek yardımcı olur, ancak S2A kadar değil. Düşünce zinciri sıfır atış istemlemesine (CoT) yardımcı olmuyor.

Karşılaştırmalı Düşünce Zinciri (Contrastive Chain of Thought — CCoT)

Hem doğru hem de hatalı düşünce zinciri örneklerini karşılaştırmalı bir şekilde sunmanın, dil modellerinde akıl yürütme yeteneğini büyük ölçüde arttırdığı bulunmuş. Geçersiz gerekçeleri manuel olarak açıklama zorluğunun üstesinden gelmek için, mevcut gerekçelerden otomatik olarak karşılaştırmalı gösteriler oluşturabilen genel bir istemleme yöntemi olan karşılaştırmalı düşünce zinciri öneriliyor.

Karşılaştırmalı Düşünce Zinciri Yönteminin Diğer İstemleme Yöntemleriyle Karşılaştırılması

Performans:

Standart, CoT ve Contrasive CoT performans karşılaştırması

Düşünce Dizisi (Thread of Thought — Thot)

Düşünce dizi , büyük dil modellerinin kaotik bağlam sorunlarının üstesinden gelinmesini sağlar. Gösterilen çıktıda yeşil metin doğru cevabı, kırmızı metin ise hatalı tahmini belirtir.
Düşünce dizisi kullanarak sıfır atımla anlamlandırma
Düşünce dizisi istemi seçimindeki performans analizi

Performans:

Üstte PopQA ve altta EntityQ üzerinde performans karşılaştırması
MTCR veriseti üzerinde performans karşılaştırması
PopQA ve EntityQ ile “Lost in Middle” sorunu yaşanan örneklerdeki performasn karşılaştırması
ThoT’un CoT’den başarılı olduğu bir örnek

Bilgi Odaklı Düşünce Zinciri (Knowledge-Driven-Chain-of-Thought — KD-CoT)

KD-CoT’nin çalışma prensibi

Performans:

WebQSP ve CWQ üzerindeki performans sonuçlarına göre KD-CoT, CoT’den biraz daha iyi performans göstermiştir.

Kaynaklar

--

--

Cahit Barkin Ozer
Cahit Barkin Ozer

Written by Cahit Barkin Ozer

Üretken YZ başta olmak üzere teknoloji alanındaki yenilikleri öğrenip sizlerle paylaşıyorum. Youtube Kanalım: https://www.youtube.com/@cbarkinozer

No responses yet