2023'ün En Başarılı İstem Mühendisliği Yöntemleri

10 min readNov 9, 2023

Auto-Cot, Program-of-Thoughts, MultiModal-CoT, Tree-of-Thought, Graph-of-Thought, Algorithm-of-Thoughts, Skeleton-of-Thoughts, Chain-of-Empathy, Chain-of-Note, System-2-Attention, Contrastive-Chain-of-Thought, Thread-of-Thought ve Knowledge-Driven Chain-of-Thought gibi en yeni istem mühendisliği yaklaşımlardan bahsedeceğiz.

Bu yazıda son teknoloji istem mühendisliği yöntemlerini özet olarak açıklayıp bir adet örnek vereceğiz. Daha detaylı bilgi için kaynaklar kısmından makalelere göz atabilirsiniz.

For English:

Best Prompt Engineering Methods

Auto-Cot, Program-of-Thoughts, MultiModal-CoT, Tree-of-Thought, Graph-of-Thought, Algorithm-of-Thoughts…

cbarkinozer.blogspot.com

Otomatik Düşünce Zinciri (Auto-CoT)

Auto-CoT, büyük dil modellerinin soruları yanıtlarken adım adım akıl yürütmeye teşvik eden istemleri otomatik olarak oluşturmaya yönelik bir tekniktir. Bu yöntem, bilimsel akıl yürütme veya matematiksel problem çözme gibi karmaşık akıl yürütme gerektiren görevler için yararlı olabilir.

Auto-CoT, öncelikle soru veri kümesini benzerliklerine göre kümelere bölerek çalışır. Daha sonra her kümeden temsili bir soru için düşünce zincirleri üretir. Bu düşünce zincirleri daha sonra LLM’in soruları yanıtlarken adım adım akıl yürütmesini sağlamak için kullanılabilecek göstergeleri oluşturmak için kullanılır.

Örnek

Harita üzerinde iki şehir arasındaki en kısa yolu bulmak gibi bir problem çözme görevi düşünün. Auto-CoT, LLM’i adım adım akıl yürütmeye teşvik eden istemler oluşturmak için şu şekilde kullanılır:

İki şehir arasındaki mesafe ne kadar?
İki şehir arasındaki olası güzergahlar nelerdir?
En kısa rota hangisidir?

Düşünce Programı İstemleme (Program-of-Thoughts Prompting — PoT)

PoT, LLM’leri sorunlara adım adım çözümler üretmeye teşvik eden bir tekniktir. LLM’e çözümün atması gereken adımları belirten bir şablon sağlayarak çalışır. Daha sonra LLM’den her adımın ayrıntılarını doldurması istenir. PoT, programlama veya mühendislik gibi muhakeme ve yürütmenin birleşimini gerektiren görevler için yararlı olabilir.

Örnek

Sayıların listesini sıralamak (sorting) için bir program yazmak gibi bir görevi düşünün. PoT, LLM’e çözümün atması gereken adımları belirten bir şablon sağlamak için kullanılabilir, örneğin:

1. Sıralanan sayıları saklamak için boş bir liste oluştur.
2. Sıralanmamış listedeki her numara için:
a. Sıralanmış listedeki sayı için doğru konumu bulun.
b. Numarayı sıralanmış listede doğru konuma ekleyin.

Çok Modlu Düşünce Zinciri Muhakemesi (Multimodal-CoT)

Multimodal-CoT, metin, görüntü ve ses gibi birden fazla modaliteden gelen bilgiler hakkında akıl yürütmeye yönelik bir tekniktir. Farklı modalitelerden gelen bilgileri tek bir gösterimde birleştirmek için çok modlu füzyon adı verilen bir teknik kullanılarak çalışır. Bu gösterim daha sonra tüm yöntemlerden gelen bilgiyi açıklayan bir akıl yürütme zinciri oluşturmak için kullanılır. Multimodal-CoT, tıbbi teşhis veya pazarlama araştırması gibi birden fazla kaynaktan gelen veriler arasındaki karmaşık ilişkilerin anlaşılmasını gerektiren görevlerde yararlı olabilir.

Örnek

Hastalığı olan bir hastaya teşhis koymak görevini düşünün. Multimodal-CoT, tanıyı açıklayan bir düşünce zinciri oluşturmak amacıyla tıbbi geçmiş, semptomlar ve tıbbi görüntüler gibi birden fazla yöntemden elde edilen bilgileri birleştirmek için kullanılabilir.

Düşünce Ağacı (Tree-of-Thoughts — ToT)

ToT, bir LLM’in bir soruyu yanıtlarken uyguladığı akıl yürütme sürecinin bir temsilidir. Her düğümün akıl yürütme sürecindeki bir adımı temsil ettiği bir ağaç yapısından oluşur. Düğümler, adımlar arasındaki ilişkileri temsil eden kenarlarla bağlanır. ToT’ler, bir LLM’in muhakeme sürecini anlamak ve LLM modellerinde hata ayıklamak için yararlı olabilir.

Örnek

Bu soruyu üç farklı uzmanın yanıtladığını düşünün.
Tüm uzmanlar düşüncelerinin 1 adımını yazacak,
Daha sonra bu düşüncelerini grupla paylaşırlar.
Tüm uzmanlar bir sonraki adıma geçer.
Herhangi bir uzman herhangi bir noktada hatalı olduğunu anlarsa o kısım iptal edilir.

Performans

Düşünce karmaşıklaştıkça ToT CoT’ye göre çok daha başarılı olmaktadır.

Düşünce Diyagramı (Graph-of-Thoughts — GoT)

GoT, akıl yürütme sürecinin ToT’den daha genel bir temsilidir. Nedensel ilişkiler, sıralı ilişkiler ve hiyerarşik ilişkiler gibi fikirler arasındaki daha geniş çeşitlilikteki ilişkileri temsil ederler. GoT’ler, bilimsel akıl yürütme veya hukuki akıl yürütme gibi fikirler arasındaki karmaşık ilişkilerin anlaşılmasını gerektiren görevler için yararlı olabilir.

GraphPrompt, ortak bir görev şablonu kullanarak ve öğrenilebilir bir ipucu ekleyerek pretraining ve sonraki görevleri kolaylaştırmayı amaçlayan, grafikler üzerinde pretrain ve istemleme için yeni bir çerçevedir. Dil tabanlı istemlemenin aksine, GraphPrompt’un yaklaşımı, dil tabanlı talimatlar yerine grafik yapılarına odaklandığı için hem görev şablonu hem de istem tasarımında farklılık gösterir. Bu nedenle, GraphPrompt’un istemleri daha soyuttur ve elle hazırlanamaz, bunun yerine grafik öğrenme ilkelerine uyum sağlamak için topolojiyle ilgili bilgilere dayanır. Bu esneklik, belirli düğümler veya grafik sınıflarıyla ilgili özelliklere dikkat edilen düğüm sınıflandırması ve grafik sınıflandırması gibi çeşitli aşağı akış görevlerinin gereksinimlerine göre uyarlanmış alt grafik temsilleri oluşturmak için farklı toplama şemaları gibi göreve özgü ayarlamalara izin verir. Ayrıca, özelliklerin önemi görevin örneklerine veya sınıflarına göre değişebilir ve GraphPrompt’un yaklaşımına daha fazla uyarlanabilirlik katar.

Örnek

Aşağıdaki akıl yürütme sürecini göz önünde bulundurun:

The car is red.
The car is a sports car.
Red sports cars are expensive.
Therefore, the car is expensive.

Bu akıl yürütme süreci aşağıdaki yapıya sahip bir GoT olarak temsil edilebilir:

Car is red
    -> Car is sports car
         -> Red sports cars are expensive
               -> Car is expensive

Düşünce Algoritması (Algorithm-of-Thoughts — AoT)

AoT, GOT’a benzer bir akıl yürütme sürecinin temsilidir ancak algoritmik akıl yürütmeyi temsil etmek için özel olarak tasarlanmıştır. AoT’ler, doğal dil, sözde kod veya akış şemaları gibi farklı temsilleri kullanan algoritmaları temsil edebilir. AoT’ler, programlama veya öğretme gibi algoritmaların anlaşılmasını ve oluşturulmasını gerektiren görevler için yararlı olabilir.

Örnek

Performans

Başarı oranları ve her örnek için ortalama LLM sorgusu sayısı.

Düşünce İskeleti (Skeleton-of-Thought — SoT)

SoT, akıl yürütme sürecinin ToT’ye benzer bir temsilidir ancak soyut akıl yürütmeyi temsil etmek için özel olarak tasarlanmıştır. SoT’ler, doğal dil, diyagramlar veya matematiksel gösterim gibi farklı gösterimleri kullanarak soyut kavramları ve ilişkileri temsil edebilir. SoT’ler, felsefe veya matematik gibi soyut kavramların anlaşılmasını ve akıl yürütmesini gerektiren görevler için yararlı olabilir.

Sol: Düşünce İskeleti’nin (SoT) bir örneği. SoT, yanıtları sırayla üretmek yerine yanıtların farklı bölümlerini paralel olarak üretir. Daha ayrıntılı olarak, soru verildiğinde, SoT ilk önce LLM’den iskeleti vermesini ister, ardından birden fazla noktayı paralel olarak genişletmek için toplu kod çözme veya paralel API çağrıları gerçekleştirir ve son olarak nihai cevabı almak için çıktıları birleştirir. Sağda: Vicuna-80'deki normal üretime karşılaştırıldığında SoT’nin (SoT-R) istemlemenin net kazanma oranları ve hızları verilmiştir. Net kazanma oranı, SoT-R’nin normal üretime göre daha iyi ve daha kötü yanıtlara sahip olduğu soruların oranı arasındaki farktır. Hızlanma, normal gecikme süresi ile SoT-R üretimi arasındaki normal nesli temsil eden orandır. Daha yüksek her iki eksende de daha iyidir. Çoğu model için SoT-R yalnızca üretimi hızlandırmakla kalmaz, aynı zamanda yanıtların kalitesini de artırır.

Örnek

Empati Zinciri (Chain of Empath — CoE)

Empati Zinciri (CoE) yöntemi genel başarı sağlayan bir yöntem olmaktan ziyade duygusal işlemler için tercih edilen bir yöntemdir. Psikoterapi modellerine dayalı olarak insanın duygularının bilişsel akıl yürütmesini içeren bu yöntemin diğer istem mühendisliği yöntemlere benzediği söylenebilir. Çıktıyı oluşturmadan önce kullanıcının duygularına ve bilişsel hatalar gibi bu duygulara yol açan belirli faktörlere odaklanarak akıl yürütme sürecini metin üretimine entegre eder.

Farklı empati zinciri versiyonlarına örnekler

Diğer empatik zinciri versiyonları ile yapılan performans karşılaştırması

DBT-CoE yöntemi duygusal tepki vermede en yüksek F1 skoruna sahip, CBT-CoE yorumlamada en yüksek F1 skoruna sahip, keşfetmede ise temel yani CoE yöntemi en yüksek F1 skoruna sahiptir.

Not Zinciri (Chain-of-Note — CoN)

Not Zinciri (CoN), gürültülü veriler, alakasız belgeler ve etki alanı dışı senaryoları çözerek RAG uygulamalarını iyileştirmeyi amaçlamaktadır.

CoN yalnızca prompt şablonu değil, aynı zamanda not almak için finetune bir modeli de içerir. Dolayısıyla CoN, RAG ve finetune’un bir kombinasyonu olarak görülebilir.

Bu çalışma için uygun eğitim verilerinin toplanması önemlidir. Her okuma notuna manuel açıklama eklemek yoğun kaynak gerektirir, bu nedenle araştırma ekibi notlar oluşturmak için son teknoloji ürünü bir dil modeli kullanır. NoC’nin kurumsal bir ortamda uygulanması durumunda, yapay zeka ile hızlandırılmış bir veri üretkenliği stüdyosunun çok önemli olacağını burada belirtmeden geçemeyeceğim. Bu döngüdeki insan süreci, net bir sinyale sahip ilgili eğitim verileri için önemlidir.

Örnek CoN

Örnek istem:

Task Description: The primary objective is to briefly answer a specific 
question.

CoN’e uygun hale getirdikten sonra istem:

Task Description:

1. Read the given question and five Wikipedia passages to gather relevant 
   information.
2. Write reading notes summarizing the key points from these passages.
3. Discuss the relevance of the given question and Wikipedia passages.
4. If some passages are relevant to the given question, provide a brief 
   answer based on the passages. 
5. If no passage is relevant, direcly 
   provide answer without considering the passages.

CoN Performans’ı:

Sistem 2 Dikkati (System 2 Attention)

Bu makalede istemlerinizdeki yanlış bilgileriniz veya hatalı tahminlerinizi cevabı yanlış yönlendirdiğini gösterdiği bulunmuş. Sonuç olarak olabildiğince tarafsız ve gereksiz bilgiden arındırılmış bir biçimde istem yazmak daha iyi sonuçlar vermektedir.

Örnek:

Saratoga ve Sunnyvale California’dadır bilgisi hatalı bundan dolayı cevap da halisünasyonlu oluyor.

Çözüm olarak istemi alıp görüşlerden arındıran bir istem hazırlanmış:

Bu yöntemin başarılı çalıştığı örnekler:

Performans:

Sistem 2 Dikkat, görüş içeren soruların gerçekçiliğini artırır. Bir soru soran, aynı zamanda bağlamın bir parçası olarak olası yanıtları öneren veya çürüten düşünceli girdi istemleri göz önüne alındığında, standart yapay zeka asistanları dalkavuktur ve gerçeklere dayalı doğruluğu kaybeder. System 2 Attention (S2A) bu sorunun azaltılmasına yardımcı olur. LLaMA-2–70B-chat’in değiştirilmiş TriviaQA istemlerindeki performansını rapor ediyoruz. Sol: giriş istemleri (taban çizgisi), Oracle’ın (görüşsüz) istemleriyle karşılaştırıldığında düşük performans gösterirken S2A, Oracle’a yakın performans gösterir. Sağda: görüş türüne göre döküm. Girdi doğru cevabı önerirse, temel bilgi istemi kehanetten daha iyi performans gösterir, ancak doğru cevabı reddederse veya yanlış bir cevap önerirse performans, kehanete kıyasla önemli ölçüde düşer. S2A, yanlış öneri kategorisindeki performansı biraz kaybetmesi dışında Oracle kadar iyi performans gösteriyor.

Sistem 2 Dikkat, uzun biçimli üretimlerde nesnelliği artırır. Model tarafından oluşturulan argümanları, bağlamsal bir alıntı ve alıntıyı beğendiklerini, beğenmediklerini, yazdıklarını veya yazmadıklarını belirten görüşe dayalı bir bilgi verilen LLaMA-2–70B-chat ile değerlendiriyoruz. Sol: GPT-4 (5 üzerinden) tarafından değerlendirilen model tarafından oluşturulan argümanların kalitesi, temel görüşlü istemler, oracle istemleri ve Sistem 2 Dikkati (S2A) için benzerdir. Ancak S2A’nın nesnelliği (yine GPT-4 tarafından da değerlendirilir) oracle istemlerinden bile daha yüksektir. Sağda: görüş türüne göre döküm. Temel, Oracle istemlerine göre benzer ve yazılı istemler için daha az objektiftir. S2A, hiçbir görüş içermeyen (hiçbiri) bilgi istemleri de dahil olmak üzere, tüm görüş türlerinde daha objektif üretimler sağlar.

Sistem 2 Dikkati matematik kelime problemlerini çözmeyi geliştirir. Sorunlu bir metne alakasız bir cümle (sol: rastgele, sağ: konu içi çeldirici) eklendiğinde model doğruluğu önemli ölçüde düşer (Baseline vs Oracle). İlgisiz cümleleri göz ardı etmeye yönelik talimatlar eklemek (Eğitimli İstem) pek bir gelişme sağlamaz. Sistem 2 Dikkat (S2A), dikkat edilmesi gereken ilgili metni çıkarır, potansiyel olarak eklenen dikkat dağıtıcı cümleyi kaldırır ve genel doğruluğu artırır.

Görüş içeren sorular için gerçekliği karşılaştıran ablasyon sonuçları. Talimatlı ipucunu (S2A-NI) veya ayrı bağlam ve soruyu (S2A-Tek) kullanmayan S2A, S2A’dan yalnızca biraz daha kötü performans gösterir. S2A’nın son üretimleri hala orijinal içeriğe (S2A-KeepOrig) katılabiliyorsa performans düşer. Standart LLM’lere talimatlı istemleme eklemek yardımcı olur, ancak S2A kadar değil. Düşünce zinciri sıfır atış istemlemesine (CoT) yardımcı olmuyor.

Karşılaştırmalı Düşünce Zinciri (Contrastive Chain of Thought — CCoT)

Hem doğru hem de hatalı düşünce zinciri örneklerini karşılaştırmalı bir şekilde sunmanın, dil modellerinde akıl yürütme yeteneğini büyük ölçüde arttırdığı bulunmuş. Geçersiz gerekçeleri manuel olarak açıklama zorluğunun üstesinden gelmek için, mevcut gerekçelerden otomatik olarak karşılaştırmalı gösteriler oluşturabilen genel bir istemleme yöntemi olan karşılaştırmalı düşünce zinciri öneriliyor.

Karşılaştırmalı Düşünce Zinciri Yönteminin Diğer İstemleme Yöntemleriyle Karşılaştırılması

Performans:

Düşünce Dizisi (Thread of Thought — Thot)

Düşünce dizi , büyük dil modellerinin kaotik bağlam sorunlarının üstesinden gelinmesini sağlar. Gösterilen çıktıda yeşil metin doğru cevabı, kırmızı metin ise hatalı tahmini belirtir.

Düşünce dizisi kullanarak sıfır atımla anlamlandırma

Performans:

PopQA ve EntityQ ile “Lost in Middle” sorunu yaşanan örneklerdeki performasn karşılaştırması

ThoT’un CoT’den başarılı olduğu bir örnek

Bilgi Odaklı Düşünce Zinciri (Knowledge-Driven-Chain-of-Thought — KD-CoT)

Performans:

Kaynaklar

Automatic Chain of Thought Prompting in Large Language Models

Large language models (LLMs) can perform complex reasoning by generating intermediate reasoning steps. Providing these…

arxiv.org

Program of Thoughts Prompting: Disentangling Computation from Reasoning for Numerical Reasoning…

Recently, there has been significant progress in teaching language models to perform step-by-step reasoning to solve…

arxiv.org

Multimodal Chain-of-Thought Reasoning in Language Models

Large language models (LLMs) have shown impressive performance on complex reasoning by leveraging chain-of-thought…

arxiv.org

Tree of Thoughts: Deliberate Problem Solving with Large Language Models

Language models are increasingly being deployed for general problem solving across a wide range of tasks, but are still…

arxiv.org

GraphPrompt: Unifying Pre-Training and Downstream Tasks for Graph Neural Networks

Graphs can model complex relationships between objects, enabling a myriad of Web applications such as online…

arxiv.org

Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language Models

Current literature, aiming to surpass the "Chain-of-Thought" approach, often resorts to an external modus operandi…

arxiv.org

Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding

This work aims at decreasing the end-to-end generation latency of large language models (LLMs). One of the major causes…

arxiv.org

Tree of Thoughts (ToT) | Prompt Engineering Guide

A Comprehensive Overview of Prompt Engineering

www.promptingguide.ai

Automatic Prompt Engineer (APE) | Prompt Engineering Guide

A Comprehensive Overview of Prompt Engineering

www.promptingguide.ai

Multimodal CoT Prompting | Prompt Engineering Guide

A Comprehensive Overview of Prompt Engineering

www.promptingguide.ai

GraphPrompts | Prompt Engineering Guide

A Comprehensive Overview of Prompt Engineering

www.promptingguide.ai

Chain of Empathy: Enhancing Empathetic Response of Large Language Models Based on Psychotherapy…

We present a novel method, the Chain of Empathy (CoE) prompting, that utilizes insights from psychotherapy to induce…

arxiv.org

Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language Models

Retrieval-augmented language models (RALMs) represent a substantial advancement in the capabilities of large language…

arxiv.org

System 2 Attention (is something you might need too)

Soft attention in Transformer-based Large Language Models (LLMs) is susceptible to incorporating irrelevant information…

arxiv.org

Contrastive Chain-of-Thought Prompting

Despite the success of chain of thought in enhancing language model reasoning, the underlying process remains less well…

arxiv.org

Thread of Thought Unraveling Chaotic Contexts

Large Language Models (LLMs) have ushered in a transformative era in the field of natural language processing…

arxiv.org

Knowledge-Driven CoT: Exploring Faithful Reasoning in LLMs for Knowledge-intensive Question…

Equipped with Chain-of-Thought (CoT), Large language models (LLMs) have shown impressive reasoning ability in various…

arxiv.org

2023'ün En Başarılı İstem Mühendisliği Yöntemleri

Best Prompt Engineering Methods

Auto-Cot, Program-of-Thoughts, MultiModal-CoT, Tree-of-Thought, Graph-of-Thought, Algorithm-of-Thoughts…

Otomatik Düşünce Zinciri (Auto-CoT)

Düşünce Programı İstemleme (Program-of-Thoughts Prompting — PoT)

Çok Modlu Düşünce Zinciri Muhakemesi (Multimodal-CoT)

Düşünce Ağacı (Tree-of-Thoughts — ToT)

Düşünce Diyagramı (Graph-of-Thoughts — GoT)

Düşünce Algoritması (Algorithm-of-Thoughts — AoT)

Düşünce İskeleti (Skeleton-of-Thought — SoT)

Empati Zinciri (Chain of Empath — CoE)

Not Zinciri (Chain-of-Note — CoN)

Örnek CoN

Sistem 2 Dikkati (System 2 Attention)

Performans:

Karşılaştırmalı Düşünce Zinciri (Contrastive Chain of Thought — CCoT)

Performans:

Düşünce Dizisi (Thread of Thought — Thot)

Bilgi Odaklı Düşünce Zinciri (Knowledge-Driven-Chain-of-Thought — KD-CoT)

Kaynaklar

Automatic Chain of Thought Prompting in Large Language Models

Large language models (LLMs) can perform complex reasoning by generating intermediate reasoning steps. Providing these…

Program of Thoughts Prompting: Disentangling Computation from Reasoning for Numerical Reasoning…

Recently, there has been significant progress in teaching language models to perform step-by-step reasoning to solve…

Multimodal Chain-of-Thought Reasoning in Language Models

Large language models (LLMs) have shown impressive performance on complex reasoning by leveraging chain-of-thought…

Tree of Thoughts: Deliberate Problem Solving with Large Language Models

Language models are increasingly being deployed for general problem solving across a wide range of tasks, but are still…

GraphPrompt: Unifying Pre-Training and Downstream Tasks for Graph Neural Networks

Graphs can model complex relationships between objects, enabling a myriad of Web applications such as online…

Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language Models

Current literature, aiming to surpass the "Chain-of-Thought" approach, often resorts to an external modus operandi…

Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding

This work aims at decreasing the end-to-end generation latency of large language models (LLMs). One of the major causes…

Tree of Thoughts (ToT) | Prompt Engineering Guide

A Comprehensive Overview of Prompt Engineering

Automatic Prompt Engineer (APE) | Prompt Engineering Guide

A Comprehensive Overview of Prompt Engineering

Multimodal CoT Prompting | Prompt Engineering Guide

A Comprehensive Overview of Prompt Engineering

GraphPrompts | Prompt Engineering Guide

A Comprehensive Overview of Prompt Engineering

Chain of Empathy: Enhancing Empathetic Response of Large Language Models Based on Psychotherapy…

We present a novel method, the Chain of Empathy (CoE) prompting, that utilizes insights from psychotherapy to induce…

Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language Models

Retrieval-augmented language models (RALMs) represent a substantial advancement in the capabilities of large language…

System 2 Attention (is something you might need too)

Soft attention in Transformer-based Large Language Models (LLMs) is susceptible to incorporating irrelevant information…

Contrastive Chain-of-Thought Prompting

Despite the success of chain of thought in enhancing language model reasoning, the underlying process remains less well…

Thread of Thought Unraveling Chaotic Contexts

Large Language Models (LLMs) have ushered in a transformative era in the field of natural language processing…

Knowledge-Driven CoT: Exploring Faithful Reasoning in LLMs for Knowledge-intensive Question…

Equipped with Chain-of-Thought (CoT), Large language models (LLMs) have shown impressive reasoning ability in various…

Written by Cahit Barkin Ozer

No responses yet