Optimize Edici Olarak LLM’ler (OPRO) Makalesine Bakış
Google DeepMind’ın istem konusunda 4 popüler LLM’de bulduğu skor kıran istemleri ve bunları hangi yöntemle bulduğunu özet bir şekilde inceleyeceğiz.
Bu makalede Google DeepMind LLM’ler ile optimizasyon çalışması yapmış ve ortalama bir başarı sağlamış. Bu optimizasyonu prompt engineering’de single shot istemler tasarlamak için kullanmışlar ve 4 popüler LLM için var olan rekorları kıran 4 tane prompt oluşturuyorlar.
Özet
Optimizasyon oldukça yaygın bir problemdir. Türev tabanlı algoritmalar çeşitli problemler için güçlü araçlar olsa da, gradyanın yokluğu birçok gerçek dünya uygulamasında zorluk yaratmaktadır.
Bu çalışmada, optimizasyon görevinin doğal dilde tanımlandığı, optimize ediciler olarak büyük dil modellerinden (LLM’ler) yararlanmak için basit ve etkili bir yaklaşım olan PROmpting (OPRO) ile Optimizasyon’u öneriyoruz. Her optimizasyon adımında LLM, daha önce oluşturulmuş çözümleri değerleriyle birlikte içeren istemden yeni çözümler üretir, ardından yeni çözümler değerlendirilir ve bir sonraki optimizasyon adımı için isteme eklenir.
İlk önce OPRO’yu lineer regresyon ve traveling salesman problemleriyle tanıtıyoruz, ardından hedefin görev doğruluğunu en üst düzeye çıkaran talimatları bulmak olduğu istem optimizasyonuna geçiyoruz. Çeşitli LLM’lerle, OPRO tarafından optimize edilen en iyi istemlerin, insan tasarımı istemlerden GSM8K’da %8'e kadar ve Big-Bench Hard görevlerinde %50'ye kadar daha iyi performans gösterdiğini gösteriyoruz.
Yazarlar, türev tabanlı algoritmalarda gradyan yokluğunun yarattığı zorlukların altını da çizmektedir. OPRO framework, önceden oluşturulmuş çözümleri değerleriyle birlikte içeren istemlerden yeni çözümler üretmek için LLM’lerin kullanılmasını içerir ve basit ve etkili olarak tanıtılır. Bu yeni çözümler daha sonra değerlendirilir ve bir sonraki optimizasyon adımına yönelik bir isteme eklenir.
Tanımlar
- Optimizasyon: En iyi çözümü bulmak veya bir şeyi mümkün olduğu kadar iyi hale getirmek.
- Dil modelleri: İnsan dilini anlayan ve üreten programlar.
- Gradyan: Bir tepeden yukarı veya aşağı gitmek gibi şeylerin nasıl değiştiğini ölçmenin bir yolu.
- Türev tabanlı algoritmalar: En iyi çözümü bulmak için gradyanları kullanan yöntemler.
- Çerçeve: Bir şeyi belirli bir şekilde yapmaya yönelik bir dizi kural veya fikir.
- Doğrusal regresyon: Bir çizgi üzerindeki veri noktalarındaki kalıpları bulmaya yönelik bir matematik yöntemi.
- Gezgin satıcı problemi: Birçok yer arasındaki en kısa rotayı bulmaya çalıştığınız bir bulmaca.
- İstem: Birinin bir problem üzerinde düşünmesini veya üzerinde çalışmasını sağlamak için verilen bir soru veya talimat.
- Doğruluk: Bir şeyin doğru ya da gerçek olmaya ne kadar yakın olduğu.
- İnsan tasarımı yönlendirmeler: Bilgisayarlar yerine insanlar tarafından hazırlanan sorular veya talimatlar.
- Meta-istem: optimizasyon süreci boyunca elde edilen çözüm-puan çiftlerinin yanı sıra görevin doğal dil tanımını ve (istem optimizasyonundaki) görevlerden birkaç örneği içerir.
Giriş
Çoğu optimizasyon tekniği yinelemelidir: optimizasyon bir başlangıç çözümünden başlar, ardından amaç fonksiyonunu optimize etmek için çözümü yinelemeli olarak günceller. Optimizasyon algoritmasının, karar alanı ve performans ortamının ortaya çıkardığı belirli zorlukların üstesinden gelmek amacıyla genellikle bireysel bir görev için özelleştirilmesi gerekir.
Bu çalışmada, LLM’lerin optimize edici olarak kullanmaya yönelik basit ve etkili bir yaklaşım olan PROmpting (OPRO) ile Optimizasyon’u öneriyoruz. Yönlendirme tekniklerinin gelişmesiyle birlikte LLM’ler çeşitli alanlarda etkileyici performanslar elde etmiştir.
Doğal dili anlama yetenekleri, optimizasyon için yeni bir olasılık ortaya koyuyor: Optimizasyon problemini resmi olarak tanımlamak ve programlanmış bir çözücü ile güncelleme adımını türetmek yerine, optimizasyon problemini doğal dilde tanımlıyoruz ve ardından LLM’e optimizasyon problemini, sorunun tanımı ve daha önce bulunan çözümleri temel alarak yinelemeli olarak yeni çözümler üretmesi talimatını veriyoruz. LLM’lerle optimizasyon yapma işlemi, istemdeki problem tanımını değiştirerek farklı görevlere hızlı adaptasyon sağlar ve optimizasyon süreci, çözümlerin istenen özelliklerini belirtmek için talimatlar eklenerek özelleştirilebilir.
LLM’lerin istemleri optimize etme yeteneğini tanıtıyoruz: Optimizasyonumuzun hedefi, görev doğruluğunu en üst düzeye çıkaran bir istem bulmaktır. Özellikle, görev girdisi ve çıktısının metin biçiminde olduğu doğal dil işleme görevlerine odaklanıyoruz.
LLM’lerin istem formatına duyarlı olduğu önceki çalışmalarda gösterilmiştir; özellikle anlamsal olarak benzer istemler büyük ölçüde farklı performanslara sahip olabilir ve en uygun istem formatları modele özgü ve göreve özgü olabilir.
Bununla birlikte LLM’ye yalnızca API erişimi mevcut olduğunda, optimizasyon zorlaşır. Sürekli ve ayrık istem optimizasyonu üzerine önceki çalışmayı takiben, optimizasyonun hedef değeri olarak eğitim doğruluğunu hesaplamak için bir eğitim setinin mevcut olduğunu varsayıyoruz ve deneylerde, küçük bir eğitim seti üzerinde istemin doğruluk için optimize edilmesinin, test setindeki performansda yüksek seviyeye ulaşmak için yeterli olduğunu gösteriyoruz.
LLM’e yönelik istem, optimize ediciye bir çağrı görevi görür ve biz buna meta istem adını veririz. Meta-istem iki temel bilgi parçasını içerir. İlk parça, karşılık gelen eğitim doğruluklarıyla birlikte önceden oluşturulmuş istemlerdir. İkinci parça, ilgilenilen görevi örneklendirmek için eğitim setinden rastgele seçilen birkaç örneği içeren optimizasyon probleminin tanımıdır.
Ayrıca LLM’nin farklı parçalar arasındaki ilişkileri ve istenen çıktı formatını anlaması için talimatlar sağlıyoruz. Otomatik istem üretimi için LLM’lerin kullanılmasına ilişkin son çalışmalardan farklı olarak, çalışmamızdaki her optimizasyon adımı, bir giriş istemini doğal dil geri bildirimine göre düzenlemek yerine, daha önce oluşturulan istemlerin yörüngesine dayalı olarak test doğruluğunu artırmayı amaçlayan aynı anlamsal anlamı takip eden yeni istemler üretir. Tam optimizasyon yörüngesinden yararlanan OPRO, LLM’in, ilk istemlerin düşük görev doğruluğuna sahip olduğu optimizasyon süreci boyunca görev doğruluğunu artıran yeni istemleri kademeli olarak oluşturmasına olanak tanır.
Anahtar noktalar
- Optimize edici olarak büyük dil modellerinden (LLM’ler) yararlanmak için yeni bir yaklaşım olarak PROmpting (OPRO) ile Optimizasyon Önerilir.
- Türev tabanlı algoritmalarda gradyan yokluğunun yarattığı zorluklar vurgulanır.
- Basit ve etkili bir çözüm olarak OPRO’nun tanıtılır. OPRO, büyük dil modellerini sorunları çözmede daha iyi hale getirmenin yeni bir yoludur. İhtiyacımız olan tüm bilgilere sahip olmadığımız için bazı sorunları çözmek zordur. OPRO, eski çözümleri temel alan yeni çözümler bulmak için dil modellerini kullanarak bu soruna yardımcı olur. Çözümleri daha da iyi hale getirmek için eklemeye ve geliştirmeye devam edebiliriz. OPRO’nun matematik ve planlama problemlerinde de iyi çalıştığı gösterilmiştir.
- OPRO çerçevesi, önceden oluşturulmuş çözümleri değerleriyle birlikte içeren istemlerden yeni çözümler üretmek için LLM’lerin kullanılır.
- Bir sonraki optimizasyon adımına yönelik istemlere yeni çözümlerin değerlendirilir ve eklenir.
- Doğrusal regresyon ve gezici satıcı problemlerinde etkinliği gösterilir.
- Görev doğruluğunu en üst düzeye çıkarmak için istem optimizasyonu araştırılır.
- OPRO tarafından optimize edilen istemler ile insan tasarımı istemler arasındaki karşılaştırma yapılır, OPRO’nun üstün performansı gösterilir (GSM8K’da %8'e ve Big-Bench Hard görevlerinde %50'ye kadar).
- Farklı alanlardaki optimizasyon görevlerini iyileştirmede OPRO’nun potansiyelinden bahsedilir.
Önemli Şekiller
Deneyler
Yazarlar OPRO’nun doğrusal regresyon ve gezici satıcı problemleri üzerindeki etkinliğini göstermektedir. Ayrıca, hedefin görev doğruluğunu en üst düzeye çıkaracak talimatları bulmak olduğu istem optimizasyonu keşfediyorlar. OPRO tarafından optimize edilen istemleri insan tasarımı istemlerle karşılaştırıyorlar ve OPRO’nun, sırasıyla GLUE veya SQuAD 2.0 gibi farklı veri kümeleri üzerinde eğitilen modeller olan BERT veya GPT2 gibi çeşitli LLM’leri kullanırken GSM8K görevlerinde %8'e kadar ve Big-Bench Hard görevlerinde %50'ye kadar insan tasarımı istemlerden daha iyi performans gösterdiğini gösteriyorlar.
Sonuç
Sonuç olarak bu makale, LLM’leri optimize edici olarak kullanarak farklı alanlardaki optimizasyon görevlerini iyileştirme konusunda değerli bilgiler sağlıyor ve OPRO’nun potansiyelini sergiliyor. Sorunun karmaşıklığına bağlı olarak hesaplama açısından pahalı veya zaman alıcı olabilen yalnızca türevlere veya gradyanlara dayanmadan, karmaşık sorunları optimize etmede LLM’leri etkili bir şekilde kullanılabileceğini gösterir.
Kaynaklar
[1]Chengrun Yang, Xuezhi Wang, Yifeng Lu, Hanxiao Liu, Quoc V. Le, Denny Zhou, Xinyun Chen, (7 Sep 2023), Large Language Models as Optimizers: