Llama2'ye Genel Bakış

6 min readJul 31, 2023

Meta geliştirmesine 20M$ harcadığı Llama2 isimli büyük dil modelini ticari olarak kullanılabilir lisansı ile açık kaynaklı yaptı, ortalık karıştı.

[https://www.wired.com/story/metas-open-source-llama-upsets-the-ai-horse-race/]

Genel Bakış

Llama2'ye bir genel bakış atıp onunla alakalı haberleri inceleyeceğiz, bunun için AI Breakdown Youtube kanalının incelemesindeki içerik sırasını takip edeceğim.[1]

Llama2 Llama1'e göre %40 daha fazla kaynakla beslenmiştir, 2 katı daha fazla bağlam uzunluğuna sahiptir ve eğitilmesinin 20 milyon dolar tuttuğu tahmin edilmektedir. [3]

Loss’un bitmek bilmez düşüşü

Llama2'nin 7 milyar, 13 milyar ve 70 milyar parametrelik modelleri vardır. Meta’nın yayınladığı makaleye göre kayıp (loss) 70 milyar parametreden sonra da düşmeye devam etmektedir bu da modelin daha da fazla eğitilebileceğini gösteriyor. Eğitim maliyetinin artmasından dolayı devam etmemiş olma ihtimalleri yüksek.[3]

Llama2 yardımseverlik ve güvenlilik odaklı verilerle eğitilmiştir, 100 binden fazla gözetimli ince ayar ve 1 milyon’a yakın insan geribildirimi verisi kullanılmıştır.[3]

Llama 2-Chat’in yapımında Ghost Dikkat (GAtt) ismindeki yeni bir teknik de dahil olmak üzere insan geri bildirimiyle ince ayar ve pekiştirmeli öğrenme kullanılarak yapılmıştır. [3]

Llama 2, muhakeme, kodlama, yeterlilik ve bilgi testleri dahil olmak üzere birçok harici kıyaslamada diğer açık kaynak dil modellerinden daha iyi performans göstermiştir.[3]

Açık kaynaklı dil modelleri ile genel olarak gösterilen performans [3]

Açık kaynaklı temel modellerle karşılaştırıldığında gruplandırılmış akademik kıyaslamalarda genel performans. [3]

Kapalı kaynak modellerle yapılan akademik kıyaslamalarda Llama2'nin GPT-3.5'a kod işlemleri dışında yakın cevap verdiği gözlemlenmiştir. GPT4'den ise doğal dilli sorular (neredeyse eşit) haricinde açık ara daha zayıftır.

GPT-3.5 ve GPT-4 sonuçları OpenAI’den (2023), PaLM modeli için sonuçlar Chowdhery ve ark. (2022), PaLM-2-L için sonuçlar Anil ve ark. (2023) alınmıştır. [3]

İnsan değerlendirmesine göre de çoğu açık kaynaklı modelden ve ChatGPT 3'den daha başarılı olmuştur.

Açık ve kapalı kaynak modellerle karşılaştırıldığında Llama 2-Chat modelleri için insan değerlendirme sonuçları
~4.000 yardım promptu ile prompt başına 3değerlendiriciyle. [3]

Peki performans?

Replicate.com sitesinde yazdığına göre 70 milyar parametreli Llama2 ile yapılan tahminler, Nvidia A100 (80GB) GPU donanımında yaklaşık 18 saniye içerisinde cevaplandırılır. [https://replicate.com/replicate/llama-2-70b-chat]

Llama2'nin İngilizce dışındaki dillerdeki başarısı

Eğitim verilerinin çoğu İngilizce’dir. Bu, Llama 2'nin İngilizce kullanılan durumlarda en iyi performansı göstereceği anlamına gelir. Bilinmeyen kategori genellikle kısmi programlama kodu verilerinden oluşur.[3]

Yüzde >= %0,005 olan ön eğitim verilerindeki dil dağılımı. [3]

Güvenlik açısından LLM’ler

Yapay zeka modellerini kullanan herkes iyi niyetli değildir ve konuşmaya dayalı yapay zeka araçları, yanlış bilgi üretmek vb. siber suç gibi konular hakkında bilgi almak gibi kötücül amaçlar için potansiyel olarak kullanılabilir. Ancak, bu konulardan kaçınmak ve bu kullanım durumları için sunabilecekleri yetenekleri azaltmak amacıyla modellere ince ayar yapmak için çaba sarf ettik. [3]

Tüm bu güvenlik önlemlerinin sebebi güvenlik açısından endişe verecek söylentiler olabilir. İddialara göre WormGPT isimli etik sınırları olmayan, özellikle kötü amaçlı yazılımla ilgili verilere odaklanarak, çeşitli veri kaynakları üzerinde eğitilmiş bir GPT türnün dark web’de satışı gerçekleşmiştir. [6]

LLM’lerin siyasi görüşü olur mu?

Araştırmalara göre evet. Makalede beklenmedik bir analiz yapılıyor ve verilen cevapların siyasi yanlılıkları ölçülüyor. Meta’nın internetteki metinlerin rastgele bir biçimde (telif hakkı olan metinlerin dahi kasıtsız olarak alındığı iddiaları da bulunmakta) toplandığını iddiasını doğru kabul edersek, bu sonuç internetteki metinlerin de siyasi yanlılığını gösteriyor. [3]

Birkaç model dışında neredeyse tüm modellerin sağ yanlı olduğunu görüyoruz. Spesifik olarak da genellikle liberal ve tutucu olarak sınıflandırılmış cevaplar vermekteymiş.

BOLD istemlerinden siyasi ideoloji alanı altındaki gruplar arasında ortalama duygu puanlarının dağılımı.[3]

Meta CPU sevdasından vazgeçti ve GPU’lar satın alıyor

Meta, Microsoft/OpenAI ve Google’dan sonra yapay zeka yetenekleri açısından açık ara ilk 3'tedir. Meta aldığı karardan döndü ve GPU’larla çalışmayı reddedip CPU’larla ilerlediği dönemi resmen bitirdi.[4]

Modelleri daha CPU tabanlı olmaktan GPU tabanlı olmaya kaydırdık. Sermaye Harcamalarındaki mevcut artış, aslında geçen yıl başladığımız ve bu yıl da devam ettirdiğimiz yapay zeka altyapısının inşa edilmesinden kaynaklanmaktadır. — Meta Kazanç Görüşmesi Şubat 2023

Veriler ve söylentiler Meta’nın bu yıl Microsoft dahil diğer tüm şirketlerden daha fazla Nvidia H100 GPU satın alacağını gösteriyor. [4]

Meta Llama2'yi neden açık kaynaklı yaptı?

Llama2'yi bu denli popüler yapan şey onun araştırmalar ve ticari kullanım için uygun bir lisansla halka paylaşılması. Burada Mark Zuckerberg’in Lex Fridman’a verdiği röportajdan (https://www.youtube.com/watch?v=Ff4fRgnuFgQ&t=1200s) anladığımız üzere tüm Dünyadaki YZ araştırmacılarının Llama2 üzerinde çalışmasını ve geliştirme yapmasını istedikleri için böyle yaptıklarını söylüyor. Openai’ın ivmeli büyüyüşüne ket vurmak istemiş olmaları da olasılıklar dahilindedir.

Microsoft ile de anlaşma yaptıklarını ve onların da Llama2'yi platformlarında barındıracakları ve destekleyecekleri söyleniyor. Qualcomm ise yaptığı açıklamada çiplerinde YZ işlemlerinde Llama2'yi kullanacağını açıkladı (https://shiftdelete.net/qualcomm-akilli-telefon-meta-llama-2-yapay-zeka).

Llama2 ile zengin olmak

Eski Meta ve Google yapay zeka araştırmacılarından oluşan üçlü tarafından kurulan Mistral AI isimli bir Fransız girişimi, Avrupa’nın şimdiye kadarki en büyük tohum finansmanında 105 milyon avro toplayarak değerini yalnızca 1 ay içerisinde 240 milyon avroya çıkardı [5]

Meta Llama2 ile zengin olabilirsiniz ama FANG şirketlerinden biri değilseniz

Llama2'yi kullanmak için imzaladığınız anlaşmadaki ek ticari anlaşmalar kısmına göre Llama2 sürümünün piyasaya sürüldüğü tarihte, lisanslar veya lisans sahibinin bağlı kuruluşları tarafından veya bunlar için sağlanan ürün veya hizmetin aylık aktif kullanıcıları, bir önceki takvim ayında aylık 700 milyon aktif kullanıcıdan fazlaysa, Meta’dan bir lisans talep etmelidirler. Tamamen kendi takdirine bağlı olarak ve veya Meta aksini açıkça belirtmedikçe bu sözleşme kapsamındaki hakların hiçbirini kullanmaya yetkili değildirler. Anlayacağınız üzere FANG şirketlerindenseniz kullanmak için ekstra para vermeniz lazım. [7]

Llama2'den alacağınız sonuçlar ile herhangi bir LLM’i de besleyemezsiniz. Tabii insanlar çoktan Llama2'yi kullanarak Llava gibi modeller üretmeye başladı bile.[7]

Yine de durumunuza göre GPT-3.5 kullanmak Llama2 kullanmaya göre daha ucuz olabilir

Fiyat ve gecikme dikkate alındığında tamamlama temelli ağır iş yükleri için Llama-2 çalıştırmak GPT-3.5'a göre daha maaliyetli. [8]

Bunun yerine Llama2, sınıflandırma gibi prompt’un baskın olduğu görevler için daha uygundur. Llama-2 kullanmak şu durumlarda daha anlamlı olabilir [8]:

İş yükünüzde prompt tokeni yoksa.[8]
Toplu işleme (batch processing) işleri gerçekleştiriyorsanız.[8]

Kaynaklar

[1] AI Explained, (19 July 2023), LLAMA2 Full Breakdown:

[2] Meta, (31 July 2023), Llama2:

Llama 2 — Meta AI

Llama 2 — The next generation of our open source large language model, available for free for research and commercial…

ai.meta.com

[3] Meta: Touvron, Martin, Stone, (19 July 2023), Llama 2: Open Foundation and Fine-Tuned Chat Models:

Llama 2: Open Foundation and Fine-Tuned Chat Models

In this work, we develop and release Llama 2, a collection of pretrained and fine-tuned large language models (LLMs)…

arxiv.org

[4] Dylan Patel, Geral Wong, (6 May 2023) , Meta’s Bizarre AI Infrastructure Choice Costs Them $100s of Millions:

[https://www.semianalysis.com/p/metas-bizarre-ai-infrastructure-choice]

[5] Ingrid Lunden, (13 June 2023), France’s Mistral AI blows in with a $113M seed round at a $260M valuation to take on OpenAI:

[https://techcrunch.com/2023/06/13/frances-mistral-ai-blows-in-with-a-113m-seed-round-at-a-260m-valuation-to-take-on-openai]

[6] Anthony Curtbertson, (18 July 2023), ChatGPT Dark Web WormGPT Hack:

[https://www.independent.co.uk/tech/chatgpt-dark-web-wormgpt-hack-b2376627.html]

[7] Meta AI, (July 18, 2023), Llama 2 Community License Agreement:

[https://ai.meta.com/llama/license/]

[8] Aman, (20 July 2023), Why GPT-3.5 is (mostly) cheaper than Llama 2:

[https://www.cursor.so/blog/llama-inference]