Dil Modellerini Anlaşılabilir Bileşenlere Ayırmak

Cahit Barkin Ozer
4 min readJan 31, 2024

--

“Decomposing Language Models Into Understandable Components” makalesinin Türkçe çevirisi.

Bu makale, LLM’lerin yorumlanabilirliğinin, LLM’lere benzer şekilde ölçeklendirilerek çözülebilir bir mühendislik sorunu olabileceğini göstermektedir. Bu çalışmada, derin öğrenme ağındaki nöronlar farklı görevlerdeki aktive olma sıklıklarına göre LLM yardımı ile kümelendirilmektedirler. Böylece bu ağda şu nöronlar şu işlevden sorumludur gibi yorumlar yapılabilmektedir. Bu yetenek derin öğrenme modellerinin davranışını içeriden izlememize ve yönlendirmemize olanak tanıyıp, kurumsal ve toplumsal benimseme için gerekli olan güvenliği ve güvenilirliği arttırabilir.

Sinir ağları verilere göre eğitilir, kurallara uygun şekilde programlanmaz. Modelin görevlerde daha iyi olmasını sağlamak için eğitimin her adımında milyonlarca veya milyarlarca parametre güncellenir. Sonuçta model, inanılmaz bir dizi davranışı gerçekleştirme kapasitesi kazanır. Eğitilen ağın matematiğini tam olarak anlamaktayız— bir sinir ağındaki her nöron basit aritmetik işlemler yapmaktadır — ancak bu matematiksel işlemlerin gördüğümüz davranışlarla olan ilişkisini kuramamaktayız. Bu, arıza durumlarını teşhis etmeyi, nasıl düzeltileceğini bilmeyi ve bir modelin gerçekten güvenli olduğunu onaylamayı zorlaştırır.

Sinirbilimciler insan davranışının biyolojik temelini anlama konusunda benzer bir sorunla karşı karşıyadır. İnsanın beyninde ateşlenen nöronların bir şekilde onun düşüncelerini, duygularını, karar verme süreçlerini hayata geçirmesi gerekir. Onlarca yıldır yapılan sinirbilim araştırmaları, beynin nasıl çalıştığı ve epilepsi gibi hastalıklara yönelik hedefe yönelik tedavilerin nasıl etkinleştirildiği hakkında çok şey ortaya çıkarmıştır, ancak yine bir çok şey çözülememiştir. Neyse ki yapay sinir ağlarını anlamaya çalışan bizler için deneyleri yürütmek çok ama çok daha kolaydır. Ağdaki her nöronun aktivasyonunu aynı anda kaydedebilir, onları susturarak veya uyararak müdahale edebilir ve ağın olası herhangi bir girdiye tepkisini test edebiliriz.

Ne yazık ki bireysel nöronların davranışının ağın davranışıyla tutarlı ilişkileri olmadığı ortaya çıkmıştır. Örneğin, küçük bir dil modelindeki tek bir nöron, akademik alıntılar, İngilizce diyaloglar, HTTP istekleri ve Korece metinler dahil pek çok ilgisiz bağlamların hepsinde aktif olabilmektedir. Klasik görme modelinde tek bir nöron, kedilerin yüzlerine ve arabaların önlerine tepki verebilmektedir. Bir nöronun aktivasyonu, farklı bağlamlarda farklı anlamlara gelebilir.

“Towards Monosemanticity: Decomposing Language Models With Dictionary Learning” (Tek Anlamlılığa Doğru: Sözlük Öğrenimiyle Dil Modellerini Ayrıştırmak) makalesinde, bireysel nöronlardan daha iyi analiz birimlerinin olduğuna dair kanıtları özetledik ve bu birimleri küçük transformatör modellerinde bulmamızı sağlayan makineler geliştirdik. Özellikler (features) olarak adlandırılan bu birimler, nöron aktivasyonlarının modellerine (doğrusal kombinasyonlara) karşılık gelir. Bu, karmaşık sinir ağlarını anlayabileceğimiz parçalara ayırmanın bir yolunu sağlar ve sinir bilimi, makine öğrenimi ve istatistik alanlarındaki yüksek boyutlu sistemleri yorumlamaya yönelik önceki çabalara dayanır.

Transformer mimarisine dayanan bir dil modelinde, 512 nöronlu bir katman, DNA dizileri, yasal dil, HTTP istekleri, İbranice metin, beslenme bildirimleri ve çok daha fazlası gibi şeyleri ayrı ayrı temsil eden 4000'den fazla özelliğe ayrıştırıyoruz. Bu model özelliklerinin çoğu, bireysel nöronların aktivasyonlarına ayrı ayrı bakıldığında görünmez.

Bulduğumuz özelliklerin, modelin nöronlarından çok daha fazla yorumlanabilir olduğunu doğrulamak için, olaydan habersiz bir insan değerlendiriciye bunların yorumlanabilirliğini puanlattık. Özellikler (kırmızı), nöronlardan (turuncu) çok daha yüksek puanlara sahiptir.

Ayrıca, küçük modelin özelliklerine ilişkin kısa açıklamalar oluşturmak için büyük bir dil modeli kullanan bir “autointerpretability” (otomatik yorumlanabilirlik) yaklaşımını benimsedik; bunu, başka bir modelin, bu açıklamaya dayalı olarak bir özelliğin aktivasyonlarını tahmin etme becerisine dayalı olarak puanlıyoruz. Yine özellikler nöronlardan daha yüksek puan alıyor ve özelliklerin etkinleştirilmesinin ve bunların model davranışı üzerindeki sonraki etkilerinin tutarlı bir yoruma sahip olduğuna dair ek kanıt sağlıyor.

Özellikler ayrıca modelleri yönlendirmek için hedefli bir yol sunar. Aşağıda gösterildiği gibi, bir özelliğin yapay olarak etkinleştirilmesi, model davranışının öngörülebilir şekillerde değişmesine neden olur.

Son olarak uzaklaşıp özellik setine bir bütün olarak bakıyoruz. Öğrenilen özelliklerin farklı modeller arasında büyük ölçüde evrensel olduğunu, dolayısıyla bir modeldeki özellikleri inceleyerek öğrenilen derslerin diğerlerine genellenebileceğini görüyoruz. Ayrıca öğrendiğimiz özelliklerin sayısını ayarlamayı da deniyoruz. Bunun, modeli gördüğümüz çözünürlüğü değiştirmek için bir “dimmer anahtarı” sağladığını görüyoruz: Modeli daha küçük bir özellikler kümesine ayrıştırmak, anlaşılması daha kolay olan kaba bir görünüm sunarken onu geniş bir özellik kümesine ayrıştırmak, detaylı model özelliklerini ortaya çıkaran daha rafine bir görünüm sunar.

Bu çalışma, Anthropic’in yapay zeka güvenliğine ilişkin en uzun vadeli araştırmalarımızdan biri olan Mekanistik Yorumlanabilirliğe yaptığı yatırımın bir sonucudur. Şimdiye kadar bireysel nöronların yorumlanamaz olması, dil modellerinin mekanik olarak anlaşılmasının önünde ciddi bir engel oluşturuyordu. Nöron gruplarını yorumlanabilir özelliklere ayrıştırmak, bu engeli aşma potansiyelini göstermektedir. Bunun sonuçta model davranışını içeriden izlememize ve yönlendirmemize olanak tanıyacağını, kurumsal ve toplumsal benimseme için gerekli olan güvenlik ve güvenilirliği artıracağını umuyoruz.

Bir sonraki zorluğumuz, bu yaklaşımı başarı gösterdiğimiz küçük modelden kat kat daha büyük ve önemli ölçüde daha karmaşık olan sınır modellerine kadar ölçeklendirmek olacaktır. İlk defa, büyük dil modellerinin yorumlanmasının önündeki bir sonraki temel engel bilimden çok mühendisliktir.

Reference

https://www.anthropic.com/news/decomposing-language-models-into-understandable-components

https://transformer-circuits.pub/2023/monosemantic-features/index.html

--

--

Cahit Barkin Ozer
Cahit Barkin Ozer

Written by Cahit Barkin Ozer

Üretken YZ başta olmak üzere teknoloji alanındaki yenilikleri öğrenip sizlerle paylaşıyorum. Youtube Kanalım: https://www.youtube.com/@cbarkinozer

No responses yet