Kuantum Kimyası İçin Nöral Mesaj Aktarımı

Cahit Barkin Ozer
22 min readNov 5, 2024

--

2017'de yayımlanmış popüler “Neural Message Passing for Quantum Chemistry” makalesinin Türkçe özetidir.

Basit Açıklama

Diyelim ki, elinizde bir sürü molekül var. Moleküller, atomlardan (karbon, hidrojen, oksijen gibi) oluşmakta ve bu atomlar, bağlar (onları birbirine bağlayan küçük bağlantılar) aracılığıyla birbirine bağlı. Bir molekülün şekli ve bağlantıları, onun hoş kokup kokmadığı veya ilaç yapımında iyi olup olmadığı gibi birçok özelliğini belirler.

Şimdi, bilim insanları bu moleküllerin özelliklerini, laboratuvarda bir sürü deney yapmadan tahmin etmek istiyorlar, çünkü bu deneyler hem pahalı hem de zaman alıcı olabilir. İşte bu makale burada devreye giriyor. Makale, moleküllerin özelliklerini tahmin etmeye yardımcı olan Sinirsel Mesaj Geçişi adlı bir yapay zeka (AI) yöntemi hakkında.

Sinirsel Mesaj Geçişi Nedir?

Bu, minibüste insanların yolculuk ücretini şoföre iletmesine benzer. Her bir atomun minibüsteki bir yolcu, her bir bağın ise yolcular arasındaki bir iletişim hattı olduğunu hayal edin. Temel fikir, her atomun biraz bilgiye sahip olması ve bu bilgiyi komşu atomlara bağlar aracılığıyla gönderebilmesidir. Zamanla atomlar birbirleriyle “konuşur,” bildiklerini paylaşır ve tüm bu mesajlar birleştirilerek tüm molekül hakkında tahminler yapılabilir.

Nasıl Çalışır?

  1. Atomlar ve Bağlar, Düğümler ve Kenarlar Olarak: Bu yöntemde, her bir atom bir düğüm (bir nokta gibi) ve her bir bağ ise bir kenar (noktaları birleştiren bir çizgi gibi) olarak ele alınır. Bu, graf denen bir yapı oluşturur; yani, birbirine bağlı şeylerin bir ağı.
  2. Mesaj Geçişi Adımları: Bilgisayar programı, her atomun komşularına bilgi gönderdiği ve onlardan bilgi aldığı birkaç adımdan geçer. Her adımda, program her atomun sahip olduğu bilgiyi günceller, tıpkı bir öğrencinin sınıf arkadaşlarıyla konuştuktan sonra yeni şeyler öğrenmesi gibi.
  3. Bilgilerin Birleştirilmesi: Mesaj geçişi birkaç kez tekrarlandıktan sonra, program güncellenen tüm bilgileri bir araya getirerek tüm molekülü anlamaya çalışır. Örneğin, molekülün suda çözünüp çözünmeyeceğini veya ne kadar güçlü olduğunu tahmin edebilir.

Bu Neden Önemli?

Bu makaleden önce, moleküler özellikleri tahmin etmek için kullanılan birçok yöntem “mesaj geçişi” gibi bir şey kullanmıyordu. Molekülleri temsil etmenin daha az gelişmiş yollarını kullanabilir veya atomları, birbirleriyle nasıl etkileşime girdiklerine bakmadan ayrı ayrı ele alabilirlerdi. Sinirsel Mesaj Geçişi daha sofistike, çünkü atomların nasıl iletişim kurduğunu ve birbirlerini nasıl etkilediğini doğrudan dikkate alıyor, bu da daha doğru tahminlere yol açıyor.

Uygulamalar

  • İlaç Keşfi: Bilim insanları bu yöntemi, hangi moleküllerin iyi ilaçlar yapabileceğini hızlı bir şekilde belirlemek için kullanabilirler.
  • Malzeme Bilimi: Belirli özelliklere sahip yeni malzemeler bulmaya yardımcı olabilir, örneğin daha güçlü metaller veya daha iyi piller.
  • Kimya Araştırmaları: Fiziksel deneyler yapmadan moleküler davranışları anlamaya yardımcı olur.

Öz

Moleküller üzerinde denetimli öğrenme, kimya, ilaç keşfi ve malzeme bilimi alanlarında son derece faydalı olma potansiyeline sahiptir. Neyse ki, moleküler simetrilere göre değişmez olan birkaç umut verici ve birbiriyle yakından ilişkili sinir ağı modeli literatürde zaten tanımlanmıştır. Bu modeller, girdilerinin tamamının oluşturduğu grafın bir fonksiyonunu hesaplamak için bir mesaj iletme algoritması ve toplama prosedürü öğrenirler. Bu noktada, bir sonraki adım, bu genel yaklaşımın özellikle etkili bir varyantını bulmak ve bunu kimyasal tahmin kıyaslamalarına uygulayarak ya bu sorunları çözmek ya da yaklaşımın sınırlarına ulaşmaktır. Bu makalede, mevcut modelleri Mesaj Aktarım Sinir Ağları (MPNN’ler) adını verdiğimiz ortak bir çerçevede yeniden formüle ediyor ve bu çerçevede ek yeni varyasyonları araştırıyoruz. MPNN’ler kullanarak, önemli bir moleküler özellik tahmin kıyaslamasında en son teknolojiyi temsil eden sonuçlar elde ediyoruz; bu sonuçlar o kadar güçlü ki, gelecekteki çalışmaların daha büyük moleküllere sahip veri kümelerine veya daha doğru doğru değer etiketlerine odaklanması gerektiğine inanıyoruz.

1. Giriş

Son on yılda, doğal dili anlama ve çevirme konusunda derin sinir ağlarının kullanımında dikkate değer başarılar elde edilmiştir (Wu ve ark., 2016). Ayrıca karmaşık ses sinyallerinin üretilmesi ve çözülmesinde (Hinton ve ark., 2012) ve gerçek dünyadan alınan görüntü ve videolardan özelliklerin çıkarılmasında (Krizhevsky ve ark., 2012) önemli ilerlemeler kaydedilmiştir. Kimyacılar yıllar boyunca makine öğrenimini birçok problemde uygulamış olsalar da, molekül ve malzemelerin özelliklerini makine öğrenimi (özellikle de derin öğrenme) ile tahmin etmek hâlâ emekleme aşamasındadır. Bugüne kadar, kimya alanındaki görevlerde makine öğreniminin kullanıldığı araştırmaların çoğu (Hansen ve ark., 2015; Huang & von Lilienfeld, 2016; Rupp ve ark., 2012; Rogers & Hahn, 2010; Montavon ve ark., 2012; Behler & Parrinello, 2007; Schoenholz ve ark., 2016) özellikle özellik mühendisliği etrafında yoğunlaşmıştır. Sinir ağları çeşitli durumlarda uygulanmış olsa da (Merkwirth & Lengauer, 2005; Micheli, 2009; Lusci ve ark., 2013; Duvenaud ve ark., 2015), yaygın olarak benimsenmeleri henüz gerçekleşmemiştir. Bu durum, evrişimli sinir ağlarının yaygın olarak kullanılmasından önceki görüntü modelleme alanının durumunu andırmaktadır ve kısmen, uygun indüktif önyargıya sahip sinir mimarilerinin bu alanda başarılı olabileceğine dair yeterli ampirik kanıt eksikliğinden kaynaklanmaktadır.

Şekil 1. Mesaj Geçiren Sinir Ağı, hesaplama açısından maliyetli bir DFT hesaplamasını modelleyerek organik bir molekülün kuantum özelliklerini tahmin ediyor.

Son zamanlarda, geniş ölçekli kuantum kimyası hesaplamaları ve moleküler dinamik simülasyonları, yüksek verimlilikte deneylerle birleşerek eşi benzeri görülmemiş bir hızda veri üretmeye başladı. Çoğu klasik teknik, artık mevcut olan bu büyük veri miktarını etkili bir şekilde kullanamamaktadır. Bu sorunlar için daha güçlü ve esnek makine öğrenimi yöntemleri uygulamanın zamanı gelmiş durumda; ancak uygun indüktif önyargılara sahip modeller bulmamız gerekmektedir. Atomik sistemlerin simetrileri, graf yapısındaki verilere dayalı çalışan ve grafik izomorfizmine karşı değişmez (invariant) olan sinir ağlarının moleküller için de uygun olabileceğini göstermektedir. Yeterince başarılı modeller, bir gün ilaç keşfi ya da malzeme bilimi gibi alanlarda zorlu kimyasal arama problemlerini otomatikleştirmeye yardımcı olabilir.

Bu makalede amacımız, moleküler grafiklerden doğrudan öğrenebilen ve grafik izomorfizmine karşı değişmez olan kimyasal tahmin problemleri için etkili makine öğrenimi modellerini göstermektir. Bu doğrultuda, Message Passing Neural Networks (MPNNs) (Mesaj Aktarım Sinir Ağları) adını verdiğimiz ve graf yapısına sahip veriler için mevcut en umut verici sinir ağı modelleri arasındaki ortak noktaları soyutlayarak açıklayan genel bir denetimli öğrenme çerçevesi tanımlıyoruz. Bu çerçeve, bu modeller arasındaki ilişkileri daha iyi anlamayı ve yeni varyasyonlar geliştirmeyi kolaylaştırmaktadır. MPNN çerçevesine uyan birçok modelin araştırmacılar tarafından yayımlandığını göz önünde bulundurarak, bu genel yaklaşımın pratikte önemli graf problemleri üzerinde mümkün olduğunca ileri taşınması gerektiğine inanıyoruz. Ancak yalnızca, uygulamalarla iyi bir şekilde gerekçelendirilmiş yeni varyasyonların önerilmesini destekliyoruz. Bu çalışmada ele aldığımız uygulama da tam olarak budur: Küçük organik moleküllerin kuantum mekaniksel özelliklerini tahmin etmek (Görev şeması için şekil 1’e bakınız).

Genel olarak, belirli bir alandaki pratik olarak etkili makine öğrenimi (ML) modellerinin aranması, giderek daha gerçekçi ve ilgi çekici karşılaştırma testleri (benchmark’lar) aracılığıyla ilerler. Bu çalışmada, QM9 veri setine böyle bir benchmark olarak odaklanıyoruz (Ramakrishnan ve diğerleri, 2014). QM9, her biri 13 özelliğe sahip 130 bin molekülden oluşur ve bu özellikler, pahalı bir kuantum mekanik simülasyon yöntemi olan Yoğunluk Fonksiyonel Teorisi (DFT: Density Functional Theory) kullanılarak yaklaşık olarak hesaplanır. Bu hesaplamalar, 13 farklı regresyon görevine karşılık gelir. Bu görevler, birçok önemli kimyasal tahmin problemini temsil eder nitelikte olup mevcut yöntemlerin çoğu için hâlâ zordur.

Ayrıca, QM9 veri seti, moleküldeki atomların düşük enerjili tek konformasyonuna dair tam uzaysal bilgiyi içerir; bu bilgi, kimyasal özelliklerin hesaplanmasında kullanılmıştır. Bu sayede, tam moleküler geometrinin (atomlar arası mesafeler, bağ açıları vb.) bilindiği durumu ve yalnızca atom ve bağ bilgilerinin (yani bir graf olarak) girdi verisi olarak sağlandığı durumu inceleyebiliriz. İkinci durumda, modelin, düşük enerjili 3D konformasyon belirleme işlemini dolaylı olarak öğrenmesi ve makul bir 3D konformasyonun nasıl hesaplanacağının açık olmadığı problemler üzerinde de çalışabilmesi beklenir.

Modellerimizin QM9 üzerindeki performansını ölçerken, iki önemli karşılaştırma hatası seviyesi vardır. İlki, doğanın DFT yaklaşımıyla yaklaşık olarak temsil edilmesinden kaynaklanan ortalama hatadır ve biz buna “DFT hatası” diyoruz. İkincisi ise kimya topluluğu tarafından belirlenmiş bir hedef hata olan “kimyasal doğruluk” seviyesidir. Faber ve diğerleri (2017) tarafından her bir hedef için DFT hatası ve kimyasal doğruluk tahminleri sağlanmıştır. Bu araştırma hattının önemli bir amacı, son derece hassas bir deneyle ölçülen gerçek hedeflere kimyasal doğrulukla ulaşabilen bir model geliştirmektir. Gerçek hedefleri içeren veri seti (134 bin molekül için) henüz mevcut değildir. Ancak, DFT’yi kimyasal doğruluk sınırları içinde modelleyebilmek, bu yolda teşvik edici bir adım olacaktır. Tüm 13 hedef için kimyasal doğruluğa ulaşmak, en az DFT hatasına ulaşmak kadar zordur. Bu makalenin geri kalanında, kimyasal doğruluktan bahsederken genellikle elimizdeki temel gerçek (ground truth) etiketlere atıfta bulunuyoruz.

Bu makalede, MPNN (Message Passing Neural Network) ailesinden yeni model varyasyonları geliştirerek hem QM9 veri setinde yeni bir en iyi performans seviyesine ulaşıyor hem de 13 hedeften 11'inde DFT hesaplamasını kimyasal doğrulukla tahmin ediyoruz. Özellikle, şu ana katkıları sağlıyoruz:

  • Geliştirdiğimiz bir MPNN modeli, 13 hedefin tümünde en iyi performans sonuçlarını elde ediyor ve 11 hedefte DFT’yi kimyasal doğrulukla tahmin ediyor.
  • Sadece molekülün topolojisi üzerinde (uzaysal bilgi olmadan) çalışan ve 13 hedeften 5'inde DFT’yi kimyasal doğrulukla tahmin eden birkaç farklı MPNN geliştiriyoruz.
  • Daha büyük düğüm temsilleriyle çalışan MPNN’leri ek hesaplama zamanı veya bellek ihtiyacı olmadan eğitmek için genel bir yöntem geliştiriyoruz ve bu sayede yüksek boyutlu düğüm temsilleri için önceki MPNN’lere kıyasla önemli tasarruflar sağlıyoruz.

Çalışmamızın, iyi tasarlanmış MPNN’lerin orta boyuttaki moleküller üzerinde denetimli öğrenme için varsayılan yöntem hâline gelmesi yolunda önemli bir adım olduğuna inanıyoruz. Bunun gerçekleşebilmesi için, araştırmacıların bu tür modelleri nasıl kullanacaklarını dikkatlice incelemeleri ve gerekli iyileştirmeleri yapmaları gerekmektedir. Literatürde bu modellerin tanımlanmış olması, kimyasal alanda yalnızca sınırlı ampirik çalışmalarla destekleniyorsa yeterli değildir. Aslında, evrişimsel sinir ağları (convolutional neural networks) onlarca yıldır mevcuttu, ancak dikkatli ampirik çalışmalar (Krizhevsky ve diğerleri, 2012) bu ağları görüntü sınıflandırmada başarıyla uygulayana kadar, bilgisayarla görü problemlerinde elle tasarlanmış özelliklerin üzerinde SVM’lerin yerini alamamışlardı.

2. Mesaj İleten Nöral Ağlar (Message Passing Neural Networks)

Literatürde yer alan ve Mesaj Geçişli Sinir Ağları (MPNN) çerçevemizi kullanarak tanımlayabileceğimiz en az sekiz önemli model örneği bulunmaktadır. Basitlik açısından, düğüm özellikleri xv​ ve kenar özellikleri evw olan yönsüz graflar G üzerinde çalışan MPNN’leri tanımlıyoruz. Bu formülasyonu yönlü çoklu grafiklere genişletmek oldukça basittir. İleri yönlü geçişin iki aşaması vardır: bir mesaj geçişi aşaması ve bir okuma (readout) aşaması. Mesaj geçişi aşaması T zaman adımında çalışır ve mesaj fonksiyonları Mt​ ile düğüm güncelleme fonksiyonları Ut​ ile tanımlanır. Mesaj geçişi aşaması sırasında, grafikteki her bir düğümdeki gizli durumlar h^{t}_{v}​, mesajlar m_{v}^t+1​ temel alınarak güncellenir.

(1) (2)

Toplamda, N(v), G grafiğindeki v’nin komşularını belirtir. Okuma aşaması, aşağıdakine göre bazı okuma fonksiyonları R’yi kullanarak tüm grafik için bir özellik vektörü hesaplar:

(3)

Mesaj fonksiyonları Mt, tepe noktası güncelleme fonksiyonları Ut ve okuma fonksiyonu R, hepsi öğrenilmiş türevlenebilir fonksiyonlardır. R, düğüm durumları kümesi üzerinde çalışır ve MPNN’nin grafik izomorfizmine değişmez olması için düğüm durumlarının permütasyonlarına değişmez olmalıdır. Aşağıda, literatürdeki önceki modelleri, kullanılan mesaj fonksiyonu Mt, tepe noktası güncelleme fonksiyonu Ut ve okuma fonksiyonu R’yi belirterek tanımlıyoruz. Ayrıca, grafikteki tüm kenarlar için h^t_{e_vw} gizli durumları tanıtarak ve bunları denklemler 1 ve 2'ye benzer şekilde güncelleyerek bir MPNN’deki kenar özelliklerinin de öğrenilebileceğini unutmayın. Mevcut MPNN’lerden yalnızca Kearnes ve diğerleri (2016) bu fikri kullanmıştır.

Moleküler Parmak İzi Öğrenimi için Konvolüsyonel Ağlar, Duvenaud ve diğerleri (2015)

Kullanılan mesaj fonksiyonu M(hv, hw, evw) = (hw, evw) olup, burada (., .) birleştirme anlamına gelir. Kullanılan köşe güncelleme fonksiyonu Ut(h^{t}_{v}, m^{t+1}_{v}) = σ(H^{deg(v)}_{t} m^{t+1}_{v}), burada σ sigmoid fonksiyonu, deg(v) v köşesinin derecesi ve H^{N}_{t} her zaman adımı t ve köşe derecesi N için öğrenilen bir matristir. R, tüm önceki gizli durumlar h^{t}_{v} ile atlama bağlantılarına sahiptir ve f (∑_{v,t} softmax(W_{t}h^{t}_{v}))’ye eşittir, burada f bir sinir ağıdır ve W_t her zaman adımı t için öğrenilen çıktı matriksleridir. Bu mesaj iletimi şeması sorunlu olabilir çünkü sonuçta elde edilen mesaj vektörü m^{t+1}_{v} = (∑h t w, ∑e_{vw}) olup, bağlı düğümler ve bağlı kenarlar üzerinden ayrı ayrı toplamlar. Bu durum, Duvenaud ve diğerleri (2015) tarafından uygulanan mesaj iletiminin, kenar durumları ve düğüm durumları arasındaki korelasyonları tanımlayamamasına yol açar.

Kapılı Grafik Sinir Ağları (GG-NN), Li ve diğerleri (2016)

Kullanılan mesaj fonksiyonu Mt(h^{t}_{v}, h^{t}_{w}, e_{vw}) = A_{evw} h^{t}_{w} olup, burada A_e_vw her kenar etiketi e için öğrenilen bir matristir (model, ayrık kenar tiplerini varsayar). Güncelleme fonksiyonu Ut = GRU(h^{t}_{v}, m^{t+1}_{v}), burada GRU, Cho ve diğerleri (2014) tarafından tanıtılan Kapılı Tekrarlayan Birim’dir (GRU). Bu çalışmada ağırlık bağlama kullanıldı, bu nedenle her zaman adımı t’de aynı güncelleme fonksiyonu kullanıldı. Son olarak,

(4)

Burada i ve j sinir ağlarını ifade eder ve eleman bazlı çarpımı gösterilir.

Etkileşim Ağları, Battaglia ve diğerleri (2016)

Bu çalışma, hem grafikteki her düğümde bir hedefin olduğu durumu hem de grafik düzeyinde bir hedefin olduğu durumu ele aldı. Ayrıca, her zaman adımında düğüm düzeyinde etkilerin uygulandığı durumu da ele aldı; böyle bir durumda güncelleme fonksiyonu, giriş olarak (hv, xv, mv) birleştirmeyi alır; burada xv, tepe noktası v üzerindeki bazı dış etkileri temsil eden harici bir vektördür. Mesaj fonksiyonu M(hv, hw, evw), (hv, hw, evw) birleştirmeyi alan bir sinir ağıdır. Tepe noktası güncelleme fonksiyonu U(hv, xv, mv), giriş olarak (hv, xv, mv) birleştirmeyi alan bir sinir ağıdır. Son olarak, bir grafik düzeyinde çıktının olduğu durumda, R = f( ∑_{v∈G} h^{T}_{v}) olur; burada f, son gizli durumların h^{T}_{v} toplamını alan bir sinir ağıdır. Orijinal çalışmanın yalnızca T = 1 için modeli tanımladığını unutmayın.

Moleküler Grafik Evrişimleri, Kearnes ve diğerleri (2016)

Bu çalışma, mesaj geçirme aşamasında güncellenen kenar gösterimleri e^t_{vw} sunması bakımından diğer MPNN’lerden biraz farklıdır. Düğüm mesajları için kullanılan mesaj fonksiyonu M(h^t_v, h^t_w, e^t_vw) = e^t_vw’dir. Tepe güncelleme fonksiyonu Ut(h^t_v, m^{t+1}_v ) = α(W1(α(W0h^t_v ), m^{t+1}_{v}))’dir; burada (., .) birleştirmeyi, α ReLU aktivasyonunu ve W1, W0 öğrenilmiş ağırlık matrislerini belirtir. Kenar durum güncellemesi e^t+1_vw = U 0 t (e^{t}_vw, h^t_v, h^t_w) = α(W4(α(W2, e^t_vw), α(W3(h^t_v, h^t_w)))) ile tanımlanır; burada Wi aynı zamanda öğrenilmiş ağırlık matrisleridir.

Derin Tensör Sinir Ağları, Schutt ve diğerleri (2017)

w’den v’ye mesaj Mt = tanh Wf c((Wcfh^t_w + b1) (Wdf e_vw + b2)) ile hesaplanır, burada Wfc, Wcf, Wdf matrislerdir ve b1, b2 önyargı vektörleridir. Kullanılan güncelleme fonksiyonu Ut(h^t_v, m^t+1_v ) = h t v + mt+1 v ‘dir. Okuma fonksiyonu her düğümü tek bir gizli katmanlı sinir ağından bağımsız olarak geçirir ve çıktıları toplar, özellikle:

Laplasyen Tabanlı Yöntemler, Bruna ve diğerleri (2013); Defferrard ve diğerleri (2016); Kipf ve Welling (2016)

Bu yöntemler, tipik olarak görüntü veri kümelerine uygulanan evrişim işleminin kavramını, gerçek değerli bir komşuluk matrisi A ile keyfi bir grafik G üzerinde işlem yapan bir işleme genelleştirir. Bruna ve diğerleri (2013) ve Defferrard ve diğerleri (2016) tarafından tanımlanan işlemler, Mt(h^t_v, h^t_w) = C^t_vw h^t_w biçimindeki mesaj fonksiyonlarıyla sonuçlanır; burada matrisler C^t_vw, grafik Laplasyen L’nin özvektörleri ve modelin öğrenilmiş parametreleri tarafından parametrelendirilir. Kullanılan tepe noktası güncelleme fonksiyonu Ut(h^t_v , m^t+1_v ) = σ(m^t+1_v)’dir; burada σ, noktasal bir doğrusal olmayanlıktır (örneğin ReLU). Kipf & Welling (2016) modeli, c_vw = (deg(v)deg(w))−1/2 A_vw olmak üzere bir mesaj fonksiyonu Mt(h^t_v , h^t w) = c_vwh^t_w ile sonuçlanır. Tepe güncelleme fonksiyonu U t v (h^t_v, m^t+1_v ) = ReLU(Wtmt+1 v )’dir. C^t_vw için kesin ifadeler ve bu modellerin MPNN’ler olarak yeniden formüle edilmesinin türetilmesi için ek materyale bakın.

2.1. İlerleme

Literatürde MPNN örneklerinin ne kadar çok olduğu göz önüne alındığında, bu genel aileyi önemli pratik öneme sahip belirli bir uygulamada mümkün olduğunca ileriye taşımaya odaklanmalıyız. Bu şekilde en kritik uygulama ayrıntılarını belirleyebilir ve potansiyel olarak bu modellerin gelecekteki modelleme iyileştirmelerine doğru bizi yönlendirecek sınırlarına ulaşabiliriz. Tüm bu yaklaşımların bir dezavantajı hesaplama süresidir. Son çalışmalar, GG-NN mimarisini her zaman adımında yalnızca grafiğin alt kümelerine mesajlar göndererek daha büyük grafiklere uyarladı (Marino ve diğerleri, 2016). Bu çalışmada, hesaplama maliyetlerini iyileştirebilecek bir MPNN modifikasyonu da sunuyoruz.

3. İlgili Çalışmalar

İlkeler gereği kuantum mekaniği moleküllerin özelliklerini hesaplamamıza izin verse de, fizik yasaları çözülmesi son derece zor denklemlere yol açar. Bu nedenle bilim insanları, hız ve doğruluk arasında değişen ödünleşimlerle kuantum mekaniğine yönelik çeşitli yaklaşımlar geliştirmiştir. Bunlar arasında Yoğunluk Fonksiyonel Teorisi (DFT) ve çeşitli fonksiyonelleri (Becke, 1993; Hohenberg & Kohn, 1964), GW yaklaşımı (Hedin, 1965) ve Kuantum Monte Carlo (Ceperley & Alder, 1986) bulunur. DFT yaygın olarak kullanılsa da, büyük sistemlere uygulanamayacak kadar yavaş kalmaktadır (elektron sayısına göre O(Ne3)O(N_e³)O(Ne3​) olarak ölçeklenir) ve Schrödinger denkleminin tam çözümleriyle karşılaştırıldığında hem sistematik hem de rastgele hatalar sergiler.

Örneğin, QM9 veri kümesindeki 9 ağır atomlu tek bir molekül için DFT hesaplaması, bir Xeon E5–2660 (2.2 GHz) işlemcisinin tek çekirdeğinde, Gaussian G09 (ES64L-G09RevD.01) sürümüyle yaklaşık bir saat sürmektedir (Bing ve ark., 2017). 17 ağır atom içeren bir molekül için bu süre 8 saate kadar çıkabilir. Hızlı ve doğru olan ama her atom bileşimi için baştan geliştirilmesi gereken Stillinger-Weber potansiyeli (Stillinger & Weber, 1985) gibi ampirik potansiyeller geliştirilmiştir. Hu ve arkadaşları (2003), DFT’de sorun yaratan bir terim olan değiş-tokuş ve korelasyon potansiyelini tahmin etmek için yapay sinir ağları kullanarak DFT’nin doğruluğunu artırmayı denemiştir. Ancak, yöntemleri DFT’nin verimliliğini geliştirememiş ve büyük bir dizi deneysel atomik betimleyiciye dayanmıştır.

Daha yakın tarihte, Behler & Parrinello (2007) ve Rupp ve ark. (2012), DFT’ye başvurmadan doğrudan kuantum mekaniği çözümlerini yaklaşık olarak hesaplamaya çalışmıştır. Behler ve Parrinello, moleküler dinamik simülasyonlarını hızlandırmak için, silikon ergiyik yapılandırmalarının enerji ve kuvvetlerini tahmin etmek amacıyla tek gizli katmanlı sinir ağları kullanmıştır. Rupp ve ark. ise Kernel Ridge Regression (KRR) yöntemiyle geniş bir molekül aralığında atomlaşma enerjilerini tahmin etmişlerdir. Her iki çalışmada da fiziksel simetrileri giriş temsiline dahil eden, el ile tasarlanmış özellikler (sırasıyla simetri fonksiyonları ve Coulomb matrisi) kullanılmıştır. Sonraki çalışmalar, KRR yerine sinir ağları kullanmıştır. Ancak, bu araştırma hatlarının her ikisi de içsel sınırlamalara sahip el ile tasarlanmış özelliklere dayanmaktadır.

Behler & Parrinello (2007) çalışmasındaki temsil, grafik izomorfizmine göre değişmez olacak şekilde tasarlanmıştır; ancak üçten fazla atom türüne sahip sistemlere uygulandığında zorlanmakta ve yeni bileşimlere genelleme yapamamaktadır. Rupp ve ark. (2012) tarafından kullanılan temsil ise grafik izomorfizmine karşı değişmez değildir; bu nedenle, bu değişmezlik, veri kümesi artırımı yoluyla model tarafından öğrenilmelidir. Bölüm 2'de tartışılan sekiz MPNN’ye (Mesaj Geçişli Sinir Ağları) ek olarak, grafik veriler üzerinde makine öğrenimine yönelik başka yaklaşımlar da geliştirilmiştir. Bu yöntemlerden biri, standart bir sınıflandırıcıya beslenebilecek kanonik bir grafik temsilini ön işleme adımı olarak oluşturur. Bu aileye örnek olarak Niepert ve ark. (2016) ile Rupp ve ark. (2012) verilebilir. Son olarak, Scarselli ve ark. (2009), MPNN’lerde olduğu gibi belirli sayıda zaman adımı yerine, bir grafik üzerinde yakınsama sağlanana kadar çalışan bir mesaj iletim süreci tanımlamıştır.

4. QM9 Veri Kümesi

MPNN’lerin kimyasal özellikleri tahmin etmedeki başarısını araştırmak için, herkese açık olarak erişilebilen QM9 veri setini (Ramakrishnan ve ark., 2014) kullanıyoruz. Veri setindeki moleküller, Hidrojen (H), Karbon ©, Oksijen (O), Azot (N) ve Flor (F) atomlarından oluşmakta olup en fazla 9 ağır (hidrojen olmayan) atom içermektedir. Toplamda, bu durum geniş bir kimya yelpazesini kapsayan yaklaşık 134 bin ilaç benzeri organik molekül ortaya çıkarmaktadır. Her molekül için DFT, düşük enerjili makul bir yapıyı bulmak üzere kullanılmakta; bu nedenle atom “konumları” da mevcuttur. Ek olarak, ilginç ve temel kimyasal özelliklerin geniş bir yelpazesi hesaplanmaktadır. QM9'daki bazı özelliklerin ne kadar temel olduğu göz önüne alındığında, QM9'da hesaplanan özellikler için doğru istatistiksel tahminler yapamazsak, daha zorlayıcı kimyasal görevlerde başarı elde etmenin mümkün olacağına inanmak zor.

Tahmin etmeye çalıştığımız özellikleri dört geniş kategoriye ayırabiliriz. İlk olarak, bir moleküldeki atomların ne kadar sıkı bir şekilde bir arada olduğunu ölçen dört özelliğimiz var. Bunlar, farklı sıcaklık ve basınçlarda molekülü parçalamak için gereken enerjiyi ölçmektedir. Bu özellikler, 0K’deki atomizasyon enerjisi U0 (eV), oda sıcaklığındaki atomizasyon enerjisi U (eV), oda sıcaklığındaki atomizasyon entalpisi H (eV) ve atomizasyon serbest enerjisi G (eV)’dir.

Sonraki özellikler, molekülün temel titreşimleriyle ilgilidir ve en yüksek temel titreşim frekansı ω1 (cm-1) ile sıfır nokta titreşim enerjisini (ZPVE) (eV) içerir.

Ek olarak, moleküldeki elektronların durumlarıyla ilgili çeşitli özellikler bulunmaktadır. Bunlar, en yüksek dolu moleküler orbitale (HOMO) ait elektron enerjisi εHOMO (eV), en düşük boş moleküler orbitale (LUMO) ait elektron enerjisi εLUMO (eV) ve elektron enerji farkı (∆ε (eV))’dir. Elektron enerji farkı, basitçe εHOMO − εLUMO farkıdır.

Son olarak, moleküldeki elektronların uzaysal dağılımını ölçen birkaç özellik bulunmaktadır. Bunlar, elektronik uzaysal genişlik 〈R2〉 (Bohr²), dipol moment normu µ (Debye) ve statik polarizabilite normu α (Bohr³)’ü içerir. Bu özelliklerin daha ayrıntılı bir açıklaması için ek materyale bakınız.

5. MPNN Varyantları

MPNN’lere olan incelememize, güçlü bir temel olduğuna inandığımız GG-NN modeli etrafında başladık. Farklı mesaj işlevlerini ve çıktı işlevlerini denemeye, uygun giriş temsilini bulmaya ve hiperparametreleri doğru şekilde ayarlamaya odaklandık.

Makalenin geri kalanında, grafikteki her bir düğümün içsel gizli temsilinin boyutunu belirtmek için ddd ve grafikteki düğüm sayısını belirtmek için nnn sembollerini kullanıyoruz. MPNN’lerimizin genel olarak yönlü grafikler üzerinde çalıştığı ve gelen ve giden kenarlar için ayrı bir mesaj kanalı bulunduğu durumlarda, gelen mesaj m^{in}_{v}mvin​ ve m^{out}_{v} mesajlarının birleştirilmesi olarak tanımlanır; bu yöntem aynı zamanda Li ve diğerleri (2016) tarafından da kullanılmıştır. Bunu yönsüz kimyasal grafiklere uyguladığımızda, grafiği yönlü olarak ele alıyoruz ve her bir orijinal kenar hem gelen hem de giden kenar olacak şekilde aynı etiketle yerleştiriliyor. Kenarın yönünde özel bir şey olmadığını, bunun yalnızca parametre bağlantısı için önemli olduğunu belirtelim. Yönsüz grafikleri yönlü olarak ele almak, mesaj kanalının boyutunun d yerine 2d olması anlamına gelir.

MPNN modelimize giriş olarak, grafikteki düğümler için özellik vektörlerinden oluşan bir küme olan x_v​ ve moleküldeki farklı bağları ve iki atom arasındaki çift taraflı uzamsal mesafeyi göstermek için vektör değerli girdilere sahip bir komşuluk matrisi A kullanıyoruz. GG-NN ailesinde kullanılan, ayrık kenar etiketlerini varsayan mesaj işlevini de denedik; bu durumda matris A’nın girdileri, boyutu k olan ayrık bir alfabede yer alır. İlk gizli durumlar hv0h^{0}_{v}hv0​, atom giriş özellik vektörleri x_v​ olarak ayarlanır ve daha büyük bir boyut d’ye kadar doldurulur. Tüm deneylerimizde, her bir zaman adımında ttt ağırlık bağlaması kullanıldı ve GG-NN ailesinde olduğu gibi güncelleme işlevi için bir GRU (Cho ve diğerleri, 2014) kullanıldı.

5.1 Mesaj Fonksiyonları

Matris Çarpımı: GG-NN’de kullanılan ve M(h_v, h_w, e_{vw}) = A_{e_{vw}}h_w​ denklemi ile tanımlanan mesaj fonksiyonu ile başladık.

Kenar Ağı: Vektör değerli kenar özelliklerine izin vermek için, mesaj fonksiyonunu M(h_v, h_w, e_{vw}) = A(e_{vw})h_w olarak öneriyoruz. Burada A(e_{vw}), kenar vektörünü e_{vw}​ bir d×d matrisine eşleyen bir sinir ağıdır.

Çift Mesaj: Matris çarpımı kuralının bir özelliği, www düğümünden v düğümüne gelen mesajın yalnızca h_w​ gizli durumu ve e_{vw}​ kenarının bir fonksiyonu olmasıdır. Özellikle, h^t_v​ gizli durumuna bağlı değildir. Teorik olarak, eğer düğüm mesajlarının hem kaynak hem de hedef düğüme bağlı olması sağlanırsa, ağ mesaj kanalını daha verimli kullanabilir. Bu nedenle, (Battaglia ve ark., 2016) tarafından tanımlandığı şekilde mesaj fonksiyonunun bir varyantını da denedik. Burada, w düğümünden vvv düğümüne eee kenarı boyunca gelen mesaj, m_{wv} = f(h^t_w, h^t_v, e_{vw}) olup, f bir sinir ağıdır.

Yukarıdaki mesaj fonksiyonlarını yönlü grafiklere uyguladığımızda, iki ayrı fonksiyon kullanılır: M^{in} ve M^{out}. Belirli bir e_{vw}​ kenarına hangi fonksiyonun uygulanacağı, o kenarın yönüne bağlıdır.

5.2. Sanal Grafik Elemanları

Model boyunca mesajların iletim şeklini değiştirmek için iki farklı yolu inceledik. En basit değişiklik, bağlantısı olmayan düğüm çiftleri için ayrı bir “sanal” kenar türü eklemeyi içerir. Bu yöntem, bir veri ön işleme adımı olarak uygulanabilir ve yayılma aşamasında bilginin uzun mesafeler kat etmesine olanak tanır.

Ayrıca, grafikteki her giriş düğümüne özel bir kenar türü ile bağlı olan gizli bir “ana” düğüm kullanmayı denedik. Ana düğüm, her adımda her düğümün bilgi okuyup yazdığı küresel bir geçici alan görevi görür. Ana düğümün ayrı bir düğüm boyutu ana ve iç güncelleme fonksiyonu (bizim durumumuzda bir GRU) için ayrı ağırlıklara sahip olmasına izin veriyoruz. Bu, yayılma aşamasında bilginin uzun mesafeler kat etmesine olanak tanır. Teorik olarak, model kapasitesinin artırılmasını (örneğin, ana​ değerinin büyük seçilmesi) performansta önemli bir düşüş olmaksızın sağlar; çünkü ana düğüm modelinin karmaşıklığı O(|E|d² + nd²_ana). düzeyindedir.

5.3. Okuma Fonksiyonları

İki farklı okuma fonksiyonu denedik. İlk olarak, denklem 4 ile tanımlanan GG-NN’de kullanılan okuma fonksiyonunu kullandık. İkinci fonksiyon ise, Vinyals ve arkadaşlarının (2015) geliştirdiği set2set modelidir. Set2set modeli, özellikle kümeler üzerinde çalışmak için tasarlanmıştır ve sadece son düğüm durumlarının toplanmasından daha yüksek bir ifade gücüne sahip olmalıdır. Bu model, önce her bir (h^T_v, x_v) ikilisine bir doğrusal projeksiyon uygulamakta ve ardından projeksiyon uygulanmış ikililer kümesini T = {(h^T_v, x_v)} giriş olarak almaktadır. M adımlık bir işlemden sonra set2set modeli, T ikililerinin sırasına karşı değişmez bir q ∗ t grafik seviyesinde gömülü üretmektedir. Bu gömülü q ∗ t değerini bir sinir ağına vererek çıktıyı elde ediyoruz.

5.4. Çoklu Kuleler

MPNN’lerin (Mesaj Geçişli Sinir Ağları) ölçeklenebilirliğiyle ilgili bir sorun vardır. Özellikle, yoğun bir grafik için mesaj geçiş aşamasının tek bir adımı O(n²d²) kayan noktalı çarpım gerektirir. n veya d büyüdükçe, bu hesaplama açısından pahalı hale gelebilir. Bu sorunu çözmek için, d boyutlu düğüm gömmelerini h^t,k_v​ olarak ifade edip, bunu k farklı d/k boyutlu gömme h^t,k_v​ şeklinde böleriz ve geçici gömmeler {h˜^t+1,k_{v}, v ∈ G} elde etmek için her bir k kopyası üzerinde ayrı bir yayılma adımı uygularız; her bir kopya için ayrı mesaj ve güncelleme işlevleri kullanılır. Her düğümün k geçici gömmesi, şu denkleme göre karıştırılır:

Burada, g bir sinir ağını, (x, y, …) ise birleştirmeyi ifade eder ve g, grafikteki tüm düğümler arasında paylaşılır. Bu karıştırma, yayılma aşamasında grafiğin farklı kopyalarının birbiriyle iletişim kurmasına izin verirken, düğümlerin yer değişmezliğini korur. Bu, aynı parametre sayısıyla daha büyük gizli durumların sağlanmasına olanak tanır ve uygulamada bir hesaplama hızlanması sağlar. Örneğin, mesaj işlevi matris çarpımı olduğunda (GG-NN’de olduğu gibi), tek bir kopya için bir yayılma adımı O(n²(d/k)²) zamanda gerçekleşir ve k kopya olduğundan, toplam zaman karmaşıklığı O(n²d²/k) olur, karıştırma ağı nedeniyle bir miktar ek yükle birlikte. k = 8, n = 9 ve d = 200 olduğunda, k = 1, n = 9 ve d = 200 mimarisine kıyasla çıkarım süresinde 2 kat hızlanma sağlandığını görüyoruz. Bu varyasyon, özellikle GDB-17'den (Ruddigkeit ve ark., 2012) moleküller gibi daha büyük moleküller için kullanışlı olabilir.

Tablo 1 Atom Özellikleri

6. Girdi Gösterimi

Bir moleküldeki her atom için, atomdaki elektronların özelliklerini ve atomun katıldığı bağları yakalayan çeşitli özellikler mevcuttur. Tüm özelliklerin listesi için tablo 1'e bakınız. Hidrojen atomlarını grafikte açık düğümler olarak dahil etmeyi (sadece sayısını bir düğüm özelliği olarak eklemek yerine) denedik; bu durumda grafikler en fazla 29 düğüme sahip olmaktadır. Daha büyük grafiklerin eğitim süresini önemli ölçüde yavaşlattığını, bu durumda yaklaşık 10 katına kadar çıktığını belirtmek gerekir. Komşuluk matrisi için, kullanılan üç farklı kenar gösterimi vardır ve bu gösterim kullanılan moda bağlı olarak değişir.

Kimyasal Grafik: Mesafe bilgisinin bulunmadığı durumlarda, komşuluk matrisi girişleri ayrık bağ türlerini ifade eder: tek, çift, üçlü veya aromatik bağ.

Mesafe dilimleri: Matris çarpımı mesaj fonksiyonu ayrık kenar türlerini varsayar; bu nedenle mesafe bilgisini dahil etmek için bağ mesafelerini 10 dilime ayırdık. Bu dilimler [2, 6] aralığını 8 eşit parçaya bölerek elde edilir, ardından [0, 2] ve [6, ∞] aralıkları eklenir. Bu dilimler, tüm mesafelerin histogramına bakılarak elle seçilmiştir. Komşuluk matrisi daha sonra bağ türünü bağlı atomlar için ve bağlanmamış atomlar için mesafe dilimini belirten 14 boyutlu bir alfabe içerir. Bağlı atomlar arasındaki mesafenin neredeyse tamamen bağ türü ile belirlendiğini gördük.

Ham mesafe özelliği: Vektör değerli kenarlarda çalışan bir mesaj fonksiyonu kullanıldığında, komşuluk matrisi girişleri 5 boyutludur; ilk boyut atom çiftleri arasındaki Öklid mesafesini gösterirken, kalan dört boyut bağ türünün tek-seçim (one-hot) kodlamasını içerir.

7. Eğitim

Her model ve hedef kombinasyonu, 50 denemeden oluşan rastgele bir hiperparametre araması kullanılarak eğitildi. T, 3 ≤ T ≤ 8 aralığında sınırlandırıldı (uygulamada, herhangi bir T ≥ 3 değeri kullanılabilir). Set2set hesaplamalarının sayısı M, 1 ≤ M ≤ 12 aralığından seçildi. Tüm modeller, 3 milyon adım (540 epoch) boyunca 20 batch boyutuyla ADAM optimizasyon algoritması (Kingma & Ba, 2014) ile Stokastik Gradyan İnişi (SGD) kullanılarak eğitildi. Başlangıç öğrenme oranı, 1e^-5 ile 5e^-4 arasında rastgele seçildi. Öğrenme oranı, eğitimin %10 ile %90'ı arasında başlayan doğrusal bir azalmaya tabi tutuldu ve başlangıç öğrenme oranı l, [.01, 1] aralığında bir çürüme faktörü F kullanılarak son öğrenme oranı l ∗ F’ye kadar azaldı.

QM-9 veri kümesinde 130462 molekül bulunmaktadır. 10000 örnek doğrulama, 10000 örnek test için rastgele seçildi ve geri kalanları eğitim için kullanıldı. Doğrulama setini erken durdurma ve model seçimi için kullandık ve test setindeki skorları rapor ettik. Tüm hedefler, ortalaması 0 ve varyansı 1 olacak şekilde normalize edildi. Model çıktısı ile hedef arasındaki ortalama kare hata (MSE) en aza indirildi, ancak ortalama mutlak hata (MAE) değerlendirildi.

8. Sonuçlar

Tüm tablolarımızda, modellerimizin ortalama mutlak hata (MAE) oranını, o hedef için sağlanan kimyasal doğruluk tahmini ile birlikte raporluyoruz. Bu nedenle, hata oranı 1'den küçük olan herhangi bir model, o hedef için kimyasal doğruluğa ulaşmıştır. Ek materyalde, her bir hedef için kimyasal doğruluk tahminlerini listeledik; bunlar, Faber ve arkadaşları (2017) tarafından verilen tahminlerle aynıdır. Bu şekilde, modellerimizin MAE değeri (Hata Oranı) × (Kimyasal Doğruluk) olarak hesaplanabilir. Başka bir şekilde belirtilmedikçe, tüm tablolar her bir hedefe ayrı ayrı eğitilmiş modellerin sonuçlarını göstermektedir (13 hedefin tümünü tahmin edecek tek bir model eğitmekten ziyade).

Bu veri setinde en iyi MPNN modelini ve doğru giriş temsilini bulmak için birçok deney gerçekleştirdik. Deneylerimizde, tam kenar özellik vektörünün (bağ tipi, mekansal mesafe) dahil edilmesinin ve hidrojen atomlarını grafikte açık düğümler olarak ele almanın bazı hedefler için çok önemli olduğunu gördük. Ayrıca, her bir hedef için tek bir model eğitmenin, tüm hedefler üzerinde ortak bir model eğitmekten sürekli olarak daha iyi performans gösterdiğini bulduk. Bazı durumlarda, iyileşme %40'a kadar çıkmıştır. En iyi MPNN varyantımız, kenar ağ ileti mesaj fonksiyonunu, set2set çıktısını kullanmış ve açık hidrojen atomlarına sahip grafiklerde çalışmıştır. Beş modelin en düşük doğrulama hatasıyla yapılan tahminlerinin birleştirilmesiyle test setindeki performansı daha da iyileştirebildik.

Tablo 2'de, en iyi MPNN varyantımızın performansını (enn-s2s ile gösterilmiştir) ve ilgili topluluğu (enn-s2s-ens5 ile gösterilmiştir) Faber ve arkadaşları (2017) tarafından bildirilen bu veri seti üzerindeki önceki en iyi performansla karşılaştırıyoruz. Netlik sağlamak için, en iyi topluluk olmayan modellerin hata oranları kalın harflerle gösterilmiştir. Bu önceki çalışma, QM9 için mevcut birkaç makine öğrenimi modelini karşılaştıran bir çalışma yapmış ve aynı eğitim, doğrulama ve test bölünmesini kullandığımızdan emin olduk. Bu temel modeller, daha sonra standart bir sınıflandırıcıya beslenen 5 farklı elle tasarlanmış moleküler temsil içermektedir. Bu giriş temsilleri arasında Coulomb Matrisi (CM, Rupp ve arkadaşları (2012)), Bağ Torbası (BoB, Hansen ve arkadaşları (2015)), Bağ Açıları, Makine Öğrenimi (BAML, Huang & von Lilienfeld (2016)), Genişletilmiş Bağlantı Parmak İzleri (ECPF4, Rogers & Hahn (2010)) ve “Projeksiyon Histogramları” (HDAD, Faber ve arkadaşları (2017)) temsilleri bulunmaktadır. Bu elle tasarlanmış özelliklerin yanı sıra, iki mevcut temel MPNN modelini, Kearnes ve arkadaşları (2016) tarafından geliştirilen Moleküler Grafik Konvolüsyon modelini (GC) ve Li ve arkadaşları (2016) tarafından uzaklık kutuları ile eğitilen orijinal GG-NN modelini dahil ettik. Genel olarak, yeni MPNN modelimiz 13 hedeften 11'inde kimyasal doğruluğa ve tüm hedeflerde en iyi performansa ulaşmaktadır.

Mekansal Bilgi Olmadan Eğitim: Girişte mekansal bilgi dahil edilmediğinde eğitim yaptığımız bir ortamda da deneyler yaptık. Genel olarak, düğümler arasındaki uzun menzilli etkileşimleri yakalamanın bir yoluyla MPNN’yi güçlendirmenin bu durumda performansı büyük ölçüde iyileştirdiğini gördük. Bunu göstermek için dört deney gerçekleştirdik: biri, GG-NN modelini seyrek grafikte eğittiğimiz, diğeri sanal kenarlar eklediğimiz, bir diğerinde ana düğüm eklediğimiz ve son olarak grafik seviyesindeki çıktıyı set2set çıktısına çevirdiğimiz. 13 hedefte ortalama hata oranları Tablo 3'te gösterilmiştir. Genel olarak, bu üç değişiklik tüm hedeflerde fayda sağlamakta ve Set2Set çıktısı 13 hedeften 5'inde kimyasal doğruluğa ulaşmaktadır. Daha fazla ayrıntı için ek materyale bakın. Tablo 3 ve 4'te gösterilen deneyler, düğüm girişi olarak kısmi yük özelliği ile gerçekleştirilmiştir. Bu özellik bir DFT hesaplamasının çıktısıdır ve dolayısıyla uygulanabilir bir ortamda kullanılamaz. Tablo 2'de rapor ettiğimiz en iyi performans sayıları bu özelliği içermemektedir.

Towers: Towers varyantını geliştirmekteki orijinal amacımız, eğitim süresini iyileştirmenin yanı sıra daha büyük grafiklerde eğitilebilecek bir model oluşturmaktı. Ancak, çok katlı yapının genelleme performansını iyileştirdiğine dair bazı kanıtlar da bulduk. Tablo 4'te, GG-NN + towers + set2set çıktısını mesafe kutuları kullanıldığında bir temel GGNN + set2set çıktısı ile karşılaştırıyoruz. Bu karşılaştırmayı hem ortak eğitim rejiminde hem de her hedef için tek bir model eğitildiğinde yapıyoruz. Towers modeli, her iki durumda da 13 hedeften 12'sinde temel modeli geçmiştir. Towers yapısının faydası, bir model topluluğu eğitmeye benzemesidir. Maalesef, towers ve kenar ağ ileti mesaj fonksiyonunu birleştirme çabalarımız performansı daha fazla artırmada başarısız olmuştur; muhtemelen bu kombinasyon eğitimi zorlaştırmaktadır. Tüm hedeflerdeki eğitim detayları ve hata oranları ek materyalde bulunabilir.

Tablo 2. Önceki Yaklaşımların (sol) MPNN temel değerleriyle (orta) ve yöntemlerimizle (sağ) karşılaştırılması

Ek Deneyler: Ön deneylerde, farklı zaman adımlarında ağırlık bağlamayı devre dışı bırakmayı denedik. Ancak, performansı artırmanın en etkili yolunun ağırlıkları bağlamak ve daha büyük bir gizli boyut d kullanmak olduğunu bulduk. Ayrıca, erken bir aşamada çift mesaj işlevinin kenar ağ işlevinden daha kötü performans gösterdiğini bulduk. Bu, başlangıçta çift mesaj kullanımından faydalanmak için tasarlanmış bir oyuncak yol bulma problemini içeriyordu. Ayrıca, 13 hedefte ortak olarak eğitildiğinde, kenar ağ işlevi 13 hedeften 11'inde çift mesajdan daha iyi performans gösteriyor ve çift mesaj için 3,98'e kıyasla 1,53'lük bir ortalama hata oranına sahip. Bu işlevi eğitmedeki zorluklar göz önüne alındığında, daha fazla araştırma yapmadık. Daha küçük eğitim setlerindeki performans için ek materyale bakın.

Tablo 3. Mekansal Bilgi Olmadan Eğitilen Modeller
Tablo 4. Kuleler ve Vanilya GG-NN (açık hidrojen yok)

9. Sonuç ve İleriki Çalışmalar

Sonuçlarımız, uygun mesaj, güncelleme ve çıktı fonksiyonlarına sahip Mesaj Geçişi Sinir Ağları’nın (MPNN’ler), moleküler özellikleri tahmin etmek için faydalı bir tümevarımsal önyargıya sahip olduğunu, birkaç güçlü temel modeli geride bıraktığını ve karmaşık özellik mühendisliği (feature engineering) ihtiyacını ortadan kaldırdığını göstermektedir. Ayrıca, sonuçlarımız, grafikteki düğümler arasında ana düğüm veya set2set çıktısı ile uzun menzilli etkileşimlere izin vermenin önemini de ortaya koymaktadır. Towers varyasyonu, bu modellerin daha ölçeklenebilir olmasını sağlarken, çok daha büyük grafikleri ölçeklemek için ek iyileştirmelere ihtiyaç duyulacaktır. Gelecek için önemli bir yön, eğitim setinde yer alanlardan daha büyük grafiklere genelleme yapabilen veya en azından grafik boyutları arasında genelleme ile ilgili sorunları ortaya çıkarmak için tasarlanmış karşılaştırma testleriyle çalışabilen MPNN’ler tasarlamaktır. Özellikle, uzamsal bilgi kullanıldığında daha büyük molekül boyutlarına genelleme yapmak zorlu bir görev gibi görünmektedir. İlk olarak, çiftler arası mesafe dağılımı atom sayısına büyük ölçüde bağlıdır. İkinci olarak, uzamsal bilgiyi kullanmanın en başarılı yollarımız, gelen mesajların sayısının da düğüm sayısına bağlı olduğu tamamen bağlantılı bir grafik oluşturmaktadır. İkinci sorunu ele almak için, gelen mesaj vektörleri üzerinde bir dikkat mekanizması eklemenin keşfedilmeye değer ilginç bir yön olabileceğine inanıyoruz.

Kaynaklar

Justin Gilmer, Samuel S. Schoenholz, Patrick F. Riley, Oriol Vinyals, George E. Dahl, (4 Apr 2017), Neural Message Passing for Quantum Chemistry:

[https://arxiv.org/abs/1704.01212]

--

--

Cahit Barkin Ozer
Cahit Barkin Ozer

Written by Cahit Barkin Ozer

Üretken YZ başta olmak üzere teknoloji alanındaki yenilikleri öğrenip sizlerle paylaşıyorum. Youtube Kanalım: https://www.youtube.com/@cbarkinozer

No responses yet