Derin Yarı-Gözetimli Öğrenme Algoritmalarının Gerçekçi Değerlendirmesi

20 min readDec 3, 2024

2019'da Google Brain tarafından yayımlanmış “Realistic Evaluation of Deep Semi-Supervised Learning Algorithms” makalesinin Türkçe çevirisidir.

Basit Açıklama

Bu makale ne hakkında?

Bu makale, yarı denetimli öğrenme (semi-supervised learning, SSL) adı verilen özel bir yapay zeka (YZ) türü hakkındadır. Yapay zeka, öğrenmek için örneklerden faydalanır. Genelde iki tür örnekle çalışır:

Etiketli veri: Bu, üzerinde doğru cevabın yazılı olduğu ders notları gibidir (veya bir köpek fotoğrafının altında “köpek” yazması gibi).
Etiketsiz veri: Bu, üzerinde cevap olmayan sorular gibi (veya sadece köpek fotoğrafı olsun ama altında ne olduğu yazmasın).

Gerçek hayatta etiketli veri toplamak zordur çünkü bir insan veriyi el yordamıyla etiketlemesi gerekmektedir. Ancak etiketsiz veri elde etmesi çok daha kolay bir veridir. Örneğin, internete her gün milyonlarca fotoğraf yüklenmektedir ancak bunlardan çok azı etiketli veridir.

Yarı denetimli öğrenme, hem etiketli veriyi (cevaplı ders notları) hem de etiketsiz veriyi (boş notlar) kullanarak yapay zekanın doğru tahminler yapmasını öğretmeye çalışır.

Yazarlar bu makaleyi neden yazdı?

Yazarlar, yapay zeka araştırmalarında bir sorun fark etti: Bilim insanları yarı denetimli öğrenme yöntemlerinin çok iyi olduğunu iddia ediyordu, ancak bu yöntemleri gerçekçi bir şekilde test etmiyorlardı. Bu arabanızı sadece mükemmel düz bir pistte test edip bu arabayla evden işe çok hızlı gidebilirim demek gibidir ancak gerçek hayat koşullarında yolda çukurlar bulunur, trafik nedeniyle sürekli yavaş gidersiniz ve kötü hava koşulları sizi yavaşlatır.

Bu makalede yazarlar:

Popüler yarı denetimli öğrenme yöntemlerini daha “gerçekçi” koşullarda test etmiştir.
Bu yöntemlerin, basit ve kolay yöntemlerden daha iyi olup olmadığı kontrol etdilmiştir.
Gelecekteki araştırmacılar için daha iyi test yöntemleri önerilmiştir.

Yazarlar ne yapmışlar?

Yazarlar, bilim insanlarının geliştirdiği birçok popüler yarı denetimli öğrenme yöntemine bakmışlar. Ardından, bu yöntemleri gerçek dünyadaki gibi test etmek için birkaç şey yaptılar:

Yarı denetimli öğrenmeyi “gerçek hayatta” test etmek:

Gerçek hayatta veriler genellikle mükemmel değildir. Örneğin: Etiketli verilerde hatalar olabilir (örneğin, bir köpeğe “kedi” demek gibi).
Yapay zeka hiç görmediği türde verilerle karşılaşabilir (örneğin, sadece köpek ve kedi fotoğraflarıyla çalışırken, bir anda egzotik hayvan fotoğrafları görmesi gibi).
Çok az etiketli veriye sahip olunabilir.
Yazarlar, yarı denetimli öğrenme yöntemlerini bu gibi karışık durumlarda test etmişlerdir.

Yarı denetimli öğrenmeyi basit yöntemlerle karşılaştırmak: Yazarlar ayrıca daha basit yöntemleri test etti (örneğin, sadece etiketli veriyi kullanmak veya veriye biraz gürültü/karışıklık eklemek). Böylece, karmaşık yarı denetimli öğrenme araçlarının gerçekten daha iyi olup olmadığını anlamaya çalıştılar.

Daha iyi deneyler için bir kontrol listesi oluşturmak: Gelecekte araştırmacılar için bazı kurallar önerdiler. Örneğin, testlerde gerçekçi veri kümeleri kullanmak, adil koşullarda çalışmak ve sonuçları dürüstçe raporlamak.

Ne buldular?

Karmaşık yöntemler her zaman daha iyi değildi: Bazı gelişmiş yarı denetimli öğrenme yöntemleri, gerçek dünyadaki durumlarda beklenildiği kadar iyi çalışmadı. Örneğin, sadece etiketli verilerle çalışmak gibi basit bir yöntem, genellikle daha karmaşık teknikler kadar iyi sonuç verdi.

Yarı denetimli öğrenme karışık durumlarda zorlandı: Etiketli verilerde hatalar olduğunda veya etiketsiz veriler farklı bir kaynaktan geldiğinde, yarı denetimli öğrenme yöntemleri beklenildiği kadar başarılı olamadı.

Gerçekçi testler önemli: Eğer yapay zekayı gerçekçi koşullarda test etmezseniz, mükemmel görünebilir. Ancak laboratuvardan çıkıp gerçek dünyada kullanıldığında başarısız olabilir.

Bu neden önemli?

Bir okul, “Bizim matematik uygulamamız en iyisi!” dese, ama bu uygulama yalnızca zaten çoğu soruyu bilen öğrencilerde işe yarasa, bu çok yararlı olur mu? Gerçek hayatta öğrencilerin farklı zorlukları vardır ve bu uygulamanın bunları çözebilmesi gerekir. Aynı şey yapay zeka için de geçerlidir: Bir sistemin işe yaradığını söylemek yeterli değildir, gerçek dünyada da işe yaradığından emin olmak gerekmektedir.

Bu makale araştırmacılara şunu diyor: “Eğer yeni bir yapay zeka yöntemi geliştirecekseniz, bunu zorlu, karışık durumlarda test edin. Yoksa bu yöntem gerçek dünyada işe yaramayabilir.”

Çıkarımlar (Dersler):

Basit tutun: Bazen basit yöntemler, karmaşık yöntemler kadar iyi çalışır. Her zaman işleri karmaşıklaştırmaya gerek yok.

Gerçekçi testler yapın: Yapay zekanın işe yarayıp yaramadığını öğrenmek istiyorsanız, bunu sadece temiz ve mükemmel verilerle değil, karışık, gerçekçi verilerle de test edin.

Araştırmada dürüst olun: Yazarlar, gelecekteki bilim insanlarından adil ve dürüst test yöntemleri kullanmalarını istiyor.

Öz

Yarı-denetimli öğrenme (SSL: Semi Supervised Learning), etiketlerin sınırlı veya edinilmesinin pahalı olduğu durumlarda etiketlenmemiş verileri değerlendirmek için güçlü bir çerçeve sağlar. Derin sinir ağlarına dayalı SSL algoritmaları son zamanlarda standart kıyaslama görevlerinde başarılı olduklarını kanıtladılar. Ancak, bu kıyaslamaların SSL algoritmalarının gerçek dünya uygulamalarında karşılaşacağı birçok sorunu ele almada başarısız olduğunu savunuyoruz. Yaygın olarak kullanılan çeşitli SSL tekniklerinin birleşik bir yeniden uygulamasını oluşturduktan sonra, bunları bu sorunları ele almak üzere tasarlanmış bir dizi deneyde test ediyoruz. Etiketlenmemiş veri kullanmayan basit temel performansın genellikle eksik bildirildiğini, SSL yöntemlerinin etiketli ve etiketsiz veri miktarına karşı duyarlılıkta farklılık gösterdiğini ve etiketlenmemiş veri kümesi dağılım dışı örnekler içerdiğinde performansın önemli ölçüde düşebileceğini görüyoruz. SSL araştırmalarını gerçek dünya uygulanabilirliğine yönlendirmeye yardımcı olmak için birleşik yeniden uygulama ve değerlendirme platformumuzu herkese açık hale getiriyoruz.

Giriş

Derin sinir ağlarının, geniş miktarda etiketli veriden yararlanarak belirli denetimli öğrenme problemlerinde insan düzeyinde veya insanüstü performansa ulaşabileceği defalarca gösterilmiştir. Ancak, bu başarıların bir bedeli vardır: Bu büyük veri kümelerini oluşturmak genellikle büyük ölçüde insan çabası (örnekleri manuel olarak etiketlemek), acı ve/veya risk (invaziv testler gerektiren tıbbi veri kümeleri için) veya finansal maliyet (etiketleyicileri işe almak ya da alanına özel veri toplamak için gerekli altyapıyı oluşturmayı) gerektirir. Birçok pratik problem ve uygulamada, yeterince büyük bir etiketli veri kümesi oluşturmak için gereken kaynaklara sahip olmayız, bu da derin öğrenme tekniklerinin yaygın benimsenmesini sınırlamaktadır. Veri eksikliğini ele almak için cazip bir yaklaşım yarı denetimli öğrenme (SSL) yöntemidir [6].

Denetimli öğrenme algoritmalarının aksine, tüm örnekler için etiketlere ihtiyaç duyan SSL algoritmaları, etiketlenmemiş örnekleri de kullanarak performanslarını artırabilir. SSL algoritmaları genellikle etiketlenmemiş örneklerden veri yapısı hakkında bilgi edinmenin bir yolunu sunar ve bu da etiket ihtiyacını azaltır. Bazı son çalışmalar [32, 50, 39], belirli durumlarda SSL’nin yalnızca denetimli öğrenmeye yaklaştığını, hatta mevcut bir veri kümesindeki etiketlerin önemli bir kısmı çıkarıldığında bile bunu başardığını göstermiştir. Bu sonuçlar, mevcut bir sınıflandırma veri kümesi (genellikle CIFAR-10 [31] veya SVHN [40]) alınarak, yalnızca küçük bir kısmının etiketli veri olarak kullanılması ve geri kalanının etiketlenmemiş olarak değerlendirilmesi ile gösterilmektedir. Daha sonra, etiketli ve etiketlenmemiş verilerle SSL kullanılarak eğitilmiş bir modelin doğruluğu, yalnızca küçük etiketli kısımda eğitilmiş bir modelin doğruluğu ile karşılaştırılır. Bu son başarılar doğal bir soruyu gündeme getiriyor: SSL yaklaşımları “gerçek dünya” ortamlarında uygulanabilir mi? Bu makalede, SSL tekniklerini değerlendirmenin bu fiili yolunun bu soruyu tatmin edici bir şekilde ele almadığını savunuyoruz. Amacımız, gerçek dünya problemlerine uygulanabilirliği daha iyi ölçtüğünü düşündüğümüz yeni bir deneysel metodoloji önererek bu soruya daha doğrudan cevap vermektir.

Bazı bulgularımız şunları içermektedir:

Hiperparametrelerin ayarlanması için eşit bir bütçe verildiğinde, SSL kullanımı ile yalnızca etiketli veri kullanımı arasındaki performans farkı genellikle bildirilenlerden daha küçüktür.
Ayrıca, dikkatlice seçilmiş düzenleme ile yalnızca küçük bir etiketli veri kümesi üzerinde eğitilen büyük bir sınıflandırıcı çok iyi bir doğruluğa ulaşabilir. Bu, farklı SSL algoritmalarının aynı temel model üzerinde değerlendirilmesinin önemini göstermektedir.
Bazı durumlarda, bir sınıflandırıcının farklı bir etiketli veri kümesinde önceden eğitilmesi ve ardından yalnızca ilgi veri kümesindeki etiketli veriler üzerinde yeniden eğitilmesi, incelediğimiz tüm SSL algoritmalarını geride bırakabilir.
Etiketlenmemiş veriler, etiketli verilerden farklı bir sınıf dağılımına sahip olduğunda SSL tekniklerinin performansı ciddi şekilde düşebilir.
Farklı yaklaşımlar, etiketli ve etiketlenmemiş veri miktarına karşı önemli ölçüde farklı hassasiyet seviyeleri sergilemektedir.
Gerçekçi şekilde küçük doğrulama kümeleri, farklı yöntemlerin, modellerin ve hiperparametre ayarlarının güvenilir karşılaştırılmasını engelleyebilir.

Ayrıca, makine öğreniminin birçok alanında olduğu gibi, yaklaşımların doğrudan karşılaştırılması, hiperparametrelerde, model yapısında, eğitimde vb. yapılan küçük değişikliklerin sonuçlar üzerinde orantısız bir etkiye sahip olabilmesi nedeniyle karmaşık hale gelir. Bu sorunu hafifletmek için, önerilen değerlendirme tekniklerimizi içeren çeşitli son teknoloji SSL yaklaşımlarının birleşik ve modüler bir yazılım yeniden uygulamasını sağlıyoruz. Makalenin geri kalanı şu şekilde yapılandırılmıştır: Bölüm 2’de önerilen metodolojimizin standart uygulamalara göre nasıl iyileştirmeler sağladığını açıklıyoruz. Bölüm 3’te, çalışmamıza dahil ettiğimiz modern SSL yaklaşımlarının genel bir görünümünü veriyoruz. Bu tartışmanın ardından, çeşitli SSL algoritmalarının gerçek dünya uygulanabilirliğini daha iyi incelemek için kapsamlı deneyler (Bölüm 4) gerçekleştiriyoruz. Analizimizi, derin öğrenme modellerini karşılaştırmak için en yaygın alan olan görüntü sınıflandırma görevleriyle sınırlıyoruz. Son olarak, Bölüm 5’te SSL tekniklerini değerlendirmenin somut önerileriyle sonuçlanıyoruz.

Geliştirilmiş Değerlendirme

Bu çalışmada, SSL (özdenetimli öğrenme) yöntemlerini değerlendirmek için kullanılan geleneksel deneysel prosedürlere birkaç iyileştirme yaptık. Bu prosedürler tipik olarak şu şekilde ilerler: Öncelikle, denetimli öğrenme için kullanılan yaygın bir veri kümesi (genellikle bir görüntü sınıflandırma veri kümesi) alınır ve veri kümesinin büyük kısmının etiketleri atılır. Daha sonra, etiketleri korunmuş veri kümesinin bir kısmı küçük etiketli veri kümesi D ve geri kalan kısmı yardımcı etiketsiz veri kümesi D_UL olarak ele alınır. Ardından, genellikle standart olmayan bir model eğitilir ve doğruluk, değiştirilmemiş test kümesi kullanılarak raporlanır. Veri kümesi ve korunan etiket sayısının seçimi, farklı makaleler arasında biraz standartlaşmıştır. Aşağıda, bu prosedürün gerçek dünya uygulamalarına daha uygun hale getirilebileceğini düşündüğümüz yolları sıraladık.

Ortak Bir Uygulama

Tüm SSL yöntemlerini karşılaştırmak için kullanılan temel mimarilerin ortak bir uygulamasını tanıttık. Bu, önceki çalışmalara kıyasla bir iyileştirme sunar, çünkü farklı çalışmalarda kullanılan veri kümeleri zamanla büyük ölçüde standart hale gelmiş olsa da, diğer deneysel ayrıntılar önemli ölçüde farklılık gösterir. Bazı durumlarda, basit bir 13 katmanlı evrişimli ağın farklı yeniden uygulamaları kullanılır [32, 39, 50] ve bu, uygulama detaylarında (parametre başlangıcı, veri ön işleme, veri artırma, düzenleme vb.) değişkenliğe neden olur. Ayrıca, eğitim prosedürü (optimizasyon yöntemi, eğitim adımlarının sayısı, öğrenme oranı düşüş planı vb.) standart değildir. Bu farklılıklar, yaklaşımlar arasında doğrudan karşılaştırmayı engeller. Bu sorunlar yalnızca SSL çalışmalarına özgü değildir; makine öğrenimi araştırmalarında daha büyük bir tekrarlanabilirlik krizini yansıtır [28, 23, 13, 35, 38].

P.2 Yüksek Kaliteli Denetimli Karşılaştırma
SSL’nin amacı, D ve D_{UL}’un kombinasyonunu kullanarak yalnızca D ile elde edilenden daha iyi bir performans elde etmektir. Karşılaştırmak için doğal bir referans, yalnızca D kullanılarak tamamen denetimli bir şekilde eğitilen aynı temel modeldir (hiperparametreleri değiştirilmiş olsa bile). Bu temel genellikle raporlanır ancak bazen göz ardı edilir. Dahası, tamamen denetimli modelden elde edilebilecek en iyi performansın elde edilip edilmediği her zaman açık değildir (ör. Laine & Aila [32] ve Tarvainen & Valpola [50], görünüşte aynı modeli kullanan ancak iki makale arasında doğrulukta %15’e varan farklılıklar gösteren denetimli bir temel raporlar). Denetimli temelimizin yüksek kaliteli olmasını sağlamak için, hem temel modelimizi hem de tüm SSL yöntemlerini optimize etmek için 1000 hiperparametre denemesi gerçekleştirdik.

P.3 Transfer Öğrenimine Karşılaştırma
Gerçek dünyada sınırlı verilerle başa çıkmanın yaygın bir yolu, ayrı ancak benzer büyük etiketli bir veri kümesi üzerinde eğitilmiş bir modeli “transfer” etmektir [12, 51, 9]. Bu genellikle yeni bir modelin parametrelerini, orijinal modelden alınan parametrelerle başlatarak ve ardından bu yeni modeli küçük veri kümesiyle “ince ayarlayarak” gerçekleştirilir. Bu yaklaşım yalnızca uygun bir kaynak veri kümesi mevcut olduğunda mümkün olsa da, güçlü, yaygın olarak kullanılan ve nadiren raporlanan bir karşılaştırma sağlar.

P.4 Sınıf Dağılım Uyumsuzluğunu Dikkate Almak
Mevcut tamamen etiketli bir veri kümesi alınarak etiketlerin bir kısmı atıldığında, D_{UL}’daki tüm üyeler, D’dekilerle aynı sınıflardan gelir. Bunun tersine şu durumu düşünün: On farklı yüzü ayırt etmek için bir model eğitmeye çalışıyorsunuz, ancak bu on yüzün her biri için yalnızca birkaç görüntünüz var. Sonuç olarak, veri kümenizi rastgele kişilerin yüz görüntülerinden oluşan büyük bir etiketsiz veri kümesiyle artırıyorsunuz. Bu durumda, D_{UL’daki görüntülerin herhangi birinin modelin sınıflandırması gereken on kişiden biri olması son derece olası değildir. SSL algoritmalarının standart değerlendirmesi bu olasılığı dikkate almaz. Bu sorun, dolaylı olarak örneğin [32] tarafından ele alınmıştır; burada CIFAR-10’dan (on sınıfa sahip doğal bir görüntü sınıflandırma veri kümesi) etiketli veriler, Tiny Images’dan (internet üzerinden toplanmış devasa bir görüntü koleksiyonu) etiketsiz verilerle artırılmıştır. Bu durum, test örneklerinin veri dağılımının eğitim dağılımından farklı olduğu “alan adaptasyonu” ile ilgili alana da bazı özellikler paylaşır [4, 16]. Biz, etiketli ve etiketsiz veri arasındaki sınıf dağılım farklılıklarının etkisini açıkça inceliyoruz.

P.5 Etiketli ve Etiketsiz Veri Miktarını Değiştirmek
Veri kümesi boyutunu değiştirmek için etiketi atılmış veri miktarını sistematik olarak değiştirmek yaygın bir uygulamadır [48, 43, 45, 50]. Ancak, D_{UL}’un boyutunu sistematik bir şekilde değiştirmek daha az yaygındır ve bu iki gerçekçi senaryoyu simüle edebilir: Birincisi, etiketsiz veri kümesinin devasa olduğu durum (ör. internetten alınan milyarlarca etiketsiz doğal görüntü kullanılarak bir doğal görüntü sınıflandırma görevinin artırılması); ikincisi, etiketsiz veri kümesinin de nispeten küçük olduğu durum (ör. tıbbi görüntülemede, hem veri elde etmenin hem de etiketlemenin pahalı olduğu yerler).

P.6 Gerçekçi Küçük Doğrulama Kümeleri
Yapay SSL veri kümesinin oluşturulma şeklinin olağandışı bir yan etkisi, doğrulama kümesinin (hiperparametreleri ayarlamak için kullanılan, ancak model parametreleri için kullanılmayan veriler) genellikle eğitim kümesinden önemli ölçüde daha büyük olmasıdır. Örneğin, standart SVHN [40] veri kümesi yaklaşık 7.000 etiketli doğrulama örneğine sahiptir. SVHN üzerinde SSL yöntemlerini değerlendiren birçok çalışma, eğitim veri kümesinden yalnızca 1.000 etiketi kullanırken, tam doğrulama kümesini korur. Doğrulama kümesi, eğitim kümesinden yedi kat daha büyük olur. Gerçek dünya uygulamalarında, bu büyük doğrulama kümesi bunun yerine eğitim kümesi olarak kullanılırdı. Bu yaklaşımın sorunu, hiperparametre ayarlaması için kullanılan herhangi bir nesnel değerlerin (ör. doğruluk), küçük bir doğrulama kümesinden gelen daha küçük örnekleme boyutu nedeniyle denemeler arasında önemli ölçüde daha gürültülü olmasıdır. Bu tür durumlarda, kapsamlı hiperparametre ayarlamaları, tutulan veri kümesi miktarının aşırı küçük olmasından dolayı büyük ölçüde anlamsız olabilir ve ek olarak önemli bir hesaplama maliyeti oluşturabilir. Küçük doğrulama kümelerinin model seçim kabiliyetini nasıl kısıtladığı, [6] ve [14]’te tartışılmıştır. Biz bunu bir adım öteye taşıyarak doğrulama kümesi boyutu ile model doğruluk tahminlerindeki varyans arasındaki ilişkiyi doğrudan analiz ediyoruz.

Yarı-Denetlenen Öğrenme Yöntemleri

Denetimli öğrenmede, bilinmeyen bir ortak dağılım p(x,y) üzerinden örneklenmiş bir girdi-hedef çiftleri (x,y)∈D içeren bir eğitim veri kümesi verilir. Amacımız, daha önce p(x) üzerinden görülmemiş örnekler için doğru hedef y’yi üretecek bir tahmin fonksiyonu fθ(x) üretmektir. Örneğin, θ’yı seçmek, fθ(x)=y ilişkisinin (x,y)∈D için ne ölçüde gerçekleştiğini yansıtan bir kayıp fonksiyonunu optimize etmek anlamına gelebilir.

Yarı denetimli öğrenmede (SSL), ayrıca p(x) üzerinden örneklenmiş, etiketlenmemiş giriş veri noktalarının x∈DUL koleksiyonu da verilir. Amacımız, D_{UL}’dan elde edilen verileri kullanarak, yalnızca D’yi kullanarak elde edilecekten daha doğru bir tahmin fonksiyonu üretmektir. Geniş bir bakış açısıyla, SSL’nin amacı, fθ(x)’yi p(x)’in yapısı hakkındaki bilgilerle zenginleştirmek için D_{UL}’u kullanmaktır. Örneğin, D_{UL}, veri “manifoldunun” şeklini anlamak için ipuçları sağlayabilir ve bu da farklı olası hedef değerler arasındaki karar sınırının daha iyi tahmin edilmesine yol açabilir.

Bu kavramın basit bir oyuncak problem üzerindeki tasviri, Şekil 1'de gösterilmiştir. Burada, etiketli verilerin yetersizliği iki sınıf arasındaki karar sınırını belirsiz hale getirirken, ek etiketlenmemiş veriler, etkili bir SSL algoritması tarafından keşfedilebilecek net bir yapı ortaya koymaktadır.

Şekil 1: Bölüm 3'te açıklanan SSL yaklaşımlarının “iki ay” veri kümesindeki davranışı. “Mean Teacher” ve “Temporal Ensembling” (ek A.1.2) yöntemlerini, Π-Model (ek A.1.1) gibi davrandıkları için dahil etmedik. Her bir yaklaşım, üç gizli katmana ve her birinde 10 ReLU birimine sahip bir MLP’ye (çok katmanlı algılayıcıya) uygulandı. Yalnızca etiketli verilerle (büyük siyah ve beyaz noktalar) eğitildiğinde, karar sınırı (kesikli çizgi), ek etiketlenmemiş verilerle (küçük gri noktalarla) gösterildiği gibi, veri “manifoldunun” konturlarını takip etmez. Basitleştirilmiş bir bakış açısıyla, SSL’in amacı, etiketlenmemiş verilerden yararlanarak, verinin temel yapısını daha iyi yansıtan bir karar sınırı oluşturmaktır.

SSL yöntemlerinin kapsamlı bir incelemesi bu makalenin kapsamı dışında kalmaktadır; ilgilenen okuyucuları [53, 6] kaynaklarına yönlendiriyoruz. Bunun yerine, yalnızca bir kayıp terimi ekleyerek bir sinir ağının eğitimine dahil olan ve diğer tüm yönleriyle tam denetimli ayarlarda kullanılan eğitim ve modeli değiştirmeyen yöntem sınıfına odaklanıyoruz. Bu yöntemlere odaklanmamızın nedeni, pragmatik olarak, hem açıklamalarının ve uygulanmalarının basit olması hem de şu anda görüntü sınıflandırma veri kümelerinde SSL için en son teknolojiyi temsil etmeleridir. Genel olarak, ele aldığımız yöntemler iki sınıfa ayrılmaktadır:

Tutarlılık düzenlemesi (Consistency regularization): Veri noktalarının x∈DUL üzerindeki gerçekçi bozulmaların fθ(x)’in çıktısını önemli ölçüde değiştirmemesi gerektiğini zorunlu kılan yöntemler.
Entropi minimizasyonu (Entropy minimization): Etiketlenmemiş veriler üzerinde daha güvenilir tahminleri teşvik eden yöntemler.

Bu yöntemleri genel terimlerle şimdi açıklıyoruz. Daha fazla ayrıntı ve diğer SSL yöntemlerine ilişkin ek referanslar için Ek A’ya bakınız.

Π-Model

Tutarlılık düzenlemesini uygulamanın en basit durumu, tahmin fonksiyonu fθ(x)’in kendisinin stokastik olduğu durumdur, yani aynı girdi x için farklı çıktılar üretebilir. Bu durum, fθ(x)’in bir sinir ağı olduğu eğitim sırasında, veri artırma (data augmentation), dropout ve gürültü ekleme gibi yaygın düzenleme teknikleri nedeniyle oldukça yaygındır. Π-Model [32, 46], ağın x∈DUL için farklı geçişlerdeki çıktılarına olan mesafenin küçük olmasını teşvik eden bir kayıp terimi ekler.

Mean Teacher

Π-Model yaklaşımının bir zorluğu, eğitim sırasında hızla değişebilen ve potansiyel olarak kararsız olan “hedef” tahmine, yani ikinci stokastik ağ tahminine dayanmasıdır. Bu nedenle, [50], önceki eğitim adımlarındaki parametrelerin üstel hareketli ortalamasını kullanarak x∈DUL için daha kararlı bir hedef çıktı fˉθ(x) elde etmeyi önermiştir.

Sanal Adversaryal Eğitim (Virtual Adversarial Training — VAT)

fθ(x)’in yerleşik stokastikliğine dayanmaktansa, VAT [39], tahmin fonksiyonunun çıktısını en çok etkileyecek şekilde x’e eklenecek küçük bir bozulma r_{adv}’yi doğrudan yaklaştırır.

Entropi Minimizasyonu (EntMin)

EntMin [21], tüm etiketlenmemiş örnekler için sınıflarından bağımsız olarak ağın “güvenilir” (düşük entropili) tahminler yapmasını teşvik eden bir kayıp terimi ekler.

Pseudo-Labeling

Pseudo-labeling [34], eğitim boyunca tahmin fonksiyonunu kullanarak D_{UL} için “sözde etiketler” (pseudo-labels) üretir. Sınıf olasılığı belirli bir eşik değerinden büyük olan sözde etiketler, D_{UL} üzerinde standart bir denetimli kayıp fonksiyonu için hedefler olarak kullanılır.

Deneyler

Tablo 1: Önerilen birleşik yeniden uygulamamızı kullanarak, CIFAR-10'un 4.000 etiket hariç tümü ve SVHN’nin 1.000 etiket hariç tümü kaldırılmış standart kıyaslamalarında çeşitli SSL yaklaşımları tarafından elde edilen test hata oranları. “Gözetimli”, herhangi bir etiketlenmemiş veri olmadan CIFAR-10 ve SVHN’den sırasıyla yalnızca 4.000 ve 1.000 etiketli veri noktasının kullanılması anlamına gelir. VAT ve EntMin sırasıyla Sanal Saldırgan Eğitim ve Entropi Küçültme anlamına gelir (bkz. bölüm 3).

Bu bölümde SSL tekniklerinin değerlendirilmesindeki sorunları ele alıyoruz. Bölüm 3’te açıklanan yöntemlerin ortak bir model mimarisi ve eğitim prosedürü kullanılarak birleşik bir yeniden uygulamasını oluşturuyoruz. Amacımız, en son teknoloji sonuçlar üretmek değil, aksine ortak bir çerçevede titiz bir karşılaştırmalı analiz sağlamaktır. Ayrıca, model mimarimiz ve eğitim hiperparametrelerimiz geçmişte SSL yöntemlerini test etmek için kullanılanlardan farklı olduğu için, sonuçlarımız doğrudan geçmiş çalışmalarla karşılaştırılabilir değildir ve bu nedenle bağımsız olarak değerlendirilmelidir (tam karşılaştırma için Ek D’ye bakınız). Yeniden uygulamamızı, bölüm 2’deki tek tek sorunların her birine odaklanan bir dizi deneyi gerçekleştirdiğimiz tutarlı bir test ortamı olarak kullanıyoruz.

4.1 Yeniden Üretim
Yeniden uygulamamız için modern, yaygın olarak kullanılan ve görüntü sınıflandırması üzerinde çalışan bir uygulayıcı için makul bir seçim olacak standart bir model seçtik. Bu, belirli bir SSL tekniğiyle iyi çalışacak şekilde özel olarak tasarlanmış bir mimari kullanma olasılığını ortadan kaldırır. Geniş çapta benimsenmesi ve erişilebilirliği nedeniyle bir Wide ResNet [52] seçtik. Özellikle, derinliği 28 ve genişliği 2 olan, toplam normalizasyonu (batch normalization) [25] ve sızdırmalı (leaky) ReLU doğrusal olmayanlıklarını [36] içeren “WRN-28–2” kullandık. WRN-28–2 için standart spesifikasyondan sapmadık, bu nedenle model detayları için [52]’ye atıfta bulunuyoruz. Eğitim için, yaygın olarak kullanılan Adam optimizer’ı [29] seçtik. Tüm veri kümeleri için düzenleme, veri artırma ve ön işleme konularında standart prosedürleri izledik; ayrıntılar Ek B’dedir.

Modeli göz önünde bulundurarak, bölüm 3’teki her SSL yaklaşımını uyguladık. İncelediğimiz tüm tekniklerin adil ve eşit şekilde ele alındığından ve modelimiz altında en iyi performansın raporlandığından emin olmak için büyük ölçekli bir hiperparametre optimizasyonu gerçekleştirdik. Etiketlenmemiş verileri kullanmayan “tamamen denetimli” bir temel dahil olmak üzere her SSL tekniği için Google Cloud ML Engine’in hiperparametre ayarlama hizmetini [18] kullanarak Gaussian Process tabanlı siyah kutu optimizasyonunun 1000 denemesini gerçekleştirdik. Her SSL algoritmasına özgü hiperparametrelerin yanı sıra yaklaşımlar arasında paylaşılan hiperparametreler üzerinde optimizasyon yaptık.

Her SSL yaklaşımını, yaygın olarak rapor edilen SVHN [40] (yalnızca 1000 etiket bırakılarak) ve CIFAR-10 [31] (yalnızca 4000 etiket bırakılarak) görüntü sınıflandırma karşılaştırma testlerinde test ettik. Bu, standart doğrulama kümesi boyutları kullanıldığında CIFAR-10 ve SVHN için sırasıyla 41.000 ve 64.932 etiketlenmemiş görüntü bırakır (bkz. Ek B). Hiperparametreleri, her veri kümesinin standart doğrulama kümesindeki sınıflandırma hatasını en aza indirmek için optimize ettik, bu yaygın bir uygulamadır (bölüm 4.6’da eleştirel olarak değerlendiriyoruz).

Kara kutu hiperparametre optimizasyonu, farklı veri kümeleri ve SSL teknikleri arasında gereksiz yere değişiklik gösteren sezgisel olmayan hiperparametre ayarları üretebilir. Bu nedenle, her veri kümesi/SSL yaklaşımı kombinasyonu için bulunan en iyi çözümleri denetledik ve daha basit, birleşik bir hiperparametre kümesi tasarladık. Hiperparametreler, farklı SSL yaklaşımları arasında paylaşılıyorsa ve ayarlama hizmeti tarafından bulunanlarla karşılaştırılabilir performans elde ediyorsa seçildi. Birleştirme sonrası, farklı SSL algoritmaları arasında yalnızca öğrenme oranı, tutarlılık katsayısı ve belirli bir algoritmaya özgü hiperparametreler (ör. VAT’nin hiperparametresi) farklılık gösterdi. Bu hiperparametre ayarlarının bir dökümü Ek C’de bulunabilir. Seçtiğimiz hiperparametre ayarları için en düşük doğrulama hatası noktasındaki test hatasını tablo 1’de rapor ediyoruz. Bu hiperparametre ayarını tüm deneylerimizde değiştirmeden kullanıyoruz.

4.2 Tamamen Denetimli Temeller
Tamamen denetimli temel modellerimiz için aynı hiperparametre optimizasyon denemesi bütçesini kullanarak, P.2 maddesini başarıyla ele aldığımıza inanıyoruz. Karşılaştırma için, tablo 2 önceki çalışmalarda listelenen tamamen denetimli temel ve SSL hata oranlarını göstermektedir. Çalışmamızda, tamamen denetimli temel ile SSL ile elde edilenler arasındaki farkın literatürde genellikle rapor edilenden daha küçük olduğunu görüyoruz. Örneğin, [32] CIFAR-10’da 4000 etiketle tamamen denetimli bir temel hata oranını %34,85 olarak bildirirken, SSL kullanımıyla bu oran %12,36’ya düşürülmüştür; aynı yaklaşım için iyileştirmemiz %20,26’dan (tamamen denetimli) %16,37’ye (SSL ile) düşmüştür.

Tablo 2: Hata oranında tam denetlenenden (etiketlenmemiş veri yok) SSL’ye bildirilen değişiklik. KDV için sonuçları bildirmiyoruz çünkü [39]’da tam denetlenen bir temel raporlanmadı. Ayrıca [46]’daki SVHN sonuçlarını da dahil etmedik çünkü 1000 yerine 732 etiketli örnek kullanıyorlar

Tablo 3: SSL ve transfer öğrenimi kullanılarak hata oranının karşılaştırılması. Entropi Minimizasyonu ile VAT, deneylerimizde CIFAR10'da en iyi performans gösteren yöntemdi. “Çakışma yok”, CIFAR-10'daki sınıflara benzer sınıflarda eğitilmemiş bir ImageNet modelinden aktarmayı ifade eder (ayrıntılar için bölüm 4.3'e bakın)

Bu sorgulamayı daha da ileriye taşıyabiliriz: Düzenleme, veri artırımı ve eğitim planına sahip bir model tasarlayıp, herhangi bir etiketlenmemiş veri kullanmadan SSL (Semi-Supervised Learning) tekniklerinin performansını yakalayabilir miyiz? Elbette, bu modeli farklı modellerle kullanılan SSL yaklaşımlarıyla karşılaştırmak adil olmaz; ancak tam denetimli performansın üst sınırını, gelecekteki çalışmalar için bir ölçüt olarak anlamak istiyoruz. Kapsamlı deneyler sonucunda, güçlü düzenleme özelliklerinden dolayı [17]’deki büyük Shake-Shake modelini seçtik. Veri artırımı için, [22]’de belirtildiği gibi her bir yandan 4 piksel sıfır doldurma sonrası rastgele yatay çevirme ve rastgele kırpma içeren standart bir plan kullandık ve 16 piksel uzunluğunda bir yama ile kesme düzenlemesi (cutout regularization) uyguladık. Eğitim ve düzenleme ise [17]’deki gibi olup, 0.025 öğrenme oranı ve 0.0025 ağırlık çürümesi faktörü kullanılarak gerçekleştirildi. CIFAR-10'dan 4.000 etiketli veri noktasında, bu model 5 bağımsız çalışmada ortalama %13.4 test hatası elde etti. Bu sonuç, SSL algoritmalarının değerlendirilmesinde temel modelin önemini vurgulamakta ve farklı algoritmaların karşılaştırılmasında aynı modelin kullanılmasının gerekli olduğunu tekrar ortaya koymaktadır.

4.3 Transfer Öğrenme

P.2 maddesindeki noktayı daha da ileri götürerek, az verili senaryolarda sıkça kullanılan ancak SSL çalışmalarında genellikle göz ardı edilen önceden eğitilmiş bir sınıflandırıcı kullanma tekniğini inceledik. Standart WRN-28–2 modelimizi, CIFAR-10'un yerel boyutu olan 32x32'ye küçültülmüş ImageNet [10] üzerinde eğittik [7]. Eğitimde, 4.1 bölümünde bildirilen denetimli temel modellerle aynı hiperparametreleri kullandık. Daha sonra modeli CIFAR-10'dan 4.000 etiketli veri noktası kullanarak ince ayar yaptık. Tablo 3'te gösterildiği gibi, sonuçta elde edilen model test kümesinde %12.09 hata oranı elde etti. Bu oran, bu ağı kullanan herhangi bir SSL tekniğinin elde ettiği hata oranından daha düşüktür ve transfer öğrenmenin, uygun bir etiketli veri kümesi mevcut olduğunda, tercih edilebilir bir alternatif olabileceğini göstermektedir. Model mimarimizi veya hiperparametrelerimizi bu transfer öğrenme sonucunu geliştirmek için ayarlamadığımızı belirtmek önemlidir sadece SSL deneylerimizden elde edilen temel modeli transfer öğrenmede kullandık. Bu, %12.09 hata oranının, transfer öğrenmenin bu bağlamdaki potansiyel performansının muhafazakar bir tahmini olduğunu göstermektedir.

ImageNet ve CIFAR-10'un birçok ortak sınıfa sahip olduğunu belirtmek, bu sonucun transfer öğrenmenin en iyi durum uygulamasını yansıtıyor olabileceğini ima eder. Transfer öğrenme performansını sınıf örtüşmesinin ne kadar etkilediğini test etmek için, CIFAR-10 sınıflarından herhangi biriyle benzer olan 252 ImageNet sınıfını (Ek F’de listelenmiştir) çıkardıktan sonra deneyi tekrar ettik. Performans %12.91'e düşerek orta düzeyde bir bozulma gösterdi ve incelediğimiz en iyi SSL tekniği ile karşılaştırılabilir bir düzeye ulaştı. Ayrıca, transfer öğrenmeyi ImageNet’ten SVHN’ye uyguladık, ki bu, önemli bir alan transferi gerektiren çok daha zorlu bir ortamı yansıtmaktadır. SVHN’ye transfer yaparken ikna edici sonuçlar elde edemedik, bu da transfer öğrenmenin başarısının, iki veri kümesinin ne kadar yakından ilişkili olduğuna büyük ölçüde bağlı olabileceğini göstermektedir. Daha somut olarak, bu öncelikle, ayrı, ilgili ve etiketli bir veri kümesinde gerçekleştirilen transfer öğrenmenin, SSL’in etiketlenmemiş veriler kullanarak sağlayabileceğinden daha iyi bir öğrenme sinyali sağlayabileceğini göstermektedir. Gelecek çalışmalarda transfer öğrenme ve SSL’nin kombinasyonunu keşfetmekle ilgileniyoruz.

4.4 Sınıf Dağılımı Uyumsuzluğu

Şimdi, etiketli ve etiketlenmemiş verilerin aynı temel dağılımdan (örneğin doğal görüntüler) geldiği, ancak etiketlenmemiş verilerin etiketli verilerde bulunmayan sınıflar içerdiği durumu inceliyoruz. Bu ayar, bölüm 3'te verilen SSL’nin katı tanımını ihlal etmektedir; ancak P.4 maddesinde açıklandığı gibi, yine de SSL için yaygın bir kullanım durumunu temsil etmektedir (örneğin, bir yüz tanıma veri kümesini, etiketli kümede olmayan kişilerin etiketlenmemiş görüntüleriyle genişletmek). Bunu test etmek için, CIFAR-10'un hayvan sınıflarında (kuş, kedi, geyik, köpek, kurbağa, at) 6 sınıf sınıflandırma gerçekleştirerek, ortak test ortamımızda sınıf örtüşmesini sentetik olarak değiştiriyoruz. Etiketlenmemiş veriler dört sınıftan geliyor bu dört sınıfın altıya etiketli sınıflardan kaçının dahil olduğunu değiştirerek sınıf dağılımı uyumsuzluğunu modüle ediyoruz. Ayrıca, hiçbir etiketlenmemiş veri kullanmayan tamamen denetimli bir modelle de karşılaştırıyoruz. Daha önce olduğu gibi, CIFAR-10 için sınıf başına 400 etiket kullanarak 2400 etiketli örnek elde ettik. Sonuçlarımız Şekil 2'de gösterilmektedir. İlginç bir şekilde, uyumsuz bir sınıf kümesinden etiketlenmemiş veri eklemenin, hiç etiketlenmemiş veri kullanılmamasına kıyasla performansa zarar verebileceğini gösterdik (Şekil 2'de siyah noktalı çizginin üzerindeki noktalar). Bu, çekirdek öğrenme göreviyle yeterince ilgisizse, etiketlenmemiş veri elde etmek yerine daha büyük bir maliyeti ödeyerek etiketli veri elde etmenin daha tercih edilebilir olabileceğini ima etmektedir. Ancak, bu deneylerde hiperparametreleri yeniden ayarlamadık; bunu yaparak farkın daraltılabileceği olasıdır.

4.5 Verinin Miktarını Değiştirme

Pek çok SSL tekniği yalnızca şu ana kadar incelediğimiz temel ayarlarda, yani CIFAR-10’da 4.000 etiket ve SVHN’de 1.000 etiket ile test edilmektedir. Ancak, etiketli verinin miktarını değiştirmenin, çok az etiketli veri rejiminde performansın nasıl azaldığını ve yöntemin veri kümesindeki tüm etiketlerle eğitim yapma performansına ne zaman ulaşabileceğini test ettiğini savunuyoruz. Bu nedenle, hem SVHN hem de CIFAR üzerinde farklı etiketli veri miktarlarıyla deneyler yaptık; sonuçlar Şekil 4’te gösterilmektedir. Genel olarak, tüm SSL tekniklerinin performansının etiket sayısı arttıkça birbirine yakınsadığını görüyoruz. SVHN üzerinde, VAT etiketsiz veri miktarından bağımsız olarak tutarlı bir performans sergilerken, Π-Model’in performansı etiket sayısı azaldıkça giderek kötüleşmektedir. Daha önce olduğu gibi, bu sonuçların yalnızca belirli mimarimize ve hiperparametre ayarlarımıza uygulanabilir olduğunu ve her algoritmanın davranışı hakkında genel bir içgörü sağlamayabileceğini vurguluyoruz.

Başka bir olasılık ise etiketsiz veri miktarını değiştirmektir. Ancak, CIFAR-10 ve SVHN veri kümelerini izole kullanmak, mevcut etiketsiz veri miktarına bir üst sınır koymaktadır. Neyse ki, SVHN, etiketsiz veri olarak kullanılan 531.131 ek rakam görüntüsü içeren “SVHN-extra” veri kümesi ile dağıtılmaktadır [50]. Benzer şekilde, “Tiny Images” veri kümesi, [32]’de olduğu gibi CIFAR-10'u seksen milyon ek etiketsiz görüntüyle destekleyebilir, ancak bu aynı zamanda, görüntülerin mutlaka CIFAR-10 tarafından kapsanan sınıflardan olmaması nedeniyle etiketli ve etiketsiz veri arasında sınıf dağılımı uyumsuzluğu oluşturur. Bu nedenle, bu makalede yardımcı etiketsiz veri için Tiny Images’ı dikkate almıyoruz.

SVHN üzerinde, SVHN-extra’dan farklı miktarlarda etiketsiz veri ile 1.000 etiketle her SSL tekniğinin performansını değerlendirdik; sonuçlar Şekil 3’te gösterilmektedir. Beklendiği gibi, etiketsiz veri miktarını artırmak SSL tekniklerinin performansını iyileştirme eğilimindedir. Ancak, 80.000 etiketsiz örnek mevcut olduğunda, performansın algoritmalar genelinde tutarlı bir şekilde sabitlendiğini gördük. Ayrıca, etiketsiz veri miktarı arttıkça Pseudo-Labeling ve Π-Model için performansın biraz düştüğünü fark ettik. Daha geniş bir açıdan, farklı SSL tekniklerinin değişen veri miktarlarına karşı oldukça farklı düzeylerde hassasiyet gösterdiğini bulduk.

4.6 Küçük Doğrulama Kümeleri

Yukarıdaki tüm deneylerde (ve bildiğimiz kadarıyla literatürdeki yakın tarihli deneylerde), hiperparametreler, eğitim kümesinin etiketli kısmından önemli ölçüde daha büyük olan bir doğrulama kümesi üzerinde ayarlandı. Bu durum, SSL algoritmalarına, doğrulama kümesinin daha küçük olacağı gerçek dünya senaryolarına kıyasla gerçekçi olmayan bir avantaj sağlayabilir. Hoeffding eşitsizliğini [24] kullanarak, farklı yaklaşımların performansını güvenilir bir şekilde ayırt etmek için gerekli doğrulama örneklerinin teorik bir tahminini çıkarabiliriz.

Şekil 2: Etiketli ve etiketsiz verilerdeki sınıflar arasında değişen örtüşmeyle CIFAR10'daki (altı hayvan sınıfı) her SSL tekniği için test hatası. Örneğin, “%25”te, etiketsiz verilerdeki dört sınıftan biri etiketli verilerde mevcut değildir. “Gözetimli”, etiketsiz veri kullanılmaması anlamına gelir. Gölgeli bölgeler, beş deneme boyunca standart sapmayı gösterir.

Şekil 3: SVHN’de 1.000 etiket ve SVHN-extra’dan değişen miktarda etiketlenmemiş görüntü ile her SSL tekniği için test hatası. Gölgeli bölgeler beş deneme boyunca standart sapmayı gösterir. X ekseni logaritmik bir ölçekte gösterilir.

Şekil 4: Etiketli veri miktarı değiştikçe SVHN ve CIFAR-10'daki her SSL tekniği için test hatası. Gölgeli bölgeler beş deneme boyunca standart sapmayı gösterir. X ekseni logaritmik bir ölçekte gösterilir.

Burada Vˉ, doğrulama hatasının ampirik tahminini; E[V], bunun varsayımsal gerçek değerini; p, tahminimiz ile gerçek değer arasındaki istenen maksimum sapmayı ve n, doğrulama kümesindeki örnek sayısını ifade etmektedir. Bu analizde doğrulama hatasını, doğrulama kümesindeki bir örneğin doğru sınıflandırılıp sınıflandırılmadığını belirten bağımsız ikili gösterge değişkenlerinin ortalaması olarak ele alıyoruz. Örneğin, doğrulama hatası tahminimizin gerçek değerden mutlak olarak %1’den az sapmasını %95 güvenle sağlamak istiyorsak, yaklaşık 20.000 doğrulama örneğine ihtiyaç duyarız. Bu oldukça moral bozucu bir tahmindir, çünkü Tablo 1’de rapor edilen farklı SSL algoritmalarının test hatası farkı genellikle %1’e yakın veya daha küçüktür, ancak 20.000, eğitim kümelerinde sağlanan örneklerin kat kat fazlasıdır. Bu teorik analiz, doğrulama doğruluğunun bağımsız değişkenlerin ortalaması olduğu varsayımına dayandığı için gerçekçi olmayabilir. Bu olguyu ampirik olarak ölçmek için, her bir SSL yaklaşımı ile 1.000 etiketle SVHN üzerinde eğitilen temel modelleri, farklı boyutlardaki doğrulama kümelerinde değerlendirdik. Bu sentetik küçük doğrulama kümeleri, tam SVHN doğrulama kümesinden rastgele ve çakışmasız bir şekilde örneklendi.

Her bir yöntem için rastgele seçilen 10 doğrulama kümesi üzerinde doğrulama hatasının ortalamasını ve standart sapmasını Şekil 5’te gösteriyoruz. Eğitim kümesi ile aynı boyutta (%100) doğrulama kümeleri için yöntemler arasında bir miktar fark gözlemlenebilir. Ancak, eğitim kümesinin boyutunun %10’u kadar gerçekçi bir doğrulama kümesi boyutu için, modellerin performansı arasında ayrım yapmak mümkün değildir. Bu durum, büyük bir doğrulama kümesi üzerinde yoğun hiperparametre ayarlarına dayanan SSL yöntemlerinin gerçek dünyada sınırlı bir uygulanabilirliğe sahip olabileceğini göstermektedir. Çapraz doğrulama bu sorunu azaltmaya yardımcı olabilir, ancak varyansı azaltma etkisi yetersiz kalabilir ve kullanımı N-kat daha fazla hesaplama yükü getirebilir. Bu deneye yönelik olası bir itiraz, aynı doğrulama kümesinde ölçüldüğünde farklı SSL tekniklerinin doğruluğu arasında güçlü bir korelasyon olabileceğidir. Eğer durum böyleyse, ilkeli model seçimi mümkün olabilir çünkü gerekli olan tek şey bir model sınıfındaki en iyiyi seçmek, her modelin beklenen hatasını tam olarak tahmin etmek değil. Bu itirazı dikkate almak için, Şekil 6’da her bir SSL modeli ile karşılaştırma noktası olarak rastgele seçilen Π-model arasındaki doğrulama hatası farkının ortalamasını ve standart sapmasını gösteriyoruz.

Şekil 5: Değişen boyutlarda 10 rastgele örneklemlenmiş örtüşmeyen doğrulama kümesi üzerindeki ortalama doğrulama hatası. Her SSL yaklaşımı için, her rastgele örneklemlenmiş doğrulama kümesinde aynı modeli yeniden değerlendirdik. 10 küme üzerindeki doğrulama hatasının ortalaması ve standart sapması sırasıyla çizgiler ve gölgeli bölgeler olarak gösterilmiştir. Modeller 1.000 etiketli SVHN üzerinde eğitilmiştir. Doğrulama kümesi boyutları eğitim boyutuna göre listelenmiştir (ör. %10, 100 boyutlu bir doğrulama kümesini gösterir). X ekseni logaritmik bir ölçekte gösterilmiştir.

Şekil 6: Değişen büyüklükteki 10 rastgele örneklenmiş örtüşmeyen doğrulama kümesi üzerindeki bağıl hatanın ortalaması ve standart sapması. Deneysel kurulum, aşağıdaki değişiklik dışında Şekil 5'teki kurulumla aynıdır: Ortalama ve standart sapma, mutlak doğrulama hatası yerine Π-modeline kıyasla doğrulama hatasındaki fark üzerinden hesaplanır. X ekseni logaritmik bir ölçekte gösterilir.

Bu ayar altında gerçekçi olarak küçük doğrulama kümeleri için, küçük doğrulama kümeleriyle hata sınırları arasındaki örtüşme, farklı modeller için hata arasındaki farkı hala aşmaktadır. Bu nedenle, gerçekçi olarak küçük doğrulama kümeleriyle model seçiminin uygulanabilir olmayabileceğini hala savunuyoruz.

Sonuçlar ve Öneriler

Deneylerimiz, SSL (öz-denetimli öğrenme) için standart değerlendirme uygulamalarının gerçekçi olmadığını gösteren güçlü kanıtlar sunmaktadır. Gerçek dünya uygulamalarını daha iyi yansıtmak için değerlendirmede hangi değişiklikler yapılmalıdır? SSL algoritmalarını değerlendirmek için önerilerimiz şunlardır:

SSL yaklaşımlarını karşılaştırırken aynı temel modeli kullanın. Model yapısındaki veya hatta uygulama detaylarındaki farklılıklar sonuçları büyük ölçüde etkileyebilir.
Geçerli olduğu durumlarda, iyi ayarlanmış tam denetimli ve transfer öğrenme performansını karşılaştırma için temel olarak rapor edinin. SSL’nin hedefi, tam denetimli ayarları önemli ölçüde aşmak olmalıdır.
Sınıf dağılımı uyumsuzluğunun sistematik olarak değiştiği durumlarda sonuçları rapor edin. İncelediğimiz SSL tekniklerinin, etiketlenmiş verilerle aynı sınıflardan gelmeyen etiketlenmemiş veriler olduğunda hepsinin zarar gördüğünü gösterdik. Bu, bildiğimiz kadarıyla ciddi şekilde az çalışılmış bir senaryo.
Performansı rapor ederken hem etiketlenmiş hem de etiketlenmemiş veri miktarını değiştirin. İdeal bir SSL algoritması, çok az etiketlenmiş veriyle bile etkili olmalı ve ek etiketlenmemiş verilerden faydalanmalıdır. Özellikle, performansı geniş etiketlenmemiş veri rejiminde test etmek için SVHN ile SVHN-Extra’yı birleştirmenizi öneriyoruz.
Hiperparametreleri gerçekçi olmayan şekilde büyük bir doğrulama kümesinde aşırı ayarlamaktan kaçının. Bir SSL yöntemi, model veya görev bazında iyi performans göstermek için önemli ölçüde ayar gerektiriyorsa, doğrulama kümeleri gerçekçi olarak küçük olduğunda kullanışlı olmayacaktır.

Keşiflerimiz ayrıca, SSL’nin uygulayıcılar için en muhtemel doğru seçim olduğu ayarlarla ilgili ipuçları da sunmaktadır:

Benzer alanlardan gelen yüksek kaliteli etiketlenmiş veri kümeleri ince ayar için mevcut olmadığında.
Etiketlenmiş veri, etiketlenmemiş veri havuzundan bağımsız ve aynı dağılımdan (i.i.d.) örneklenerek toplandığında, (biraz) farklı bir dağılımdan gelmediğinde.
Etiketlenmiş veri kümesi, doğrulama doğruluğunu doğru bir şekilde tahmin edecek kadar büyük olduğunda; bu, model seçimi yaparken ve hiperparametreleri ayarlarken gereklidir.

SSL, son zamanlarda büyük bir başarı serisi yakaladı. Umuyoruz ki, bulgularımız ve kamuya açık birleşik uygulamamız, bu başarıların gerçek dünyaya doğru ilerlemesine yardımcı olur.

Reference

Avital Oliver, Augustus Odena, Colin Raffel, Ekin D. Cubuk, Ian J. Goodfellow, (24 Apr 2018), Realistic Evaluation of Deep Semi-Supervised Learning Algorithms

[https://arxiv.org/abs/1804.09170]