Geoffrey Hinton'ın geri yayılım, Boltzmann makineleri, derin ağlar ve AlexNet gibi kilit fikirlerini sade bir dille anlatarak modern yapay zekanın nasıl şekillendiğini açıklayan rehber.

Bu rehber, "sinir ağları her şeyi değiştirdi" diye sıkça duyup bunun gerçekte ne anlama geldiğini—kalkülüs veya programlamaya ihtiyaç duymadan—temiz ve anlaşılır şekilde öğrenmek isteyen meraklı, teknik olmayan okuyucular için hazırlandı.
Geoffrey Hinton'ın ileri ittiği fikirleri sade bir dille göreceksiniz: neden o fikirler o dönemde önemliydi ve bugün insanların kullandığı yapay zeka araçlarıyla nasıl bağlantılılar. Bunu, bilgisayarlara örneklerden öğrenerek desenleri—kelimeler, görüntüler, sesler—tanımayı öğretmenin daha iyi yollarının hikâyesi olarak düşünün.
Hinton "AI'yi icat etmedi" ve modern makine öğrenimini tek başına bir kişi yaratmadı. Onu önemli yapan, sinir ağlarını birçok araştırmacının çıkmaz sandığı zamanlarda pratikte çalışır hale getirmeye sürekli katkıda bulunmasıdır. Temel kavramlar, deneyler ve temsil öğrenimini (kullanışlı iç özellikler) merkezi sorun olarak gören bir araştırma kültürünü desteklemesi onun etkisini oluşturur—elle yazılmış kurallar yerine öğrenmeyi önceliklendirmek.
İleri bölümlerde şu konuları açacağız:
Bu yazıda atılım, sinir ağlarını daha kullanışlı yapan bir değişim anlamına gelir: daha güvenilir eğitilmesi, daha iyi özellikler öğrenmesi, yeni verilere daha iyi genelleme yapması veya daha büyük görevlere ölçeklenebilmesi. Tek bir gösteriden çok, bir fikri güvenilir bir yönteme dönüştürmek önemlidir.
Sinir ağları "programcıları değiştirmek" için icat edilmedi. Asıl vaatleri daha spesifikti: görüntüler, konuşma ve metin gibi dağınık gerçek dünya girdilerinden kullanışlı iç temsiller öğrenen makineler inşa etmek—mühendislerin her kuralı elle yazmadığı sistemler.
Bir fotoğraf milyonlarca piksel değerinden ibarettir. Bir ses kaydı basınç ölçümlerinin akışıdır. Zorluk, bu ham sayıları insanların önemsediği kavramlara dönüştürmektir: kenarlar, şekiller, fonemler, kelimeler, nesneler, niyet.
Sinir ağları pratik olana kadar birçok sistem elle tasarlanmış özelliklere—"kenar algılayıcılar" veya "doku tanımlayıcılar" gibi—dayanıyordu. Bu dar durumlarda işe yarasa da ışık değiştiğinde, aksanlar farklılaştığında veya ortamlar karmaşıklaştığında kolayca bozuluyordu.
Sinir ağları bu sorunu, veriden katman katman otomatik olarak özellikler öğrenerek çözmeyi hedefledi. Eğer bir sistem uygun ara yapı taşlarını kendisi keşfedebilirse, daha iyi genelleme yapabilir ve yeni görevlere daha az manuel mühendislikle uyum sağlayabilir.
Fikir cazipti ama birkaç engel sinir ağlarının uzun süre beklendiği gibi çalışmasını engelledi:
Sinir ağları modası geçtiğinde bile—özellikle 1990'ların ve 2000'lerin başındaki dönemlerde—Geoffrey Hinton gibi araştırmacılar temsil öğrenimi üzerinde ısrar ettiler. 1980'lerden itibaren fikirler önerdi ve donanım, veri ve yöntemler yetişene kadar enerji-temelli modeller gibi eski fikirleri yeniden ele aldı.
Bu ısrar, temel hedefin canlı kalmasına yardımcı oldu: makinelerin sadece nihai cevabı değil, doğru temsilleri öğrenmesi.
Geri yayılım (kısaca “backprop”), bir sinir ağına hatalarından öğrenme yeteneği veren yöntemdir. Ağ bir tahminde bulunur, ne kadar yanlış olduğunu ölçeriz ve sonra ağın iç "düğmelerini" (ağırlıklarını) bir dahaki sefere daha iyi olması için ayarlarız.
Ağı bir fotoğrafı "kedi" veya "köpek" olarak etiketlemeye çalışırken düşünün. Ağ "kedi" tahmin eder ama doğru cevap "köpek"tir. Geri yayılım bu son hatayla başlar ve ağın katmanları boyunca geriye doğru giderek her bir ağırlığın hataya ne kadar katkıda bulunduğunu hesaplar.
Pratik bir düşünce yolu:
Bu itmeler genellikle hata üzerinde aşağı doğru küçük adımlar atan gradient descent adlı algoritmayla yapılır.
Geri yayılım yaygınlaşmadan önce, çok katmanlı sinir ağlarını eğitmek güvensiz ve yavaştı. Geri yayılım, birçok katmanı aynı anda ayarlamak için sistematik ve tekrarlanabilir bir yol sundu; böylece yalnızca son katmanı ayarlamak veya rastgele tahminler yapmak zorunda kalınmadı.
Bu değişim sonraki atılımlar için önemliydi: birden fazla katmanı etkili şekilde eğitebildiğinizde, ağlar daha zengin özellikler öğrenebilir (ör. kenarlar → şekiller → nesneler).
Geri yayılım, ağın insan gibi "düşünmesi" veya "anlaması" değildir. Bu, örneklere daha iyi uyması için parametreleri ayarlayan matematiksel bir geri bildirim yöntemidir.
Ayrıca, geri yayılım tek bir model değildir—çok çeşitli sinir ağı türlerinde kullanılan bir eğitim yöntemidir.
Eğer ağların nasıl yapılandırıldığına daha nazik bir giriş isterseniz, /blog/neural-networks-explained metnine bakabilirsiniz.
Boltzmann makineleri, Geoffrey Hinton'ın sinir ağlarının kullanışlı iç temsiller öğrenmesini sağlamaya yönelik önemli adımlarından biriydi.
Boltzmann makinesi, açık/kapalı olabilen basit birimlerden oluşan bir ağdır (modern versiyonlarda gerçek değerler alabilirler). Doğrudan çıktı tahmin etmek yerine, bir birim konfigürasyonuna bir enerji atar. Düşük enerji, "bu konfigürasyon makul" demektir.
Yardımcı bir benzetme: küçük çukurlar ve vadilerle kaplı bir masa düşünün. Bir misket yüzeye bırakılırsa yuvarlanıp düşük bir noktada durur. Boltzmann makineleri benzer şekilde davranır: kısmi bilgi verildiğinde (ör. bazı görünen birimler veri tarafından ayarlanmışsa), ağ iç birimlerini "oynar" ve öğrenilmiş olarak olası gördüğü düşük enerji durumlarına yerleşir.
Klasik Boltzmann makinelerini eğitmek, modelin neye inandığını veriyle karşılaştırmak için birçok olası durumu tekrar tekrar örneklemeyi gerektiriyordu. Bu örnekleme büyük ağlar için acı verici derecede yavaştı.
Yine de yaklaşım etkili oldu çünkü:
Bugün çoğu ürün, geri yayılımlı feedforward derin ağları kullanır çünkü onlar daha hızlı ve ölçeklenmesi daha kolaydır.
Boltzmann makinelerinin mirası daha çok kavramsaldır: iyi modellerin dünyanın "tercih edilen durumlarına" eğilimli olduğunu ve öğrenmenin olasılık kütlesini bu düşük-enerji vadilere kaydırmak şeklinde görülebileceğini göstermiş olmalarıdır.
Sinir ağları sadece eğrileri daha iyi uydurmakla kalmadı—aynı zamanda doğru özellikleri icat etmeyi öğrendi. İşte "temsil öğrenimi"nin anlamı: insanın neye bakması gerektiğini el ile belirlemesi yerine, model görevi kolaylaştıran iç tanımları (temsil) öğrenir.
Bir temsil, modelin ham girdiyi özetleme yoludur. Henüz "kedi" gibi bir etiket değildir; o etiket yolunda işe yarayan ara bir yapıdır—önemli olana dair desenleri yakalayan iç betimlemelerdir. Erken katmanlar basit sinyallere tepki verirken, sonraki katmanlar bunları daha anlamlı kavramlara dönüştürür.
Bu kaygıdan önce birçok sistem uzman tarafından tasarlanmış özelliklere dayanıyordu: görüntüler için kenar algılayıcıları, konuşma için el yapımı ses ipuçları veya metin için dikkatle mühendislik yapılmış istatistikler. Bu özellikler işe yarasa da koşullar değiştiğinde kırılgan olma eğilimindeydi.
Temsil öğrenimi, modellerin özellikleri veriye göre adapte etmesini sağladı; bu da doğruluğu artırdı ve sistemleri karmaşık gerçek girdilere karşı daha dayanıklı yaptı.
Ortak nokta hiyerarşidir: basit desenler birleşerek daha zengin olanları oluşturur.
Görüntü tanımada bir ağ önce kenar benzeri desenler öğrenebilir (açık-koyu değişimleri). Sonra kenarlar köşe ve eğrilere, bunlar tekerlek veya göz gibi parçalara, son olarak da "bisiklet" veya "yüz" gibi bütün nesnelere dönüşür.
Hinton'ın atılımları bu katmanlı özellik inşasını pratik hale getirmeye yardımcı oldu—bu yüzden derin öğrenme insanlar için önemli olan görevlerde başarılı olmaya başladı.
Derin inanç ağları (DBN'ler), bugün tanıdık olduğumuz derin sinir ağlarına giden yolda önemli bir ara adımdı. Kavramsal olarak DBN, her katmanın kendisinden önceki katmanın örüntülerini öğrenmeye çalıştığı bir katman yığınıdır—ham girdiden başlayarak giderek daha soyut "kavramlar" inşa eder.
El yazısı tanımayı bir sisteme öğretmeyi hayal edin. Her şeyi bir anda öğrenmeye çalışmak yerine DBN önce kenar ve çizgi gibi basit desenleri, sonra bu desenlerin kombinasyonlarını (döngüler, köşeler) ve en sonunda rakam parçalarına benzeyen daha yüksek düzey şekilleri öğrenir.
Ana fikir, her katmanın girdisinin desenlerini doğru cevap verilmeden modellemeye çalışmasıdır. Daha sonra yığının tamamı belirli bir sınıflandırma görevi için ince ayar yapılabilir.
Erken derin ağlar rastgele başlatıldığında genellikle iyi eğitilemiyordu. Eğitim sinyalleri birçok katman boyunca zayıflayabiliyor veya dengesizleşebiliyordu ve ağ işe yaramayan ayarlarda takılabiliyordu.
Katman katman ön-eğitim modele bir "ılık başlangıç" verdi. Her katman verideki yapıyı makul bir şekilde kavrayarak başladığı için, tüm ağ körü körüne arama yapmak zorunda kalmadı.
Ön-eğitim her problemi sihirli şekilde çözmedi ama veri, hesaplama gücü ve eğitim hilelerinin daha sınırlı olduğu bir zamanda derinliği pratik hale getirdi.
DBN'ler, birden fazla katmanda iyi temsiller öğrenmenin çalışabileceğini ve derinliğin yalnızca teori olmadığını, kullanılabilir bir yol olduğunu gösterdi.
Sinir ağları bazen "sınava çalışmak" konusunda kötü bir alışkanlık gösterirler: eğitim verisini ezberleyip altında yatan deseni öğrenmek yerine sadece örnekleri ezberlerler. Bu problem aşırı uyum (overfitting) olarak adlandırılır; model pratik denemelerde harika görünür ama yeni, gerçek dünya verilerinde hayal kırıklığı yaşar.
Sürüş sınavına hazırlanırken önceki öğretmeninizin kullandığı rotayı ezberlediğinizi düşünün—her dönüş, her durak, her tümsek. Aynı rota verildiğinde mükemmel olabilirsiniz. Ama rota değişirse performansınız düşer çünkü genel sürüş becerisini değil, tek bir senaryoyu ezberlediniz.
İşte bu aşırı uyumdur: tanıdık örneklerde yüksek doğruluk, yeni örneklerde zayıf sonuç.
Dropout, Geoffrey Hinton ve işbirlikçilerince popülerleştirilen, eğitim sırasında ağın bazı birimlerini rastgele "kapatma" fikridir.
Bu, modelin tek bir yol veya "favori" özellik setine güvenmesini engeller. Bunun yerine bilgi çok sayıda bağlantıya yayılmak zorunda kalır ve parçalar eksik olsa bile işe yarayan desenler öğrenilir.
Bir benzetme: notlarınızın rastgele sayfalarını kaybetme ihtimaliyle çalışmak gibidir—belli bir ifadeyi ezberlemek yerine kavramı anlamaya zorlanırsınız.
En önemli kazanım daha iyi genellemedir: ağ, daha önce görmediği verilerde daha güvenilir olur. Pratikte dropout, daha büyük ağların eğitilmesini kolaylaştırdı ve birçok derin öğrenme kurulumunda standart bir araç haline geldi.
AlexNet'ten önce "görüntü tanıma" sadece havalı bir demo değil, ölçülebilir bir yarışmaydı. ImageNet gibi kıyaslamalar basit bir soru soruyordu: bir fotoğraf verildiğinde sistem nesnenin adını söyleyebilir mi?
Sıkıntı ölçekti: milyonlarca resim ve binlerce kategori. Bu boyut, küçük deneylerde iyi görünen fikirleri gerçek dünyanın karışıklığında tutarlı kalan yöntemlerden ayırdı.
Liderlik tablolarındaki ilerleme genelde kademeliydi. Sonra AlexNet (Alex Krizhevsky, Ilya Sutskever ve Geoffrey Hinton tarafından geliştirildi) geldi ve sonuçlar sanki sabit bir tırmanış yerine bir sıçrama gibi göründü.
AlexNet, üç unsur birleştiğinde derin konvolüsyonel ağın en iyi geleneksel bilgisayarlı görü boru hatlarını yenebileceğini gösterdi:
Bu sadece "daha büyük bir model" değildi; gerçek dünya görevlerinde derin ağları etkili şekilde eğitmenin pratik bir tarifini sundu.
Küçük bir "pencereyi" bir fotoğraf üzerinde kaydırıyormuş gibi düşünün—posta pulu gibi. Bu pencere içinde ağ basit bir desen arar: bir kenar, bir köşe, bir şerit. Aynı desen denetleyicisi tüm resme tekrar tekrar uygulanır, böylece o deseni resmin solunda, sağında veya ortasında fark etmesini sağlar.
Bu katmanlardan yeterince biriktirince bir hiyerarşi elde edersiniz: kenarlar dokulara, dokular parçalara (tekerlekler gibi) ve parçalar nesnelere dönüşür.
AlexNet, derin öğrenmeyi güvenilir ve yatırım yapmaya değer hissettirdi. Eğer derin ağlar zorlu, halka açık bir kıyaslamada üstünse, arama, fotoğraf etiketleme, kamera özellikleri, erişilebilirlik araçları gibi ürünleri iyileştirebilirlerdi.
Bu, sinir ağlarını "ümit vaat eden araştırma"dan gerçek sistemler için bariz bir yöne dönüştürdü.
Derin öğrenme "bir gecede" ortaya çıkmadı. Fikirler uzun yıllar boyunca umut verici ama ölçeklenmesi güç olarak görüldü. Etkisi dramatik görünmeye başladığında birkaç unsur nihayet bir araya gelmişti.
Daha fazla veri. Web, akıllı telefonlar ve büyük etiketli veri setleri (ImageNet gibi) sinir ağlarının milyonlarca örnekten öğrenmesini sağladı. Küçük veriyle büyük modeller çoğunlukla ezber yapar.
Daha fazla hesaplama (özellikle GPU'lar). Derin bir ağı eğitmek, aynı matematiği milyarlarca kez yapmak demektir. GPU'lar bunu uygun maliyete ve yeterli hıza getirince denemeleri daha hızlı yapmak mümkün oldu. Haftalar alan işler günlere veya saatlere düştü ve araştırmacılar daha fazla mimari ve hiperparametre deneyebildiler.
Daha iyi eğitim hileleri. Pratik iyileştirmeler "eğitiliyor… ya da eğitilmiyor" rastgeleliğini azalttı:
Bunların hiçbiri sinir ağlarının temel fikrini değiştirmedi; ama onları çalıştırmanın güvenilirliğini artırdı.
Bir kere veri ve hesaplama eşiği aşılınca, geliştirmeler birbirini takip etmeye başladı. Daha iyi sonuçlar daha fazla yatırım çekti; bu da daha büyük veri setleri ve daha hızlı donanım için kaynak sağladı; sonuçta daha iyi sonuçlar elde edildi. Dışarıdan bakınca bir sıçrama gibi, içeriden bakınca ise kümülatif bir birikim.
Ölçeklendirmek gerçek maliyetler getirir: daha fazla enerji kullanımı, daha pahalı eğitim çalışmaları ve modelleri verimli şekilde dağıtmak için daha fazla çaba. Ayrıca küçük bir ekibin prototipten örnek üretime geçmesiyle sadece iyi finanse edilmiş laboratuvarların sıfırdan eğitim yapabilmesi arasındaki uçurum artar.
Hinton'ın ana fikirleri—veriden kullanışlı temsiller öğrenmek, derin ağları güvenilir şekilde eğitmek ve aşırı uyumu önlemek—bir uygulamada doğrudan işaretlenebilen "özellikler" değiller. Onlar, pek çok günlük özelliğin daha hızlı, daha doğru ve daha az sinir bozucu hissetmesinin arkasındaki sebeplerdir.
Modern arama sistemleri sadece anahtar kelimelere bakmaz. Sorguların ve içeriğin temsillerini öğrenirler; böylece "en iyi gürültü engelleme kulaklıklar" gibi bir arama, aynı ifadeyi tekrar etmeyen sayfaları da getirebilir. Aynı temsil öğrenimi öneri akışlarının iki öğeyi açıklamalar farklı olsa bile "benzer" olarak görmesini sağlar.
Model türleri evrildiği halde makine çevirisi, karakterlerden kelimelere ve anlamlara uzanan katmanlı desenleri daha iyi öğrenen modellerle büyük ölçüde gelişti. Eğitim reçetesi—büyük veri, dikkatli optimizasyon ve derin öğrenmeden çıkan düzenleme fikirleri—güvenilir dil özellikleri oluştururken hala yol göstericidir.
Ses asistleri ve diktasyon, dağınık sesi temiz metne çeviren sinir ağlarına dayanır. Geri yayılım bu modelleri ayarlayan iş atı iken, dropout gibi teknikler belli bir konuşmacı veya mikrofonun tuhaflıklarını ezberlemelerini engeller.
Fotoğraf uygulamaları yüzleri tanıyabilir, benzer sahneleri gruplayabilir ve "plaj" aramasıyla etiketleme yapabilir. Bu, temsil öğreniminin pratik örneğidir: sistem görsel özellikleri (kenarlar → dokular → nesneler) öğrenir ve etiketleme ile aramayı ölçeklendirir.
Sıfırdan model eğitmiyor olsanız bile, bu ilkeler günlük ürün çalışmasında görünür: genellikle önceden eğitilmiş modellerle başlayın, eğitimi ve değerlendirmeyi istikrara kavuşturun ve sistemler kıstırıp "benchmark" ezberlemeye başladığında düzenleme kullanın.
Bu modern "vibe-coding" araçlarının da bu yüzden yetkin hissettirdiği anlamlı: Koder.ai gibi platformlar mevcut nesil LLM'ler ve ajan iş akışları üzerine oturarak ekiplerin doğal dil spesifikasyonlarını çalışır web, backend veya mobil uygulamalara dönüştürmelerine yardımcı olur—çoğu durumda geleneksel süreçlerden daha hızlı şekilde—aynı zamanda kaynak kodu dışa aktarmanıza ve normal bir mühendislik ekibi gibi dağıtmanıza izin verir.
Eğer eğitimle ilgili yüksek seviyeli sezgi isterseniz, /blog/backpropagation-explained yazısına bakabilirsiniz.
Büyük atılımlar genelde basit hikâyelere dönüştürülür. Hatırlaması kolaylaşır ama gerçekte ne olduğunu ve bugün nelerin hâlâ önemli olduğunu gizleyen mitler doğar.
Hinton merkezi bir figürdür ama modern sinir ağları onlarca yıllık çabaların ürünüdür: optimizasyon yöntemlerini geliştiren araştırmacılar, veri setlerini oluşturan ekipler, GPU'ları pratik hale getiren mühendisler ve fikirleri ölçekli gerçek uygulamalarda kanıtlayan takımlar.
Hinton'ın çalışmalarında bile öğrencileri ve işbirlikçileri büyük roller oynadı. Gerçek hikaye, nihayet bir araya gelen katkılar zinciridir.
Sinir ağları 20. yüzyıl ortalarından beri araştırılıyor; heyecanlanma ve hayal kırıklığı dönemleri oldu. Değişen şey, daha büyük modelleri güvenilir şekilde eğitebilme ve gerçek problemler üzerinde açık kazanımlar gösterebilme kabiliyetiydi.
"Derin öğrenme çağı" daha çok bir canlanma, ani bir buluş değil.
Daha derin modeller yardımcı olabilir ama sihirli değildir. Eğitim süresi, maliyet, veri kalitesi ve azalan getiri gerçek kısıtlardır. Bazen daha küçük modeller daha iyi performans gösterir çünkü ayarlaması daha kolaydır, gürültüye daha az hassastır veya görevle daha iyi eşleşir.
Geri yayılım, etiketli geri bildirim kullanarak model parametrelerini pratik şekilde ayarlamaktır. İnsanlar çok daha az örnekle öğrenir, zengin önbilgilere sahiptir ve aynı tür açık hata sinyallerine dayanmazlar.
Sinir ağları biyolojiden ilham alabilir ama beynin doğru bir kopyası değildir.
Hinton'ın hikâyesi sadece buluşların listesi değil. Bir desen gösterir: basit bir öğrenme fikrini tut, onu amansızca test et ve ölçeklenene dek çevredeki bileşenleri (veri, hesaplama, eğitim hileleri) yükselt.
En aktarılabilir alışkanlıklar pratiktir:
Başlık dersini "daha büyük modeller kazanır" olarak almak cazip ama eksik.
Boyuta takılmak genellikle şunlara yol açar:
Daha iyi bir varsayılan: önce küçük başla, değeri kanıtla, sonra ölçeklendir—ve yalnızca performansı açıkça sınırlayan kısmı büyütün.
Bu dersleri günlük pratiğe dönüştürmek isterseniz, şu okumalar iyi takiplerdir:
Geri yayılımın temel öğrenme kuralından, anlamı yakalayan temsillere, dropout gibi pratik hilelere ve AlexNet gibi dönüm noktası demolarına kadar—yaygın çizgi tutarlı: veriden kullanışlı özellikleri öğren, eğitimi stabil hale getir ve ilerlemeyi gerçek sonuçlarla doğrula.
İşte saklanması gereken oyun planı.
Geoffrey Hinton, birçok araştırmacının sinir ağlarının çıkmaz olduğunu düşündüğü dönemlerde bile sinir ağlarını pratikte çalışır hale getirmeye düzenli olarak katkıda bulunduğu için önemlidir.
"Yapay zekayı icat etmek" yerine etkisi; temsil öğrenimini desteklemesi, eğitim yöntemlerini ilerletmesi ve mühendislerin kuralları elle yazmak yerine veriden özellik öğrenmeye odaklanan bir araştırma kültürü oluşturmasına dayanır.
Buradaki “atılım”, sinir ağlarının daha güvenilir ve kullanışlı hale gelmesi demektir: daha güvenilir eğitilmesi, daha iyi iç özellikler öğrenmesi, yeni verilere daha iyi genelleme yapması veya daha zor görevlerde ölçeklenebilmesi.
Bu, tek bir gösteriden çok fikri güvenilir bir yönteme dönüştürmekle ilgilidir.
Sinir ağları, dağınık ham girdileri (piksel değerleri, ses dalgaları, metin tokenları) kullanışlı temsillere — görevin çözümüne yarayacak iç özelliklere — dönüştürmeyi amaçlar.
Mühendislerin her özelliği elle tasarlaması yerine model, örneklerden katman katman özellikleri öğrenir; bu da ışık, aksan veya ifadeler değiştiğinde daha sağlam sonuç verir.
Geri yayılım (backpropagation), bir ağı hatalarından öğrenerek iyileştiren bir eğitim yöntemidir:
Bu, genellikle hatayı azaltmak için küçük adımlar atan gradient descent gibi algoritmalarla birlikte çalışır.
Geri yayılım, birçok katmanı aynı anda sistematik şekilde ayarlamayı mümkün kıldı.
Bu önemli çünkü daha derin ağlar özellik hiyerarşileri (ör. kenarlar → şekiller → nesneler) oluşturabilir. Rasgele başlatılan çok katmanlı ağlar, geri yayılım olmadan genellikle iyi sonuç vermezdi.
Boltzmann makineleri, birimlerin tüm konfigürasyonlarına bir enerji (skor) atayan bir model sınıfıdır; düşük enerji, "bu durum mantıklı" demektir.
Etkileri şöyle oldu:
Günümüzde çoğu ürün, ölçeklenebilirlik ve hız nedeniyle geri yayılımlı feedforward ağları tercih eder; Boltzmann makinelerinin mirası daha çok kavramsaldır: iyi modellerin dünyanın "tercih edilen durumlarını" öğrenmesi fikri.
Temsil öğrenimi, modelin görev için elverişli iç özellikleri öğrenmesi anlamına gelir; insanın elle tasarlayacağı özellikler yerine model, veriden faydalı özetler üretir.
Bu genelde performansı artırır: öğrenilen özellikler gerçek veri varyasyonuna (gürültü, farklı kameralar, farklı konuşmacılar) karşı daha dayanıklıdır ve böylece sistemler daha güvenilir olur.
Derin inanç ağları (DBN'ler), katman katman ön-eğitim kullanarak derinliği uygulanabilir kılan bir ara adımdı.
Her katman önce etiket olmadan girdi yapısını öğrenir ve böylece tüm yığının ince ayar için daha iyi bir başlangıç noktası olur. Bu "ılımlı başlama" yöntemi, derin model eğitmek için gereken istikrarı artırdı.
Dropout, bazı birimleri rastgele olarak eğitme sırasında kapatarak aşırı uyumla (overfitting) mücadele eder.
Bu, modelin tek bir yol veya özellik setine fazla güvenmesini engeller ve parçalar eksik olsa bile işe yarayan, daha genel özelliklerin öğrenilmesini teşvik eder; sonuçta yeni verilerde daha iyi genelleme elde edilir.
AlexNet, derin konvolüsyonel ağlar + GPU'lar + bol etiketli veri (ImageNet) kombinasyonunun pratik bir reçetesini gösterdi.
Sadece "daha büyük bir model" değildi; zor, halka açık bir kıyaslamada geleneksel yöntemleri rahatça geride bırakarak endüstrinin dikkatini çeken bir adım oldu.