Jasny przewodnik po kluczowych ideach Geoffreya Hintona — od backprop i maszyn Boltzmanna po deep nets i AlexNet — i jak wpłynęły na współczesną AI.

Ten przewodnik jest dla ciekawych, nietechnicznych czytelników, którzy słyszą, że „sieci neuronowe zmieniły wszystko”, i chcą jasnego, osadzonego w faktach wytłumaczenia, co to naprawdę znaczy — bez konieczności znajomości rachunku różniczkowego czy programowania.
Dostaniesz opis po ludzku najważniejszych pomysłów, które rozwijał Geoffrey Hinton, dlaczego miały znaczenie wtedy i jak łączą się z narzędziami AI używanymi dzisiaj. Traktuj to jak opowieść o lepszych sposobach uczenia komputerów rozpoznawania wzorców — słów, obrazów, dźwięków — poprzez naukę na przykładach.
Hinton nie „wynalazł AI” i żadna pojedyncza osoba nie stworzyła współczesnego uczenia maszynowego. Jego rola polega na tym, że wielokrotnie pomagał uczynić sieci neuronowe praktycznie użytecznymi, gdy wielu badaczy uważało je za donikąd prowadzące. Wniósł kluczowe koncepcje, eksperymenty i kulturę badawczą, która traktowała uczenie reprezentacji (przydatnych wewnętrznych cech) jako centralny problem — zamiast ręcznego kodowania reguł.
W kolejnych sekcjach rozłożymy na czynniki pierwsze:
W tym artykule przełom oznacza zmianę, która czyni sieci neuronowe bardziej użytecznymi: uczą się stabilniej, znajdują lepsze cechy, lepiej uogólniają na nowe dane lub skalują się do większych zadań. Chodzi mniej o pojedyncze efektowne demo, a bardziej o przekształcenie pomysłu w niezawodną metodę.
Sieci neuronowe nie zostały wymyślone, by „zastąpić programistów”. Ich pierwotna obietnica była bardziej konkretna: zbudować maszyny, które potrafią uczyć użyteczne wewnętrzne reprezentacje z surowych danych — obrazów, mowy, tekstu — bez konieczności ręcznego definiowania każdej reguły przez inżynierów.
Zdjęcie to miliony wartości pikseli. Nagranie dźwiękowe to ciąg pomiarów ciśnienia. Wyzwanie polega na przekształceniu tych liczb w pojęcia, na których zależy ludziom: krawędzie, kształty, fonemy, słowa, obiekty, intencje.
Zanim sieci neuronowe stały się praktyczne, wiele systemów opierało się na ręcznie zaprojektowanych cechach — starannie dobranych miarach typu „detektor krawędzi” czy „opis tekstury”. To działało w wąskich zastosowaniach, ale często zawodziło, gdy zmieniało się oświetlenie, akcenty czy warunki otoczenia.
Sieci neuronowe miały rozwiązać to poprzez automatyczne uczenie cech, warstwa po warstwie, z danych. Jeśli system potrafi samodzielnie odkryć odpowiednie pośrednie budulce, może lepiej uogólniać i łatwiej adaptować się do nowych zadań bez żmudnej pracy ręcznej.
Pomysł był pociągający, ale kilka barier powstrzymywało sieci neuronowe przed realizacją tej obietnicy przez długi czas:
Nawet gdy sieci neuronowe były niemodne — szczególnie w latach 90. i na początku 2000 — badacze tacy jak Geoffrey Hinton cały czas pracowali nad uczeniem reprezentacji. Proponował pomysły od połowy lat 80. i wracał do starszych idei (jak modele oparte na energii), aż sprzęt, dane i metody dogoniły koncepcje.
Ta wytrwałość pomogła utrzymać centralny cel przy życiu: maszyny, które uczą właściwe reprezentacje, a nie tylko końcową odpowiedź.
Propagacja wsteczna (często nazywana „backprop”) to metoda, która pozwala sieci neuronowej poprawiać się, ucząc się na swoich błędach. Sieć robi przewidywanie, mierzymy, jak bardzo się pomyliła, a następnie dostosowujemy wewnętrzne „pokrętła” (wagi), żeby następnym razem było trochę lepiej.
Wyobraź sobie sieć próbującą oznaczyć zdjęcie jako „kot” lub „pies”. Zgaduję „kot”, ale prawidłowa odpowiedź to „pies”. Backprop zaczyna od tej końcowej pomyłki i pracuje wstecz przez warstwy sieci, ustalając, jak bardzo każda waga przyczyniła się do błędnej odpowiedzi.
Praktyczny sposób myślenia o tym:
Te poprawki zwykle wykonuje się za pomocą towarzyszącego algorytmu zwanego gradient descent, co po prostu oznacza „rób małe kroki w dół po powierzchni błędu”.
Zanim backprop stał się powszechny, trenowanie wielowarstwowych sieci było zawodowe i powolne. Backprop uczynił wykonalnym trenowanie głębszych sieci, bo dał systematyczny i powtarzalny sposób strojenia wielu warstw naraz — zamiast jedynie dopasowywania warstwy końcowej czy zgadywania zmian.
Ta zmiana była ważna dla późniejszych przełomów: gdy możesz skutecznie trenować kilka warstw, sieci uczą bogatszych cech (krawędzie → kształty → obiekty, na przykład).
Backprop nie oznacza, że sieć „myśli” lub „rozumie” jak człowiek. To matematyczny mechanizm sprzężenia zwrotnego: sposób dostosowywania parametrów, by lepiej pasowały do przykładów.
Ponadto backprop to nie jeden model — to metoda treningowa, którą można stosować w wielu typach sieci neuronowych.
Jeśli chcesz łagodniejszego, głębszego wprowadzenia do struktury sieci, zobacz /blog/neural-networks-explained.
Maszyny Boltzmanna były jednym z kluczowych kroków Geoffreya Hintona w kierunku sprawienia, by sieci neuronowe uczyły użyteczne wewnętrzne reprezentacje, a nie tylko zwracały odpowiedzi.
Maszyna Boltzmanna to sieć prostych jednostek, które mogą być włączone/wyłączone (lub, w nowoczesnych wersjach, przyjmować wartości rzeczywiste). Zamiast bezpośrednio przewidywać wynik, przypisuje energię całej konfiguracji jednostek. Niższa energia oznacza „ta konfiguracja ma sens”.
Pomocnicza analogia to stół pokryty małymi zagłębieniami i dolinkami. Jeśli upuścisz kulkę, potoczy się i osiądzie w niskim punkcie. Maszyny Boltzmanna robią podobnie: przy częściowej informacji (np. niektóre jednostki widoczne ustawione danymi) sieć „porusza” swoje jednostki, aż osiągnie stany o niskiej energii — stany, które uznała za prawdopodobne.
Trenowanie klasycznych maszyn Boltzmanna wymagało wielokrotnego próbkowania wielu możliwych stanów, by oszacować, w co model wierzy w porównaniu z danymi. To próbkowanie może być bardzo powolne, szczególnie dla dużych sieci.
Mimo to podejście miało wpływ, bo:
Większość produktów dzisiaj opiera się na sieciach feedforward trenowanych propagacją wsteczną, ponieważ są szybsze i łatwiejsze do skalowania.
Dziedzictwo maszyn Boltzmanna jest bardziej pojęciowe niż praktyczne: idea, że dobre modele uczą „preferowane stany” świata — i że uczenie można postrzegać jako przesuwanie masy prawdopodobieństwa w kierunku tych dolinek o niskiej energii.
Sieci neuronowe nie tylko lepiej dopasowywały krzywe — nauczyły się wymyślać właściwe cechy. To właśnie oznacza „uczenie reprezentacji”: zamiast człowieka projektującego, co należy wykryć, model uczy wewnętrzne opisy (reprezentacje), które upraszczają zadanie.
Reprezentacja to sposób modelu na streszczenie surowego wejścia. To jeszcze nie jest etykieta typu „kot”; to użyteczna struktura po drodze do etykiety — wzorce, które zwykle mają znaczenie. Wczesne warstwy reagują na proste sygnały, późniejsze łączą je w bardziej znaczące koncepcje.
Wcześniej wiele systemów polegało na cechach projektowanych przez ekspertów: detektorach krawędzi dla obrazów, ręcznie tworzonych wskaźnikach audio dla mowy, czy starannie zaprojektowanej analizie tekstu. Te cechy działały, ale często zawodziły przy zmianie warunków (oświetlenie, akcenty, sformułowania).
Uczenie reprezentacji pozwoliło modelom dopasować cechy do danych, co poprawiło dokładność i uczyniło systemy bardziej odporne w trudnych, rzeczywistych warunkach.
Wspólnym wątkiem jest hierarchia: proste wzorce łączą się w bogatsze.
W rozpoznawaniu obrazów sieć może najpierw nauczyć się wzorców podobnych do krawędzi (zmiana jasności). Potem łączy krawędzie w narożniki i krzywizny, dalej w części jak koła czy oczy, a w końcu w całe obiekty jak „rower” czy „twarz”.
Przełomy Hinton'a pomogły uczynić tę wielowarstwową budowę cech praktyczną — i to jest główny powód, dla którego deep learning zaczął zwyciężać w zadaniach, na których ludziom zależy.
Deep belief networks (DBN) były ważnym etapem na drodze do głębokich sieci, które znamy dziś. Na wysokim poziomie DBN to stos warstw, gdzie każda warstwa uczy się reprezentować warstwę poniżej — zaczynając od surowych wejść i stopniowo budując bardziej abstrakcyjne „pojęcia”.
Wyobraź sobie system uczący się rozpoznawać pismo odręczne. Zamiast uczyć wszystkiego naraz, DBN najpierw uczy proste wzorce (krawędzie, kreski), potem kombinacje tych wzorców (pętle, narożniki), a w końcu wyższe kształty przypominające fragmenty cyfr.
Kluczowe jest to, że każda warstwa stara się modelować wzorce w swoim wejściu bez podawania właściwej odpowiedzi. Potem, gdy cały stos poznał coraz użyteczniejsze reprezentacje, można dostroić całą sieć do konkretnego zadania, np. klasyfikacji.
Wcześniejsze głębokie sieci często miały problemy z trenowaniem z losową inicjalizacją. Sygnały treningowe mogły słabnąć lub stać się niestabilne, gdy przechodziły przez wiele warstw, a sieć mogła utknąć w nieprzydatnych ustawieniach.
Pretrenowanie warstwa po warstwie dawało modelowi „dobry start”. Każda warstwa zaczynała z rozsądnym zrozumieniem struktury danych, więc pełna sieć nie szukała rozwiązań w ciemno.
Pretrenowanie nie rozwiązało wszystkich problemów, ale uczyniło głębię praktyczną w czasie, gdy dane, moc obliczeniowa i triki treningowe były bardziej ograniczone niż dziś.
DBN pokazały, że uczenie przydatnych reprezentacji w wielu warstwach działa i że głębia to nie tylko teoria, lecz wykonalna ścieżka naprzód.
Sieci neuronowe potrafią „uczyć się na pamięć” dane treningowe: zapamiętują szczegóły zamiast uczyć ogólnych zasad. Ten problem to przeuczenie i pojawia się zawsze, gdy model świetnie radzi sobie na danych treningowych, ale zawodzi na nowych, rzeczywistych przykładach.
Wyobraź sobie, że uczysz się do egzaminu na prawo jazdy, zapamiętując dokładną trasę instruktora — każdy skręt, każdy znak, każdą dziurę. Jeśli egzamin będzie odbywał się tą samą trasą, zdasz świetnie. Ale jeśli trasa się zmieni, twoje wyniki spadną, bo nie nauczyłeś się ogólnej umiejętności prowadzenia, a jedynie konkretnego scenariusza.
To przeuczenie: wysoka skuteczność na znanych przykładach, słabsze wyniki na nowych.
Dropout spopularyzowany przez Geoffreya Hintona i współpracowników to prosty trik treningowy. Podczas treningu sieć losowo „wyłącza” (dropout) niektóre jednostki przy każdym przejściu przez dane.
To zmusza model do niepolegania na jednej ścieżce lub „ulubionym” zestawie cech. Zamiast tego musi rozłożyć informację przez wiele połączeń i uczyć wzorców, które działają nawet wtedy, gdy część sieci jest niedostępna.
Pomocniczy model myślowy: to jak nauka, gdy czasem nie masz dostępu do losowych stron notatek — musisz rozumieć koncepcję, a nie zapamiętywać jedno sformułowanie.
Głównym efektem jest lepsze uogólnianie: sieć staje się bardziej niezawodna na danych, których nie widziała wcześniej. W praktyce dropout ułatwił trenowanie większych sieci bez popadania w pamięciowe sztuczki i stał się standardowym narzędziem w wielu konfiguracjach deep learningu.
Przed AlexNet „rozpoznawanie obrazów” nie było jedynie ciekawostką — było mierzalnym konkursem. Benchmarki takie jak ImageNet zadawały proste pytanie: mając zdjęcie, czy twój system potrafi nazwać, co się na nim znajduje?
Sęk tkwił w skali: miliony obrazów i tysiące kategorii. Taki rozmiar rozdzielał pomysły, które brzmiały dobrze w małych eksperymentach, od metod, które sprawdzały się, gdy świat robił się nieuporządkowany.
Postępy na tych listach zwykle były stopniowe. Potem nadszedł AlexNet (zespół Alex Krizhevsky, Ilya Sutskever i Geoffrey Hinton) i wyniki zaczęły wyglądać jak skok, a nie powolne wspinanie.
AlexNet udowodnił, że głęboka splotowa sieć neuronowa potrafi pokonać najlepsze tradycyjne pipeline’y wizji komputerowej, gdy połączono trzy składniki:
To nie był tylko "większy model" — to praktyczny przepis na skuteczne trenowanie głębokich sieci na zadaniach w skali rzeczywistej.
Wyobraź sobie przesuwanie małego „okienka” po zdjęciu — jak znaczek pocztowy przesuwany po obrazie. W tym okienku sieć szuka prostego wzorca: krawędzi, narożnika, prążka. Ten sam detektor jest używany wszędzie na obrazie, więc znajdzie „wzorzopodobne elementy” niezależnie od miejsca.
Ułożysz wystarczająco dużo takich warstw, a otrzymasz hierarchię: krawędzie → tekstury → części → obiekty.
AlexNet sprawił, że deep learning wydawał się godny inwestycji. Jeśli sieci głębokie potrafią dominować na trudnym, publicznym benchmarku, to prawdopodobnie poprawią też produkty — wyszukiwanie, tagowanie zdjęć, funkcje w aparatach, narzędzia dostępności i inne.
To przekształciło sieci neuronowe z „obiecających badań” w oczywisty kierunek dla zespołów budujących rzeczywiste systemy.
Deep learning nie pojawił się z dnia na dzień. Zaczął wyglądać dramatycznie, gdy kilka składników wreszcie się zgrało — po latach wcześniejszych prac pokazujących obiecujące, lecz trudne do skalowania pomysły.
Więcej danych. Internet, smartfony i duże oznakowane zbiory (jak ImageNet) pozwoliły sieciom uczyć się na milionach przykładów, a nie tysiącach. Przy małych zbiorach duże modele zazwyczaj zapamiętują dane.
Więcej mocy obliczeniowej (zwłaszcza GPU). Trenowanie głębokiej sieci to powtarzanie tych samych operacji miliardy razy. GPU uczyniły to przystępnym i szybkim, co skróciło czas z tygodni do dni lub godzin, pozwalając badaczom na szybsze eksperymenty.
Lepsze triki treningowe. Praktyczne ulepszenia zmniejszyły losowość „albo się trenuje, albo nie”:
Żaden z tych elementów nie zmienił podstawowej idei sieci neuronowych; zmienił to, jak niezawodne jest ich trenowanie.
Gdy moc obliczeniowa i dane osiągnęły pewien próg, poprawki zaczęły się kumulować. Lepsze wyniki przyciągały więcej inwestycji, które finansowały większe zbiory i szybszy sprzęt, co umożliwiało dalsze postępy. Z zewnątrz wyglądało to jak skok; od środka to efekt kumulacji.
Skalowanie niesie realne koszty: większe zużycie energii, droższe sesje treningowe i więcej pracy przy wdrożeniu modeli efektywnie. Zwiększa też przepaść między prototypem małego zespołu a modelem, który mogą wytrenować tylko dobrze finansowane laboratoria.
Kluczowe pomysły Hinton’a — uczenie użytecznych reprezentacji z danych, stabilne trenowanie głębokich sieci i przeciwdziałanie przeuczeniu — nie są „funkcjami”, na które można wskazać w aplikacji. Są raczej powodem, dla którego wiele codziennych funkcji działa szybciej, dokładniej i mniej frustrująco.
Nowoczesne systemy wyszukiwania nie ograniczają się do dopasowywania słów kluczowych. Uczą reprezentacji zapytań i treści, dzięki czemu „najlepsze słuchawki z redukcją szumów” mogą wyświetlać strony, które nie powtarzają dokładnie tej frazy. To samo uczenie reprezentacji pomaga feedom rekomendacyjnym zrozumieć, że dwa przedmioty są „podobne”, nawet gdy ich opisy się różnią.
Tłumaczenia maszynowe poprawiły się znacząco, gdy modele nauczyły się wielowarstwowych wzorców (od znaków do słów do znaczenia). Nawet jeśli typ modelu ewoluował, praktyka — duże zbiory danych, staranna optymalizacja i regularizacja wywodząca się z deep learningu — nadal kształtuje sposób budowy solidnych funkcji językowych.
Asystenci głosowi i narzędzia dyktowania opierają się na sieciach neuronowych mapujących złożone sygnały audio na czysty tekst. Propagacja wsteczna jest podstawowym narzędziem, które stroi te modele, a metody takie jak dropout pomagają im unikać zapamiętywania cech konkretnego mówcy lub mikrofonu.
Aplikacje do zdjęć rozpoznają twarze, grupują podobne sceny i pozwalają szukać „plaża” bez ręcznego tagowania. To uczenie reprezentacji w akcji: system uczy wizualnych cech (krawędzie → tekstury → obiekty), które umożliwiają tagowanie i wyszukiwanie w skali.
Nawet jeśli nie trenujesz modeli od zera, te zasady pojawiają się w codziennej pracy produktowej: zaczynaj od solidnych reprezentacji (często przez modele pretrained), stabilizuj trening i ewaluację oraz stosuj regularizację, gdy systemy zaczynają „zapamiętywać benchmark”.
Dlatego nowoczesne narzędzia „vibe-coding” mogą wydawać się takie zdolne. Platformy takie jak Koder.ai opierają się na modelach LLM nowej generacji i przepływach agentów, by pomagać zespołom zamieniać specyfikacje w języku naturalnym na działające aplikacje — często szybciej niż tradycyjne ścieżki — pozostawiając jednocześnie możliwość eksportu kodu źródłowego i wdrożenia jak normalny zespół inżynierski.
Jeśli chcesz intuicji treningowej na wysokim poziomie, zobacz /blog/backpropagation-explained.
Wielkie przełomy często upraszcza się do prostych historii. To ułatwia ich zapamiętanie — ale też tworzy mity, które ukrywają to, co naprawdę się wydarzyło i co wciąż ma znaczenie.
Hinton jest postacią centralną, ale współczesne sieci neuronowe to wynik dziesięcioleci pracy wielu zespołów: badaczy, którzy rozwijali metody optymalizacji, ludzi tworzących zbiory danych, inżynierów, którzy udostępnili GPU do treningu, oraz zespołów dowodzących słusznością idei w skali przemysłowej.
Nawet w obrębie „prac Hintona” jego studenci i współpracownicy odegrali kluczowe role. Prawdziwa historia to łańcuch wkładów, które w końcu się zgrały.
Sieci neuronowe są badane od połowy XX wieku, z okresami entuzjazmu i rozczarowań. Co się zmieniło, to nie istnienie idei, lecz zdolność trenowania większych modeli w sposób niezawodny i wykazywania wyraźnych zwycięstw na realnych problemach.
Era „deep learning” to raczej odrodzenie niż nagłe wynalezienie.
Głębsze modele mogą pomagać, ale nie są magiczne. Czas treningu, koszty, jakość danych i malejące korzyści to realne ograniczenia. Czasem mniejsze modele lepiej wypadają, bo są łatwiejsze do strojenia, mniej czułe na szum lub lepiej dopasowane do zadania.
Propagacja wsteczna to praktyczny sposób dostosowywania parametrów na podstawie etykiet. Ludzie uczą się z daleko mniejszej liczby przykładów, korzystają z bogatej wiedzy wstępnej i nie polegają na takich samych sygnałach błędu. Sieci neuronowe mogą być inspirowane biologią, ale nie są wiernymi replikami mózgu.
Historia Hintona to nie tylko lista wynalazków. To wzór: trzymaj prosty pomysł uczenia, testuj go nieustannie i ulepszaj otoczenie (dane, moc obliczeniową i triki treningowe), aż zacznie działać w skali.
Najbardziej przenośne nawyki są praktyczne:
Kusi, by wyciągnąć wniosek „większe modele zawsze wygrywają”. To niepełne.
Gonienie rozmiaru bez jasnych celów często prowadzi do:
Lepsza zasada: zaczynaj mało, udowodnij wartość, a potem skaluj — i skaluj tylko tę część, która wyraźnie ogranicza wydajność.
Jeśli chcesz przekuć te lekcje w praktykę dnia codziennego, dobrymi kontynuacjami są:
Od reguły backprop, przez reprezentacje chwytające znaczenie, po praktyczne triki jak dropout i demonstrację pokroju AlexNet — łuk jest spójny: ucz się użytecznych cech z danych, stabilizuj trening i weryfikuj postęp na rzeczywistych wynikach.
To playbook wart zachowania.
Geoffrey Hinton ma znaczenie, ponieważ wielokrotnie pomagał sprawić, by sieci neuronowe działały w praktyce, gdy wielu badaczy uważało je za martwe kierunki badań.
Zamiast „wynaleźć AI”, jego wpływ polega na promocji uczenia reprezentacji, ulepszaniu metod treningu oraz kształtowaniu kultury badawczej, która stawiała naukę cech z danych ponad ręczne tworzenie reguł.
W tym przewodniku „przełom” oznacza, że sieci neuronowe stały się bardziej niezawodne i użyteczne: trenowały się stabilniej, uczyły lepszych wewnętrznych cech, uogólniały się na nowe dane albo skalowały się do trudniejszych zadań.
Chodzi mniej o efektowne demonstracje, a bardziej o przekształcenie pomysłu w powtarzalną metodę, której zespoły mogą zaufać.
Sieci neuronowe mają za zadanie przekształcić chaotyczne, surowe dane (piksele, przebiegi dźwiękowe, tokeny tekstu) w użyteczne reprezentacje — wewnętrzne cechy, które wychwytują to, co istotne.
Zamiast każdej cechy projektować ręcznie, model uczy się warstw cech na podstawie przykładów, co zwykle daje większą odporność na zmiany warunków (oświetlenie, akcenty, sformułowania).
Propagacja wsteczna to metoda treningowa, która poprawia sieć, ucząc się na błędach:
Działa to z algorytmami takimi jak gradient descent, które wykonują małe kroki prowadzące do zmniejszenia błędu z czasem.
Propagacja wsteczna umożliwiła strojenie wielu warstw naraz w sposób systematyczny.
To ważne, ponieważ głębsze sieci mogą budować hierarchie cech (np. krawędzie → kształty → obiekty). Bez niezawodnego sposobu trenowania wielu warstw, głębokość często nie przynosiła rzeczywistych korzyści.
Maszyny Boltzmanna przypisują energię do całych konfiguracji jednostek; niska energia oznacza „ta konfiguracja ma sens”.
Były ważne, ponieważ:
Dziś rzadziej stosuje się je w produktach głównie dlatego, że klasyczne trenowanie jest powolne w skali.
Uczenie reprezentacji oznacza, że model sam uczy wewnętrznych cech, które ułatwiają zadanie, zamiast polegać na ręcznie zaprojektowanych cechach.
W praktyce poprawia to odporność: wyuczone cechy dopasowują się do rzeczywistych wariacji w danych (szum, różne aparaty, różni mówcy) lepiej niż kruche, ręcznie tworzone pipeliny cech.
Deep belief networks (DBN) pomogły uczynić głębokość praktyczną dzięki pretrenowaniu warstwa po warstwie.
Każda warstwa najpierw uczy się struktury swojego wejścia (często bez etykiet), co daje całemu stogowi „dobry start”. Później całość można dostroić do konkretnego zadania, na przykład klasyfikacji.
Dropout przeciwdziała przeuczeniu przez losowe „wyłączanie” niektórych jednostek podczas treningu.
To uniemożliwia sieci zbytnie poleganie na jednej ścieżce i zmusza do uczenia cech działających także wtedy, gdy części modelu brakuje — co zwykle poprawia uogólnianie na nowe dane.
AlexNet pokazał praktyczny przepis, który się skaluje: głębokie sieci splotowe + GPU + dużo oznaczonych danych (ImageNet).
To nie był tylko „większy model” — wykazał, że deep learning może konsekwentnie pokonywać tradycyjne metody na trudnym, publicznym benchmarku, co sprowokowało masową inwestycję przemysłową.