Yapay genel zekânın ne demek olduğunu, LLM'lerin nasıl çalıştığını ve mevcut metin modellerinin neden gerçek AGI'ye dönüşmeyebileceğine dair temel argümanları öğrenin.

Teknoloji haberlerini, yatırım sunumlarını veya ürün sayfalarını okursanız, zekâ kelimesinin giderek genişletildiğini görürsünüz. Sohbet botları “neredeyse insan”, kod yardımı “neredeyse genç bir mühendis” olarak tanımlanıyor ve bazıları güçlü büyük dil modellerini (LLM’leri) yapay genel zekâ (AGI) yolunda ilk adımlar olarak adlandırıyor.
Bu makale, GPT-4 veya Claude gibi araçları kullanan ve merak eden uygulayıcılar, kurucular, ürün liderleri ve teknik okuyucular için: Acaba bu AGI’ye benzeyen şey midir—yoksa önemli bir eksik mi var?
LLM'ler gerçekten etkileyici. Onlar:
Çoğu uzman olmayan için bu, “genel zekâ” ile ayırt edilemez görünüyor. Bir model aynı oturumda Kant üzerine deneme yazabiliyor, TypeScript hatanızı düzeltebiliyor ve bir hukuki muhtırayı taslağını hazırlamaya yardımcı olabiliyorsa, AGI’ye çok yaklaşıyor olduğumuzu varsaymak doğal geliyor.
Ama bu varsayım sessizce dilde iyi olmak ile genel zekâya sahip olmak arasına denklik koyuyor. Bu makalenin çözmeye çalışacağı temel karışıklık bu.
Bölüm bölüm geliştireceğimiz argüman şudur:
Mevcut LLM'ler metin ve kod üzerinde son derece yetenekli desen öğrenicileridir; ancak bu mimari ve eğitim rejimi, onları sadece ölçek veya ince ayar ile basitçe gerçek AGI yapmayı muhtemel kılmaz.
Daha iyi, daha geniş ve daha yararlı olmaya devam edecekler. AGI-benzeri sistemlerin parçası olabilirler. Yine de dünyayla temas, ajans, hafıza, bedenlenme ve kendilik modelleri gibi derin nedenler, “daha büyük LLM” yolunun muhtemelen “genel zekâ” yoluyla aynı olmadığını gösteriyor.
Görüşe dayalı bir tur bekleyin; ama abartı veya korku yerine mevcut araştırma, LLM'lerin somut yetenekleri ve başarısızlıkları ve ciddi bilim insanlarının uğraştığı açık sorularla bağlı olacak.
İnsanlar AGI derken nadiren aynı şeyi kastediyor. Tartışmayı netleştirmek için birkaç temel kavramı ayırmak yardımcı olur.
AI (yapay zekâ), konuşma tanıma, film önerisi, Go oynama, kod yazma gibi “zekâ benzeri” davranış gerektiren görevleri yapan sistemler inşa etme alanıdır.
Bugün var olanların çoğu dar AI (veya zayıf AI): belirli koşullar altında belirli görevler için tasarlanmış ve eğitilmiş sistemlerdir. Kedileri ve köpekleri sınıflandıran bir görüntü sınıflandırıcı veya bankacılık soruları için ayarlanmış müşteri hizmetleri sohbet botu, o niş içinde son derece yetkin olabilir ama dışına çıktığında kötü başarır.
Yapay Genel Zekâ (AGI) ise çok farklıdır. Bir sistemin:
Pratik bir kural: bir AGI prensipte, zaman ve kaynak verildiğinde, her yeni görev için özel bir yeniden tasarım gerektirmeden neredeyse insanın öğrenebileceği herhangi bir entelektüel işi öğrenebilir.
Yakın terimler sıkça görünür:
Buna karşılık, modern sohbet botları ve görüntü modelleri dar kalır: etkileyicidirler ama belirli verilerdeki kalıplar için optimize edilmişlerdir, açık uçlu, alanlar arası zekâ için değil.
Modern AGI hayali Alan Turing’in 1950 teklifine dayanır: bir makine insanla ayırt edilemez bir sohbet sürdürürse (Turing testi), akıllı sayılabilir mi? Bu, genel zekâyı büyük ölçüde davranış, özellikle dil ve muhakeme bağlamında çerçevelendirdi.
1950’lerden 1980’lere kadar araştırmacılar sembolik AI ya da “GOFAI” (Good Old-Fashioned AI) yoluyla AGI’yi takip ettiler. Zekâ, açık sembolleri mantıksal kurallara göre manipüle etmek olarak görülüyordu. Teorem ispatlama, oyun oynama ve uzman sistemler insan düzeyinde muhakemenin yakın olduğunu düşündürdü.
Ama GOFAI algılama, sağduyu ve gerçek dünya verileriyle başa çıkmada zorlandı. Sistemler mantık bulmacalarını çözebilir ama bir çocuğun kolayca yaptığı görevlerde başarısız olabiliyordu. Bu uçurum ilk büyük AI kışlarına ve AGI’ye daha temkinli bir bakışa yol açtı.
Veri ve hesaplama arttıkça, AI el yapımı kurallardan örneklerden öğrenmeye kaydı. İstatistiksel makine öğrenmesi, sonra derin öğrenme ilerlemeyi yeniden tanımladı: bilgi kodlamak yerine sistemler büyük veri kümelerinden kalıpları öğrenir.
IBM’in DeepBlue (satranç) ve sonra AlphaGo (Go) gibi dönüm noktaları genel zekâya doğru adımlar olarak kutlandı. Gerçekte, her biri sabit kurallar altında tek bir oyunu son derece özelleşmiş şekilde ustalaştırmıştı ve günlük akıl yürütmeye transferleri yoktu.
GPT serisi dilde başka bir büyük sıçrama yaptı. GPT-3 ve GPT-4 denemeler yazabiliyor, kod üretebiliyor ve üslupları taklit edebiliyor; bu da AGI’nin yakın olduğu spekülasyonlarını körükledi.
Yine de bu modeller hâlâ metin üzerindeki desen öğrenicileridir. Amaçları yoktur, dünyaya dayalı modeller kurmazlar veya özerkçe yetkinliklerini genişletmezler.
Sembolik AI, klasik makine öğrenmesi, derin öğrenme ve şimdi büyük dil modelleri dalgalarında, AGI hayali dar başarıların üzerine tekrar tekrar projekte edildi ve sınırları ortaya çıktıkça revize edildi.
LLM'ler, kitaplar, web siteleri, kod, forumlar ve daha fazlasından oluşan devasa metin koleksiyonlarında eğitilen desen öğrenicilerdir. Amaç şaşırtıcı derecede basittir: verilen bir metinde bir sonraki tokenin ne olacağını tahmin etmek.
Eğitimden önce metin token'lara bölünür: bunlar tüm kelimeler ("kedi"), kelime parçaları ("ilgi", "li"), ya da noktalama işaretleri olabilir. Eğitim sırasında model şu tür dizileri tekrar tekrar görür:
"Kedi ___ üzerine oturdu"
ve muhtemel sonraki tokenlere ("halı", "divan") yüksek, mantıksız olanlara ("cumhurbaşkanlığı") düşük olasılık atamayı öğrenir. Trilyonlarca token üzerinde ölçeklendiğinde bu süreç milyarlarca iç parametreyi şekillendirir.
Perdenin arkasında model, bir token dizisini bir sonraki token için olasılık dağılımına dönüştüren çok büyük bir fonksiyondur. Eğitim, parametreleri tahminleri verideki kalıplara daha uygun hale getirmek için gradyan inişiyle ayarlar.
"Ölçeklenme yasaları", araştırmacıların gözlemlediği düzenliliği tanımlar: model boyutu, veri miktarı ve hesaplama arttığında performans öngörülebilir şekilde genellikle iyileşir. Daha büyük modeller daha fazla metinle eğitildiğinde genellikle tahmin konusunda daha iyi olur—veri, hesaplama ve eğitim kararlılığı gibi pratik sınırlara kadar.
LLM'ler bir veritabanı gibi gerçekleri saklamaz veya insan gibi mantık yürütmez. Onlar istatistiksel düzenlilikleri kodlar: hangi kelimeler, ifadeler ve yapılar hangi bağlamlarda birlikte görülme eğiliminde.
Algılama veya fiziksel deneyime bağlı kavramları temellendirmiş değiller. Bir LLM "kırmızı"yı veya "ağır"ı sadece bu kelimelerin metinde nasıl kullanıldığı üzerinden konuşabilir, renkleri görerek veya nesneleri kaldırarak değil.
Bu yüzden modeller bilgiliymiş gibi konuşup hâlâ güvenli hatalar yapabilir: kalıpları genişletiyorlar, gerçekliğe danışmıyorlar.
Ön-eğitim uzun ilk fazdır; model büyük metin kütüphanelerinde sonraki tokeni tahmin ederek genel dil kalıplarını öğrenir. Çoğu yetenek burada ortaya çıkar.
Bundan sonra ince ayar, önceden eğitilmiş modeli daha dar hedeflere uyarlamak içindir: talimat izleme, kod yazma, çeviri veya belirli alanlarda yardımcı olma. Model istenen davranış örnekleri gösterilerek hafifçe ayarlanır.
İnsan geri bildiriminden takviyeli öğrenme (RLHF) başka bir katman ekler: insanlar model çıktılarının derecelendirmesini veya karşılaştırmasını yapar ve model insanların tercih ettiği cevapları üretmek üzere optimize edilir (daha yardımcı, daha az zararlı, daha dürüst gibi). RLHF modele yeni duyular veya daha derin anlayış vermez; esasen modelin zaten öğrendiğini nasıl sunduğunu ve filtrelediğini şekillendirir.
Bu adımlar birlikte, istatistiksel kalıpları kullanarak akıcı metin üretmede son derece iyi sistemler yaratır—ama bu, yerleşik bilgi, hedefler veya farkındalık olmadığı anlamına gelir.
Büyük dil modelleri etkileyici görünür çünkü bir zamanlar makinelerin erişemeyeceği düşünülen geniş görev yelpazesini yapabiliyorlar.
LLM'ler çalışan kod parçacıkları üretebilir, mevcut kodu refaktörleyebilir ve bilinmeyen kütüphaneları basit dille açıklayabilir. Birçok geliştirici için zaten oldukça yetenekli bir eş- programcı gibi çalışırlar: kenar durumları önermek, bariz hataları yakalamak ve modüller iskeleti oluşturmak.
Uzun bir rapor, makale veya e-posta zinciri verildiğinde, bir LLM bunu ana noktalar halinde yoğunlaştırabilir, eylem maddelerini vurgulayabilir veya farklı kitleler için tonu uyarlayabilir.
Çeviri de güçlü bir alan. Modern modeller onlarca dili işlemede iyi olup, günlük profesyonel iletişim için üslup ve kayıt inceliklerini çoğunlukla yakalar.
Modeller ölçeklendikçe, "aniden ortaya çıkan" gibi görünen yeni yetenekler beliriyor: mantık bulmacalarını çözmek, mesleki sınavları geçmek veya önceki versiyonların başaramadığı çok adımlı talimatları takip etmek. Standartlaştırılmış benchmark'larda—matematik kelime problemleri, baro sınavı soruları, tıp sınavları—en iyi LLM'ler artık ortalama insan puanına ulaşıyor veya aşıyor.
Bu ortaya çıkan davranışlar insan benzeri "akıl yürütme" veya "anlayış" varmış izlenimi veriyor. Performans grafikleri ve liderlik tabloları AGI'ye yaklaşıyoruz fikrini güçlendiriyor.
LLM'ler veride görülen kalıplara uygun şekilde metni devam ettirmek üzere eğitilir. Bu eğitim hedefi ve ölçek, uzmanlığı ve ajansı taklit etmek için yeterlidir: kendinden emin görünürler, oturum içinde bağlamı hatırlar gibi davranırlar ve akıcı gerekçelendirme sunabilirler.
Ancak bu bir anlayış yanılsamasıdır. Model çalıştırıldığında kodun ne yapacağını, bir teşhisin bir hasta için ne anlama geldiğini veya bir planın hangi fiziksel eylemleri getireceğini bilmez. Dünya ile metnin ötesinde bir temeli yoktur.
İnsanlara yönelik testlerde güçlü performans—hatta insanlar için tasarlanmış testlerde—otomatik olarak AGI demek değildir. Bu, metin verisi üzerinde büyük ölçekli desen öğrenmenin birçok uzman beceriyi yaklaşık olarak taklit edebileceğini gösterir; ama genellikle kastedilen esnek, temellendirilmiş, alanlar arası zekâyı göstermiyor.
Büyük dil modelleri olağanüstü metin tahminçileridir, ama bu tasarımın kendisi onların ne olabileceğine dair sert sınırlar yaratır.
LLM'ler görmez, duymaz, hareket etmez veya nesneleri manipüle etmez. Dünyayla tek teması metin (ve bazı yeni modellerde statik görüntüler veya kısa klipler) üzerinden olur. Sürekli bir duyusal akışları, bir bedeni ve sonuçları gözlemleyip eylemde bulunma yolları yoktur.
Algılayıcılar ve bedenlenme olmadan, sürekli güncellenen temellendirilmiş bir gerçeklik modeli kuramazlar. "Ağır", "yapışkan" veya "kırılgan" gibi kelimeler metindeki istatistiksel komşulardır, yaşanmış kısıtlar değil. Bu, anlayışı taklit etmeye izin verir ama doğrudan etkileşimden öğrenmek yerine geçmiş tanımları yeniden birleştirmeye sınırlar.
Bir LLM bir token dizisini uzatmak için eğitildiğinden, öğrendiği kalıplara en iyi uyan devamı üretir; bu, doğru olandan ziyade olası görünene dayanır. Veri seyrek veya çelişkili olduğunda, mantıklı ses çıkaran uydurmalarla boşlukları doldurur.
Model ayrıca kalıcı bir inanç durumuna sahip değildir. Her yanıt, prompt ve ağırlıklardan taze üretilir; insanın yaptığı gibi inançları içsel olarak sürdürmez ya da revize etmez. Uzun süreli hafıza özellikleri harici depolama ile eklenebilir, ama çekirdek sistem insan benzeri bir "fikir defteri" tutmaz.
Bir LLM eğitimi çevrimdışı, kaynak yoğun bir toplu süreçtir. Bilgiyi güncellemek genellikle yeniden eğitim veya yeni bir veri kümesi üzerinde ince ayar anlamına gelir; her etkileşimden akıcı şekilde öğrenmek yoktur.
Bu, modelin dünyadaki hızlı değişiklikleri güvenilir şekilde takip edememesi, kavramlarını süregelen deneyime göre uyarlayamaması ya da adım adım öğrenmeyle derin yanlış anlamaları düzeltememesi gibi bir sınırlama yaratır. En iyi ihtimalle, ek promptlar veya bağlanan araçlarla böyle bir uyumu simüle edebilir.
LLM'ler hangi kelimelerin birlikte göründüğünü, hangi cümlelerin genellikle birbirini izlediğini ve açıklamaların nasıl göründüğünü yakalamada iyidir. Ama bu, dünyanın nasıl ve neden işlediğini kavramak demek değildir.
Nedensel anlayış; hipotezler kurmayı, müdahale etmeyi, neyin değiştiğini gözlemlemeyi ve tahminler başarısız olduğunda iç modelleri güncellemeyi içerir. Sadece metin tahmini yapan bir sistemin müdahale etme ya da şaşırma yolları yoktur. Bir deneyi tarif edebilir ama onu gerçekleştiremez. Nedensel dili yankılayabilir ama eylem ve sonuçlarla bağlı bir iç mekanizma yoktur.
Bir sistem geçmiş metinden metin tahminiyle sınırlı kaldığı sürece temelde bir desen öğrenicisidir. Akıl yürütmeyi taklit edebilir, nedenleri anlatabilir ve görüşlerini revize ediyormuş gibi görünebilir ama inançlarının sonuçlarla test edildiği paylaşılan bir dünyada yaşamaz. Bu boşluk, dil ustalığının tek başına yapay genel zekâya ulaşmasının zor olmasının merkezî nedenidir.
Dil zekânın güçlü bir arayüzüdür ama zekânın özü değildir. Makul cümleleri tahmin eden bir sistem, dünyayı anlayan, planlayan ve hareket eden bir ajandan çok farklıdır.
İnsanlar kavramları görerek, dokunarak, hareket ederek öğrenir. "Bardak" sadece cümlelerde nasıl kullanıldığı değil; onu kavrayıp, doldurup, düşürebileceğiniz veya kırabileceğiniz bir şeydir. Psikologlar bu sürece temellendirme der: kavramlar algı ve eyleme bağlıdır.
Bir yapay genel zekâ muhtemelen benzer bir temellendirmeye ihtiyaç duyar. Güvenilir genelleme yapabilmek için, sembolleri (sözcükler veya iç temsiller) fiziksel ve sosyal dünyadaki kararlı düzenliliklerle ilişkilendirmelidir.
Oysa standart büyük dil modelleri yalnızca metinden öğrenir. Bardak kavramları, milyarlarca cümledeki kelime korelasyonlarından ibarettir. Konuşma ve kodlama için güçlüdür; ama doğrudan etkileşim gerektiren alanlarda zayıftır.
Genel zekâ aynı zamanda zaman içinde süreklilik içerir: uzun vadeli hafıza, kalıcı hedefler ve nispeten istikrarlı tercihler. İnsanlar deneyimler biriktirir, inançlarını revize eder ve aylarca veya yıllarca projeler sürdürür.
LLM'lerin kendi etkileşimleriyle doğuştan gelen kalıcı bir hafızası ve içsel hedefleri yoktur. Herhangi bir süreklilik veya "kişilik" harici araçlarla (veritabanları, profiller, sistem promptları) eklenmelidir. Varsayılan olarak her sorgu yeni bir kalıp eşleştirme egzersizidir, tutarlı bir yaşam hikâyesinin adımı değil.
AGI genellikle, yeni görevleri çözebilme, nedensellik üzerine akıl yürütebilme ve çevreye müdahale ederek sonuçlar elde etme yeteneğiyle tanımlanır. Bu şunları içerir:
LLM'ler ajan değildir; bir dizide bir sonraki tokeni üretirler. Metin içinde planları tanımlayabilir veya nedensellik hakkında konuşabilir çünkü metinde bu kalıplar mevcuttur; ama doğal olarak eylemde bulunup sonuçları gözlemleyip iç modellerini ayarlamazlar.
LLM'yi bir eyleyici sisteme dönüştürmek için mühendisler onu algı, hafıza, araç kullanımı ve kontrol için dış bileşenlerle sarmak zorundadır. Dil modeli güçlü bir öneri ve değerlendirme modülü olur; kendi başına eksiksiz genel zekâ ajanı olmaz.
Kısacası genel zekâ temellendirilmiş kavramlar, süreklilik arzusu, nedensel modeller ve dünyayla uyumlu adaptif etkileşim gerektirir. Dil ustalığı—çok faydalı olmakla birlikte—o büyük resmin yalnızca bir parçasıdır.
Akıcı bir modelle sohbet ettiğinizde karşınızda bir zihin olduğunu varsaymak doğal gelir. Yanılsama güçlüdür ama yanılsamadır.
Araştırmacılar, AGI'nin bilinçli olması gerekip gerekmediği konusunda görüş ayrılığına sahip.
Bunu çözecek test edilebilir bir teori henüz yok. Bu yüzden AGI'nin mutlaka bilinçli olması gerektiğini ya da olmaması gerektiğini ilan etmek erken olur. Şu an için önemli olan, mevcut LLM'lerin neyden yoksun olduğunu netleştirmektir.
Büyük bir dil modeli bir metin anlık-görüntüsü üzerinde çalışan istatistiksel bir sonraki-token tahmincisidir. Oturumlar arasında veya hatta dönüşler arasında bile stabil bir kimliğe sahip değildir; sadece prompt ve kısa bağlam içinde kodlanmış görünümler vardır.
Bir LLM "ben" dediğinde, veri setinden öğrenilmiş dilsel konvansiyonları takip eder; içsel bir özneden bahsetmez.
Bilinçli varlıklar deneyimler yaşar: acı, sıkılma, merak, tatmin hissi. Aynı zamanda içsel hedefleri ve önemsedikleri şeyler vardır—dış ödüllerden bağımsız olarak önem verirler.
LLM'ler ise:
Davranışları, eğitim ve prompt tarafından şekillendirilen kalıp eşleştirmelerin ürünüdür; iç yaşamın ifadesi değildir.
Dil, başka zihinlere bakışımızdaki ana penceredir; akıcı diyalog, güçlü biçimde kişi olma izlenimi verir. LLM'lerde ise tam olarak bu alanda en kolay aldanıyoruz.
İnsanlaştırmak şunlara yol açabilir:
LLM'leri insan muamelesi yapmak, simülasyon ile gerçeklik arasındaki çizgiyi belirsizleştirir. AGI ve mevcut AI risklerini düşünmek için, ikisinin aynı şey olmadığını hatırlamamız gerekir.
Eğer bir gün yapay genel zekâ inşa edersek, bunun çok ikna edici bir sohbet botu değil gerçekten AGI olduğunu nasıl anlarız?
Turing tarzı testler. Klasik ve modern Turing testleri sorar: sistem, insanı kandıracak kadar insan gibi sohbet sürdürebiliyor mu? LLM'ler bunu şaşırtıcı derecede iyi yapıyor; bu da bu barın ne kadar zayıf olduğunu gösterir. Sohbet yeteneği stil ölçer, anlayış, planlama veya gerçek dünya yetkinliği değil.
ARC tarzı değerlendirmeler. Alignment Research Center ilhamlı görevler, yeni muhakeme bulmacaları, çok adımlı talimatlar ve araç kullanımı üzerine odaklanır. Sistemin daha önce hiç görmediği problemleri yeni yollarla bileşik becerilerle çözüp çözemeyeceğini sınar. LLM'ler bazılarını yapabiliyor—ama genellikle dikkatlice tasarlanmış promptlar, dış araçlar ve insan denetimi gerekiyor.
Ajans testleri. Önerilen "ajan" testleri sistemin zaman içinde açık uçlu hedefleri takip edip edemeyeceğini; alt hedeflere ayırıp planları gözden geçirip duraksamaları yönetip öğrenip öğrenemeyeceğini sorar. Şu anki LLM tabanlı ajanlar ajanslı görünse de arkada kırılgan betikler ve insan tarafından tasarlanmış düzen kurulumları vardır.
Gerçek AGI olarak değerlendirmek için en az şunları görmek isteriz:
Otonomi. Kendi alt hedeflerini belirlemeli, ilerlemeyi izlemeli ve insan tarafından sürekli yönlendirme olmadan hatalardan toparlanabilmeli.
Alanlar arası transfer. Bir alanda öğrenilen beceriler, milyonlarca yeni örneğe yeniden eğitim gerektirmeden çok farklı alanlara aktarılabilmeli.
Gerçek dünya yetkinliği. Eksik kuralların ve gerçek sonuçların olduğu karmaşık fiziksel, sosyal ve dijital ortamlarında planlama ve eylem yapabilmeli.
LLM'ler, ajan çerçevelerine sarıldıklarında bile genellikle:
Bu yüzden sohbet tabanlı testleri ya da dar benchmark setlerini geçmek yeterli değil. Gerçek AGI'yi tanımak, daha fazla süreklilik, alanlar arası genelleme ve güvenilir eylem gibi alanlara bakmayı gerektirir—şu anki LLM'ler buralarda çokça destek gerektirir ve sonuçları kırılgandır.
AGI'yi ciddiye alırsak, "büyük bir metin modeli" yalnızca bir bileşen, bitmiş sistem değil. Bugün "AGI'ye doğru" gibi görünen çoğu araştırma aslında LLM'leri daha zengin mimarilerin içine sarmayı amaçlıyor.
Bir ana yön, LLM tabanlı ajanlardır: LLM'yi muhakeme ve planlama çekirdeği olarak kullanan ama etrafını şunlarla saran sistemler:
Burada LLM bütün "zekâ" olmaktan çıkar ve daha geniş bir karar verme makinesinin esnek bir dil arayüzü haline gelir.
Araç-kullanan sistemler LLM'lerin arama motorlarını, veri tabanlarını, kod yorumlayıcıları veya alan özel API'leri çağırmasına izin verir. Bu sayede:
Bu yamalar bazı eksiklikleri telafi eder ama sorunu başka bir yere kaydırır: genel zekâ artık yalnızca modelin değil orkestrasyon ve araç tasarımının başarısına bağlıdır.
Bir diğer yol, metin, görüntü, ses, video ve bazen sensör verilerini işleyen çok-modlu modellerdir. Bunlar insanların algı ve dili nasıl bütünleştirdiğine daha yakınlaşır.
Bir adım daha gidince LLM'lerin robotlar veya simüle edilmiş bedenleri kontrol ettiği sistemlerle karşılaşırsınız. Bu sistemler keşfedip, eylemde bulunup fiziksel geri bildirimden öğrenerek nedensellik ve temellendirme eksikliklerini kısmen giderebilir.
Bu yolların hepsi bizi AGI-benzeri yeteneklere daha yakın getirebilir, ama aynı zamanda araştırma hedefini değiştirir. Artık "Tek bir LLM AGI olabilir mi?" değil, "LLM, araçlar, hafıza, algı ve bedenlenmeyi içeren karmaşık bir sistem genel zekâyı yaklaşık olarak taklit edebilir mi?" sorusunu sorarız.
Bu ayrım önemlidir. LLM güçlü bir metin tahmincisidir. AGI—eğer mümkünse—dil sadece bir parçası olan bütünsel entegre bir sistem olur.
Büyük dil modellerini "AGI" diye adlandırmak sadece bir kelime hatası değildir. Teşvikleri çarpıtır, güvenlik kör noktaları yaratır ve AI konusunda gerçek kararlar vermek zorunda olan insanları yanıltır.
Demoslar "erken AGI" diye çerçevelendiğinde beklentiler sistemlerin gerçek yapabileceklerinin çok ötesine geçer. Bu abartının bedelleri vardır:
Kullanıcılar bir sistemin "genel" veya "neredeyse insan" olduğunu düşündüğünde:
Aşırı güven sıradan hataları çok daha tehlikeli hale getirir.
Düzenleyiciler ve halk AI yeteneklerini takip etmekte zorlanıyor. Her güçlü tamamlayıcı otomatik tamamlama AGI olarak pazarlanırsa:
"LLM", "dar model", "AGI araştırma yönü" gibi net terimler beklentileri gerçekle hizalar. Bu sayede:
LLM'ler devasa miktarda metni istatistiksel bir modele sıkıştıran ve muhtemel devamları tahmin eden son derece yetenekli desen makineleridir. Yazı yardımı, kod desteği, veri keşfi ve fikir prototipleme için güçlüdürler. Ancak bu mimari hâlâ dardır. Kalıcı bir benlik, temellendirilmiş dünya anlayışı, uzun vadeli hedefler veya alanlar arası esnek öğrenme sağlamaz—bunlar AGI'yi tanımlayan özelliklerdir.
LLM'ler:
Bu yapısal sınırlamalar, sadece metin modellerini ölçeklendirmenin gerçek AGI'ye ulaşma olasılığını düşürmesinin nedenidir. Daha iyi akıcılık, bilgi hatırlama ve akıl yürütme simülasyonları elde edebilirsiniz—ama gerçekten bilen, isteyen veya önemseyen bir sistem elde edemezsiniz.
LLM'leri kalıp tahmini güçlü olduğu alanlarda kullanın:
İnsanları kesinlikle süreçte tutun:
Çıktıları doğrulanacak hipotezler olarak ele alın; sorgulanmadan kabul edilecek gerçekler olarak değil.
LLM'leri "AGI" diye adlandırmak onların gerçek sınırlarını gizler ve aşırı güven, düzenleme karmaşası ile yanlış korkulara davetiye çıkarır. Daha dürüst ve güvenli olan, onları insan iş akışlarına gömülü gelişmiş asistanlar olarak görmek.
Eğer AGI mümkünse, muhtemelen dilin yalnızca bir parçası olduğu bütünleşik bir sistem olacaktır.
Daha derin pratik kullanımlar ve ödünler hakkında daha fazlasını öğrenmek isterseniz blog bölümümüze bakın. LLM destekli araçları nasıl paketlediğimiz ve fiyatlandırdığımıza dair ayrıntılar için fiyatlandırma sayfamızı inceleyin.
AGI (Artificial General Intelligence), şu yeteneklere sahip bir sistemi ifade eder:
Yaklaşık bir kural: AGI, zaman ve kaynak verildiğinde, insanın entelektüel olarak zorlayıcı çoğu işini özel bir mimari gerektirmeden öğrenip yapabilir.
Günümüz LLM'leri şunlardır:
Bu sistemler geniş bilgi ve akıl yürütmeyi benzetebilir çünkü dil çok fazla insan bilgisini kodlar. Ancak onlar:
İnsanlar genellikle akıcı dili genel zekâ ile karıştırır çünkü:
Bu durum bir anlayış ve ajans yanılsaması oluşturarak LLM'leri olduğundan daha 'zihinsel' gösterir. Temeldeki sistem hâlâ verideki kalıplara dayanarak metin tahmini yapan bir yapıdır; yerleşik, deneyimsel bir dünya modelini kurup kendi hedeflerini takip eden bir sistem değildir.
Bir LLM'i şu şekilde düşünebilirsiniz:
Temel noktalar:
LLM'ler, çoğunlukla metin veya kod üzerindeki desen tahmini söz konusu olduğunda müthiş işler çıkarır, örneğin:
Zorlandıkları veya riskli hale geldikleri durumlar:
“Scaling laws” (ölçeklenme yasaları), model boyutu, veri ve hesaplama arttıkça birçok benchmark'ta performansın düzenli olarak iyileştiğini gösterir. Ancak sadece ölçeği büyütmek yapısal eksiklikleri düzeltmez:
Daha fazla ölçek:
LLM'leri güçlü asistanlar olarak kullanın, otoriteler olarak değil:
Ürünlerinizi ve süreçlerinizi şöyle tasarlayın:
Bugünkü LLM'leri “AGI” diye pazarlamak veya düşünmek birkaç soruna yol açar:
Daha kesin terimler—"LLM", "dar model", "LLM kullanan ajan sistemi"—beklentileri ve riskleri gerçekçi hale getirir.
AGI'yi gerçekten inşa ettiğimizi nasıl anlardık? Sadece iyi sohbetten çok daha fazlasına bakmalıyız. Görmek isteyeceğimiz kanıtlar:
Araştırmacılar, LLM'lerin bileşen olduğu ama bütünü oluşturmadığı daha geniş sistemler üzerinde çalışıyor. Örnek yollar:
Bu yönelimler, bağlama, nedenselliğe ve kalıcı duruma katkı sağlayarak genel zekâya yaklaşmayı hedefliyor. Ancak soru değişiyor: "Tek bir LLM AGI olabilir mi?" yerine "LLM'leri içeren karmaşık sistemler AGI-benzeri davranışı ne derece taklit edebilir?"
Dolayısıyla LLM'ler dil üzerinde güçlü dar desen öğrenicileridir; kendi başına, bütünsel, kendine yeten genel zekâ ajanları değildir.
Görünen her şey—akıl yürütme veya hafıza—bu next-token hedefi, ölçek ve fine-tuning'den ortaya çıkar; açık sembolik mantık ya da kalıcı bir inanç deposundan değil.
Bu alanlarda güçlü insan denetimi ve dış doğrulama araçları (arama, hesap makineleri, simülasyonlar) gereklidir.
Ama bu otomatik olarak genel, otonom zekâ üretmez. Bunun için yeni mimari bileşenler ve sistem düzeyinde tasarımlar gerekir.
Mevcut LLM'ler, ajan iskeletleriyle bile, bu davranışları taklit etmek için ağır insan betikleri ve araç orkestrasyonuna ihtiyaç duyuyor ve hâlâ sağlamlık ile genellik açısından yetersiz kalıyor.