Büyük dil öğrenme modelleri hakkındaki yaklaşımların hepsi olumlu değildir. Şüpheci argümanlardan biri de Stokastik Papağan argümanıdır. Bu argüman, büyük dil öğrenme modellerinin farklı örüntüleri taklit ettiği ve gerçek bir algılama kapasitesine sahip olmadığını iddia eder.
Son yıllarda hayatımıza giren yapay zeka teknolojileri kendini en belirgin şekilde bir büyük dil modeli olan ve OpenAI’ın geliştirdiği ChatGPT ile göstermekte. Geliştirilen bu teknoloji sorularımıza ve günlük problemlerimize cevap vermekte, ayrıca ek hizmetleriyle birlikte kurumsal ihtiyaçları da karşılamaktadır.
Yapay zeka dediğimiz zaman felsefi, biyolojik, etik ve bilgisayar bilimleri alanlarında birçok soru ortaya çıksa da genelde herkesin değerlendirmekte zorlandığı şey bu ve benzeri uygulamaların aslında ne kadar zeki olduğu. Biyolojik olarak aşina olduğumuz beyin ve zeka arasındaki bağlantının dahi tanımı akademik alanlarda tartışmalıyken bir de üzerine bunun yapay versiyonu ortaya çıkınca doğal olarak farklı disiplinlerde sorulan sorular da farklı bir boyut kazanıyor.
ChatGPT ve epistemoloji
Simon Goldstein ve B.A Levinstein hazırladıkları “Does ChatGPT Have a Mind?” başlıklı çalışmada; bahsettiğimiz büyük dil modellerinin bir zihne sahip olup olmadığını incelemektedirler. Makale büyük dil modellerinin istek, inanç, zihinsel durum gibi halk psikolojisini ilgilendiren kavramlara ilişkisini de değerlendirmektedir. Araştırmada felsefi temellendirme ve temsil teorileri konularına değinildiğinde, öncelikle büyük dil öğrenme modellerinin çeşitli felsefi temsil teorilerine göre farklı zihinsel durumlara sahip olup olmadığı ele alınmıştır.
Enformasyon teorileri, yapısal izomorfizm ve nedensel teoriler gibi farklı yaklaşımlar değerlendirilmiş ve bunun sonucunda büyük dil öğrenme modellerinin bu koşulları sağladığı kanısına varılmıştır. Konuyla alakalı enformasyon taşıma kapasitesi açısından bir örnek verirsek; burada büyük dil öğrenme modellerinin içsel durumlardan dış dünya hakkında enformasyon taşıdığı ve bu enformasyonların model çıktıları üzerinde de nedensel etkiler yarattığını ifade edebiliriz. Bununla birlikte büyük dil öğrenme modelleri içsel durumlarının dünya ile ilgili bilgileri taşıdığını ve bu bilgilerin modelin davranışlarını belirlemede kritik bir rol oynadığını göstermektedir. Bunun ifade ettiği anlam ise büyük dil öğrenme modellerinin sadece metinleri ezberlemediği, bu metinlerden dünya hakkında anlamlı temsiller oluşturabildiğidir.
Çalışmalarında Goldstein ve Levinstein, halk psikolojisi ve halkların eylemlerine yönelik konuları da büyük dil öğrenme modelleri kapsamında değerlendirmişlerdir. Burada büyük dil öğrenme modellerinin zihinsel durumlara sahip olabilmesi için sadece içsel temsillere değil, aynı zamanda eyleme yönelik sağlam eğilimlere de sahip olması gerektiği tartışılmaktadır. Goldstein ve Levinstein, büyük dil modellerinin oyunlar gibi belirli durumlarda eyleme yönelik planlar geliştirebildiğini, ancak bu konuda verilerin henüz kesin olmadığını belirtmektedirler. Bu, büyük dil öğrenme modellerinin inanç, arzu ve ön yargılara sahip olabileceği fikrini desteklese de, konu hakkında daha fazla araştırma yapılması gerektiği sonucuna varmışlardır.
Yapay Zeka’nın yarattığı septisizm
Büyük dil öğrenme modelleri hakkındaki yaklaşımların hepsi olumlu değildir. Araştırmacılar çalışmaları içerisinde bahsettiğimiz dil modelleri ile ilgili şüpheci yaklaşımları da ele almaktadır. Bu yaklaşımlar dil modellerinin temsil yetenekleri ile ilgilidir. Burada ilk olarak duygusal temellendirmeden bahsedilmiştir. Bu yaklaşım büyük dil öğrenme modellerinin doğrudan dış dünya ile bağlantıları olmadığı için bir anlam oluşturamayacağını iddia etmektedir. Fakat söz konusu çalışma içerisindeki yazarlar bu modellerin gerçek dünya hakkında hipotezler geliştirebildiğini ve dolaylı nedensel bağlantılar kurabildiğini savunmaktadırlar.
Şüpheci argümanlardan biri de Stokastik Papağan argümanıdır. Bu argüman büyük dil öğrenme modellerinin farklı örüntüleri taklit ettiği ve gerçek bir algılama kapasitesine sahip olmadığını iddia eder. Araştırmanın yazarları ise bu modellerin bir şekilde yapılandırılmış içsel temsiller geliştirdiğini ve bu temsillerin basit örüntü eşleştirmesinin önüne geçtiğini belirtmektedirler. Son olarak farklı araştırmalarda şüpheciler, büyük dil modellerinin sadece eğitim verilerini ezberlediğini iddia etmektedirler. Fakat buradaki çalışmada söz konusu modellerin verdikleri cevaplarda eğitim verilerinden genelleme yapabildikleri ve bu bağlamda yeni durumlar hakkında doğru tahminlerde bulunabildikleri gösterilmiştir.
Araştırma, büyük dil öğrenme modellerinin dünya hakkında güçlü içsel temsillere sahip olduğunu ve eyleme yönelik eğilimleri incelemeye devam etmenin önemli olduğunu vurgulamaktadır. Şüpheci yaklaşımların ise mevcut verilerle tam olarak desteklenmediğini göstermektedir. Burada, Goldstein ve Levinstein, bahsettikleri modellerin halk psikolojisi açısından farklı zihinsel durumlara sahip olabileceğini, gelecekte de konu hakkında daha fazla çalışmaya ihtiyaç olduğunu belirmişlerdir.
“Does ChatGPT Have a Mind?” başlıklı makale, yapay zeka sistemlerinin bir zihne sahip olma olasılığını derinlemesine felsefi bir perspektiften ele almıştır. Çalışmanın detaylarında da bu görülmektedir. Ayrıca makale, büyük dil modellerinin temsil yetenekleri ve eyleme yönelik eğilimleri üzerine ikna edici argümanlar ortaya koyarak bu konuda önemli tartışmaların önünü açmıştır.
Yazarlar, şüpheci yaklaşımlara karşı sundukları güçlü karşı argümanlarla, büyük dil öğrenme modellerinin insana benzer zihinsel durumlara sahip olabileceği fikrini desteklemekle birlikte her anlamda farklı perspektiflerden çalışmalara ihtiyaç olduğunu göstermişlerdir. Alandaki çalışmalar gün geçtikçe farklı bir boyut kazansa da farklı disiplinlerden gelecek yeni çalışmalar zekanın kökeni ve yapısıyla alakalı bizlere ufuk açıcı bir yolculuk sunacak gibi görünüyor. Umarım bu gelişmeleri takip edecek enerjiyi ve tutkuyu içimizde canlı tutabiliriz.