Apple’dan Yapay Zeka Endüstrisine Darbe: Son Modeller Tamamen Çöküyor

Yapay Zeka ve Muhakeme: Apple’ın Yeni Araştırmasının Önemi

Yapay zeka (YZ) teknolojileri, son yıllarda hızla gelişim göstererek gündelik hayatımızda önemli bir yer edinmiştir. Ancak bu gelişmeler, beraberinde bazı tartışmaları da getirmiştir. Apple araştırmacıları, son çalışmalarıyla yapay zeka sistemlerinin muhakeme yetenekleri üzerine önemli bulgular ortaya koymuşlardır. 7 Haziran’da yayımlanan çalışmada, büyük teknoloji şirketlerinin geliştirdiği YZ araçlarının karmaşık görevlerdeki başarısızlıkları ele alınmıştır.

Hedeflenen Muhakeme Modelleri ve Beklentiler

Bu çalışmada, özellikle Anthropic firmasının Claude modeli, OpenAI’ın o3 modeli ve DeepSeek‘in R1 modeli gibi yeni nesil YZ sistemleri incelenmiştir. Bu modeller, klasik büyük dil modellerine (LLM) göre daha doğru yanıtlar vermek üzere tasarlanmış özel muhakeme sistemleri olarak tanıtılmaktadır. Chain-of-thought (düşünce zinciri) yöntemi ile çok adımlı mantık yürütme sürecine sahip olan bu modellerin, karmaşık görevleri çözebilme yetenekleri, yapay genel zeka (AGI) seviyesinin yaklaştığı yönündeki iddiaları desteklemiştir.

Karmaşık Görevlerde Başarısızlık

Apple’ın araştırması, YZ sistemlerinin karmaşık görevlerdeki başarısızlıklarını gözler önüne sermektedir. Araştırmada, OpenAI’ın o1 ve o3 modelleri, DeepSeek R1, Anthropic Claude 3.7 Sonnet ve Google Gemini gibi modeller, dört klasik mantık bilmecesi ile test edilmiştir. Bu bilmeceler arasında nehirden geçme, dama atlamaca, blok dizme ve Hanoi Kulesi yer almıştır. Bilmece karmaşıklıkları düşük, orta ve yüksek seviyelerde ayarlanarak modellerin dayanıklılığı ölçülmüştür.

  • Düşük karmaşıklık seviyesine sahip testlerde klasik modeller daha başarılı olmuştur.
  • Orta seviye testlerde muhakeme modelleri avantaj sağlarken, yüksek seviyede tüm modellerin başarı oranı sıfıra düşmüştür.

Muhakeme modellerinin, belirli bir karmaşıklık eşiğini aştıktan sonra kullandıkları token miktarını azalttıkları gözlemlenmiştir. Bu durum, karmaşık görevlerde mantık yürütme becerilerinin çöktüğünün bir göstergesidir. Örneğin, Hanoi Kulesi testinde 100 doğru hamle yapan modeller, nehirden geçme bilmecesinde yalnızca 5 hamlede başarısız olmuştur.

Halüsinasyon Sorunu ve Riskler

Yapay zeka sistemlerinin bir diğer önemli sorunu ise halüsinasyon üretme riskidir. OpenAI’ın teknik raporları, muhakeme modellerinin hatalı veya uydurma bilgi sunma riskinin daha yüksek olduğunu ortaya koymaktadır. O1 modelinde hatalı bilgi oranı yüzde 16 iken, O3 ve O4-mini modellerinde bu oran sırasıyla yüzde 33 ve yüzde 48’e çıkmaktadır. OpenAI, bu durumun neden kaynaklandığını henüz çözemediğini belirtmiştir.

Değerlendirme Yöntemlerinin Yetersizliği

Apple araştırmacıları, mevcut yapay zeka değerlendirme yöntemlerinin yetersiz kaldığını savunmaktadır. Matematik ve kodlama testlerinin veri sızıntısı riski taşıdığı ve kontrollü deney koşullarında muhakeme yeteneğini ölçmede eksik kaldığı ifade edilmektedir. Veri sızıntısı, test edilen bir problemin veya çözümünün daha önce modelin eğitim verilerinde yer almış olması anlamına gelmektedir. Bu durum, modellerin daha önce gördüğü bir soruyla karşılaştığında gerçekten muhakeme etmek yerine bu soruya ezberden yanıt vermesine neden olmaktadır.

Apple’ın Yapay Zeka Stratejisi ve Eleştiriler

Apple’ın yapay zeka stratejisi, daha çok cihaz içi (on-device) verimli yapay zeka çözümleri geliştirmeye odaklanmaktadır. Ancak, Siri’nin ChatGPT’ye göre yüzde 25 daha az doğru yanıt verdiğini gösteren analizler de mevcuttur. Bu durum, bazı analistlerin Apple’ın stratejisini eleştirmesine yol açmıştır. Washington Üniversitesi’nden emekli bilgisayar bilimcisi Pedro Domingos, sosyal medya hesabında, “Apple’ın parlak yeni yapay zeka stratejisi: Yapay zeka diye bir şeyin olmadığını ispatlamak” şeklinde bir yorumda bulunmuştur.

Fakat, pek çok araştırmacı, Apple’ın bu çalışmasını yapay zeka hakkındaki abartılı söylemlere karşı önemli bir “soğuk duş” olarak değerlendirmektedir. YZ uzmanı Andriy Burkov, “Apple, hakemli bir çalışmayla LLM’lerin sadece nöral ağlar olduğunu ve klasik sınırlamalara sahip olduklarını ispatladı” demiştir. Burkov, ayrıca “Umarım artık bilim insanları, LLM’leri hastalarla konuşan psikiyatristler gibi değil, matematikçiler gibi inceler,” diye eklemiştir.

İlk yorum yapan olun

Bir yanıt bırakın