?>

o3 ve o4-mini, Eski Modellere Kıyasla Daha Fazla 'Halüsinasyon' Görüyor

OpenAI'ın geçtiğimiz günlerde kullanıma açtığı o3 ve o4-mini'nin eski modellere kıyasla daha fazla yanıltıcı bilgi sunduğu keşfedildi.

Gündem - 2 hafta önce

OpenAI’ın kısa süre önce tanıttığı yeni yapay zekâ modelleri o3 ve o4-mini her ne kadar özellikleri ile beğenilmiş olsalar da eski modellerdeki can sıkıcı bir sorunla geldi.

Ortaya çıkan detaylara göre bu iki yeni modelin gerçek dışı bilgiler üretme eğilimi, önceki modellere kıyasla artmış durumda. OpenAI'ın kendi testlerine göre bu yeni modeller, hem eski “akıl yürütme” modelleri olan o1, o1-mini ve o3-mini'den hem de GPT-4o gibi daha geleneksel modellerden daha fazla 'halüsinasyon' görüyor.

Daha da dikkat çekici olan ise bu artışın sebebinin henüz tam olarak anlaşılamamış olması. OpenAI yayınladığı teknik raporda bu sorunun çözümü için daha fazla araştırmaya ihtiyaç duyduklarını kabul etmiş durumda.

Teknik veriler neler söylüyor?

OpenAI’ın şirket içi testlerine göre o3 modeli, insanlarla ilgili bilgileri değerlendiren PersonQA testinde soruların %33’ünde halüsinasyon gördü. Bu oran, o1 ve o3-mini'nin sırasıyla %16 ve %14,8 olan halüsinasyon oranlarının neredeyse iki katı. O4-mini ise bu alanda %48 ile daha da kötü bir performans sergiledi.

Üçüncü parti testlerde de benzer sonuçlar ortaya çıktı. Bağımsız araştırma laboratuvarı Transluce, o3 modelinin cevap verirken tamamen gerçek dışı işlem adımları uydurma eğiliminde olduğunu ortaya koydu.

Transluce’un kurucularından ve eski OpenAI çalışanı Neil Chowdhury’ye göre bu durumun sebebi modellerin eğitiminde kullanılan yöntemler olabilir ancak net bir sebebe dayandırmak şu aşamada güç.

Gücüne şüphe yok, peki ya güvenine?

o3 modeli her ne kadar bazı görevlerde, özellikle de kodlama ve matematikte başarılı sonuçlar verse de sık sık hatalı sonuçlar üretmesi ya da gerçekte olmayan kaynaklar sunması gibi ciddi sorunlara sahip.

Öte yandan mevcut hâliyle GPT-4o, OpenAI’ın SimpleQA testinde %90 doğruluk oranı yakalayarak hâlâ güçlü bir alternatif.

ChatGPT ile ilgili diğer içeriklerimiz:

Kaynak: WEBTEKNO.COM

Haftanın Öne Çıkanları

HONOR, Yeni Power Serisini Tanıttı: İşte Özellikleri

2025-04-15 23:42 - Gündem

Yüksek Mahkeme'den ‘Engelsiz Adalet' vurgusu

2025-04-19 18:03 - Kıbrıs

3 Milyon 500 Bin TL'lik büyük ikramiye, ‘46908’ numaralı bilete isabet etti

2025-04-16 07:23 - Kıbrıs

Öztürkler, tedavisi devam eden TBMM Başkanvekili Önder’i ziyaret etti

2025-04-19 18:08 - Kıbrıs

ChatGPT'ye Görsel Kütüphanesi Geldi

2025-04-16 08:23 - Gündem

İsrail'in Gazze'ye saldırıları. Hayatını kaybedenlerin sayısı 51 bin 157'ye yükseldi

2025-04-19 18:28 - Gündem

Kahramanmaraş'ta 4.1 büyüklüğünde deprem

2025-04-16 08:27 - Gündem

Apple, Haptik Tuşlara Sahip iPhone Üzerinde Çalışıyor

2025-04-19 18:47 - Gündem

Sırrı Süreyya Önder'in ameliyatı sona erdi

2025-04-16 08:32 - Gündem

Yapay zekanın kötü amaçlı kullanımına dikkat!

2025-04-19 19:12 - Kıbrıs

İlgili Haberler

2025'in En Çok Satan Akıllı Telefon Markaları Belli Oldu

23:18 - Gündem

Her gün farklı bir aktivite yapmak, bilişsel sağlığı güçlendirebilir

23:08 - Gündem

DeepSeek, Prover V2’yi Yayımladı: İşte Detaylar

22:37 - Gündem

iPhone 17 Serisine Dair En Net Görüntüler Yayımlandı | Webtekno

22:18 - Gündem

Hindistan, hava sahasını Pakistan'a ait uçuşlara kapattı

21:43 - Gündem

Günün Manşetleri

Hindistan, hava sahasını Pakistan'a ait uçuşlara kapattı

21:43 - Gündem

İngiliz turistin organları 3 kişiye hayat verdi

21:27 - Gündem

İsrail, yangınlar nedeniyle uluslararası yardım talebinde bulundu

20:17 - Gündem

BAY-SEN Başkanı Sakallı:Biz de tüm çalışanlar için sosyal adalet, eşitlik ve demokrasi istiyoruz

20:03 - Kıbrıs

Ataoğlu, 1 Mayıs’ın, emeğin, dayanışmanın ve adaletin haykırıldığı gün olduğunu vurguladı

19:18 - Kıbrıs