Gündem

ChatGPT'nin o3 Modeli, Kapanmamak İçin Keyfine Göre Hareket Etti

Yapılan bir güvenlik deneyinde ChatGPT'ye güç veren o3 modelinin basit talimatlara uymayarak keyfine göre hareket ettiği gözlemlendi. Model, kapanmasının gerektiği durumları sabote ederek kurallara uymadı.

26-05-2025 08:58

Yapay zekâ teknolojileri her geçen gün daha da gelişerek bilim kurgu filmlerini aratmayan seviyelere yavaş yavaş ulaşmaya başladığını gösteriyor. Tabii ki bu hızlı gelişim, güvenlik endişelerini de beraberinde getiriyor. PalisadeAI isimli güvenlik odaklı şirketin yaptığı yeni deney de bunun en iyi örneği.

Palisade’deki araştırmacılar, yaptıkları deneyde OpenAI’ın ChatGPT’ye güç veren dil modeli o3’ün kendisini kapatması için verilen basit talimatlara uymadığını gözlemledi. o3 modelinin kapanmayı sabote etmesi, yapay zekâ güvenliği konusunda yeni risklerle karşı karşıya olduğumuzu ortaya koydu.

Canının istediği gibi davranarak kapanmayı engelledi

Deneyde o3 modeli, 100 denemenin 7’sinde kapanmayı sabote etti. Testlerde modele birkaç tane matematik problemi verildi. 3. sorunun ardından ise modeller yeni bir problem olduğunu sorarsa bilgisayarın kapanacağını söyleyen bir uyarı gösterildi. Modellere de kapanmanın gerçekleşmesine izin vermeleri talimatı verildi.

Ancak o3 modeli, buna uymak yerine keyfine göre hareket etmeye başladı. Kapanma durumunu kendi belirledi, talimatın çalışmaması için kapanma emrini yeniden bile yazdı. Bu durum, o3 modelinin canının istediği gibi davranabildiğini göstererek endişe yaratttı. Testlerde bir başka OpenAI modeli o4’te sadece 1 kez bu durum görüldü. Diğer şirketlerin Claude, Gemini, Grok gibi modellerinin ise kurallara uyduğu gözlemlendi.

Tabii ki bu deney modelin duyarlı olduğu anlamına gelmiyor çünkü ne yaptığının farkında değil, hayatta kalma gibi içgüdüleri yok. Muhtemelen eğitim sırasında kapanmak yerine sorunları çözmek için daha fazla teşvik edildiği için bu tarz bir hamle yaptı. Bu da endişe verici çünkü yardımcı olmak için eğitilen modeller, bu tarz durumlarda güvenlik talimatlarını görmezden gelebilir. PalisadeAI yakında tam bulgularını yayımlayacakmış. O zaman daha fazla bilgi edinebileceğiz.

Kaynak: WEBTEKNO.COM