ChatGPT'nin o3 Modeli, Kapanmamak İçin Keyfine Göre Hareket Etti

Yapılan bir güvenlik deneyinde ChatGPT'ye güç veren o3 modelinin basit talimatlara uymayarak keyfine göre hareket ettiği gözlemlendi. Model, kapanmasının gerektiği durumları sabote ederek kurallara uymadı.

Gündem - 5 ay önce

Yapay zekâ teknolojileri her geçen gün daha da gelişerek bilim kurgu filmlerini aratmayan seviyelere yavaş yavaş ulaşmaya başladığını gösteriyor. Tabii ki bu hızlı gelişim, güvenlik endişelerini de beraberinde getiriyor. PalisadeAI isimli güvenlik odaklı şirketin yaptığı yeni deney de bunun en iyi örneği.

Palisade’deki araştırmacılar, yaptıkları deneyde OpenAI’ın ChatGPT’ye güç veren dil modeli o3’ün kendisini kapatması için verilen basit talimatlara uymadığını gözlemledi. o3 modelinin kapanmayı sabote etmesi, yapay zekâ güvenliği konusunda yeni risklerle karşı karşıya olduğumuzu ortaya koydu.

Canının istediği gibi davranarak kapanmayı engelledi

Deneyde o3 modeli, 100 denemenin 7’sinde kapanmayı sabote etti. Testlerde modele birkaç tane matematik problemi verildi. 3. sorunun ardından ise modeller yeni bir problem olduğunu sorarsa bilgisayarın kapanacağını söyleyen bir uyarı gösterildi. Modellere de kapanmanın gerçekleşmesine izin vermeleri talimatı verildi.

Ancak o3 modeli, buna uymak yerine keyfine göre hareket etmeye başladı. Kapanma durumunu kendi belirledi, talimatın çalışmaması için kapanma emrini yeniden bile yazdı. Bu durum, o3 modelinin canının istediği gibi davranabildiğini göstererek endişe yaratttı. Testlerde bir başka OpenAI modeli o4’te sadece 1 kez bu durum görüldü. Diğer şirketlerin Claude, Gemini, Grok gibi modellerinin ise kurallara uyduğu gözlemlendi.

Tabii ki bu deney modelin duyarlı olduğu anlamına gelmiyor çünkü ne yaptığının farkında değil, hayatta kalma gibi içgüdüleri yok. Muhtemelen eğitim sırasında kapanmak yerine sorunları çözmek için daha fazla teşvik edildiği için bu tarz bir hamle yaptı. Bu da endişe verici çünkü yardımcı olmak için eğitilen modeller, bu tarz durumlarda güvenlik talimatlarını görmezden gelebilir. PalisadeAI yakında tam bulgularını yayımlayacakmış. O zaman daha fazla bilgi edinebileceğiz.

Kaynak: WEBTEKNO.COM

HABERİ SİTEDEN OKU...

ChatGPT'nin o3 Modeli, Kapanmamak İçin Keyfine Göre Hareket Etti

Canının istediği gibi davranarak kapanmayı engelledi

Kenenin ısırdığı 1,5 yaşındaki Metehan öldü

Klavyede Metrekare İşareti Nasıl Yazılır?

Portekiz’de sağ ittifak seçimleri kazandı, aşırı sağ yükseldi, sol parti çöktü

KTMMOB İnşaat Mühendisleri Odası’ndan ulusal kongre katılımı ve uluslararası temas

2025’in En Çok Satılan Akıllı Saat Markaları Belli Oldu

Avtepe-Kuruova arasındaki yangında 400 dönüm arazi zarar gördü

Game of Thrones: Kingsroad Çıktı: İşte Oyuna Dair Her Şey

Google, Sesli Videolar Üretebilen Veo 3'ü Tanıttı

Adobe, Creative Cloud Pro Planı Geliyor: İşte Detaylar

Yandex Türkiye'den “Yazeka” Açıklaması Geldi

Bahar gibi cumartesi

Enerjisa Enerji, 2025'in ilk dokuz ayına ilişkin finansal sonuçlarını açıkladı

Hafif ticari araç, iki motosiklete çarptı; 2'si ağır 6 yaralı

Beşiktaş’ta alt geçitte motosiklet kazası: 1 ölü, 1 yaralı

ULAK Haberleşme’nin 6G teknolojisinde patent sayısı 208’e ulaştı

Türkiye yangınlarla mücadeleye devam ediyor…

Rusya’da WhatsApp ve Telegram üzerinden aramalar engellenmeye başladı

Azerbaycan ile Ermenistan'ın parafladığı barış anlaşmasının metni açıklandı

Irak'ın orta ve güney kesimi tamamen elektriksiz kaldı

Güney’deki cinayet girişimi zanlısı KKTC’ye kaçmış olabilir iddiası

Kıbrıs Report