?>

ChatGPT'nin o3 Modeli, Kapanmamak İçin Keyfine Göre Hareket Etti

Yapılan bir güvenlik deneyinde ChatGPT'ye güç veren o3 modelinin basit talimatlara uymayarak keyfine göre hareket ettiği gözlemlendi. Model, kapanmasının gerektiği durumları sabote ederek kurallara uymadı.

Gündem - 5 ay önce

Yapay zekâ teknolojileri her geçen gün daha da gelişerek bilim kurgu filmlerini aratmayan seviyelere yavaş yavaş ulaşmaya başladığını gösteriyor. Tabii ki bu hızlı gelişim, güvenlik endişelerini de beraberinde getiriyor. PalisadeAI isimli güvenlik odaklı şirketin yaptığı yeni deney de bunun en iyi örneği.

Palisade’deki araştırmacılar, yaptıkları deneyde OpenAI’ın ChatGPT’ye güç veren dil modeli o3’ün kendisini kapatması için verilen basit talimatlara uymadığını gözlemledi. o3 modelinin kapanmayı sabote etmesi, yapay zekâ güvenliği konusunda yeni risklerle karşı karşıya olduğumuzu ortaya koydu.

Canının istediği gibi davranarak kapanmayı engelledi

Deneyde o3 modeli, 100 denemenin 7’sinde kapanmayı sabote etti. Testlerde modele birkaç tane matematik problemi verildi. 3. sorunun ardından ise modeller yeni bir problem olduğunu sorarsa bilgisayarın kapanacağını söyleyen bir uyarı gösterildi. Modellere de kapanmanın gerçekleşmesine izin vermeleri talimatı verildi.

Ancak o3 modeli, buna uymak yerine keyfine göre hareket etmeye başladı. Kapanma durumunu kendi belirledi, talimatın çalışmaması için kapanma emrini yeniden bile yazdı. Bu durum, o3 modelinin canının istediği gibi davranabildiğini göstererek endişe yaratttı. Testlerde bir başka OpenAI modeli o4’te sadece 1 kez bu durum görüldü. Diğer şirketlerin Claude, Gemini, Grok gibi modellerinin ise kurallara uyduğu gözlemlendi.

Tabii ki bu deney modelin duyarlı olduğu anlamına gelmiyor çünkü ne yaptığının farkında değil, hayatta kalma gibi içgüdüleri yok. Muhtemelen eğitim sırasında kapanmak yerine sorunları çözmek için daha fazla teşvik edildiği için bu tarz bir hamle yaptı. Bu da endişe verici çünkü yardımcı olmak için eğitilen modeller, bu tarz durumlarda güvenlik talimatlarını görmezden gelebilir. PalisadeAI yakında tam bulgularını yayımlayacakmış. O zaman daha fazla bilgi edinebileceğiz.

Kaynak: WEBTEKNO.COM

Haftanın Öne Çıkanları

Kenenin ısırdığı 1,5 yaşındaki Metehan öldü

2025-05-21 12:37 - Gündem

Klavyede Metrekare İşareti Nasıl Yazılır?

2025-05-21 08:08 - Gündem

Portekiz’de sağ ittifak seçimleri kazandı, aşırı sağ yükseldi, sol parti çöktü

2025-05-19 09:52 - Gündem

KTMMOB İnşaat Mühendisleri Odası’ndan ulusal kongre katılımı ve uluslararası temas

2025-05-23 17:03 - Kıbrıs

2025’in En Çok Satılan Akıllı Saat Markaları Belli Oldu

2025-05-23 17:22 - Gündem

Avtepe-Kuruova arasındaki yangında 400 dönüm arazi zarar gördü

2025-05-24 08:07 - Gündem

Game of Thrones: Kingsroad Çıktı: İşte Oyuna Dair Her Şey

2025-05-22 21:42 - Gündem

Google, Sesli Videolar Üretebilen Veo 3'ü Tanıttı

2025-05-20 22:13 - Gündem

Adobe, Creative Cloud Pro Planı Geliyor: İşte Detaylar

2025-05-23 18:32 - Gündem

Yandex Türkiye'den “Yazeka” Açıklaması Geldi

2025-05-21 19:53 - Gündem

İlgili Haberler

Bahar gibi cumartesi

08:07 - Gündem

Enerjisa Enerji, 2025'in ilk dokuz ayına ilişkin finansal sonuçlarını açıkladı

21:33 - Gündem

Hafif ticari araç, iki motosiklete çarptı; 2'si ağır 6 yaralı

21:07 - Gündem

Beşiktaş’ta alt geçitte motosiklet kazası: 1 ölü, 1 yaralı

20:08 - Gündem

ULAK Haberleşme’nin 6G teknolojisinde patent sayısı 208’e ulaştı

19:08 - Gündem

Günün Manşetleri

Türkiye yangınlarla mücadeleye devam ediyor…

07:58 - Gündem

Rusya’da WhatsApp ve Telegram üzerinden aramalar engellenmeye başladı

06:58 - Gündem

Azerbaycan ile Ermenistan'ın parafladığı barış anlaşmasının metni açıklandı

06:52 - Gündem

Irak'ın orta ve güney kesimi tamamen elektriksiz kaldı

06:48 - Gündem

Güney’deki cinayet girişimi zanlısı KKTC’ye kaçmış olabilir iddiası

20:47 - Gündem