Meta'nın Llama 4 Modeli Testte Farklı, Gerçekte Farklı Çıktı!

Meta’nın Llama 4 modeliyle yaptığı testlerde kullanılan sürüm ile halka açık sürüm arasında fark olduğu ortaya çıktı.

Gündem - 5 ay önce

Meta, yeni yapay zekâ modellerini tanıttı ama sonrasında işler biraz karıştı. Şirketin, modellerini rakiplerinden daha başarılı göstermek için test sonuçlarını biraz “kendi lehine” oynadığı iddia edildi. Kısacası, Meta’nın yapay zekâsı daha zeki gibi görünüyordu ama bunun arkasında küçük bir oyun varmış.

Şirketin Llama 4 serisinden Maverick modeli, testlerde yüksek puan almasına rağmen bu sonucun halka açık versiyonu yansıtmadığı ortaya çıktı.

Testte görünen Maverick ile halka sunulan model aynı değil

Meta, hafta sonu gerçekleştirdiği duyuruyla Llama 4 çatısı altındaki iki yeni yapay zekâ modelini tanıttı. Scout ve Maverick isimli bu modellerden özellikle Maverick’in, GPT-4o ve Gemini 2.0 Flash gibi rakiplerini geçtiği belirtildi. LMArena isimli popüler karşılaştırma platformunda ikinci sıraya yükselen Maverick, 1417 ELO puanıyla dikkat çekti.

Ancak kısa süre sonra ortaya çıkan detaylar, test edilen Maverick’in kamuya açık versiyondan farklı olduğunu gösterdi. Meta'nın belgelerinde, LMArena’da kullanılan modelin “konuşma yetenekleri için özel olarak optimize edilmiş deneysel bir sürüm” olduğu belirtildi. Patform yöneticilerinin de tepkisini çekti ve kuralların güncelleneceği açıklandı.

Meta, bu özel sürümün kullanımını savunurken, geliştiricilerin açık kaynaklı versiyonu kendi ihtiyaçlarına göre özelleştirebileceğini belirtti. Ancak test platformunda gösterilen performans ile halka sunulan modelin farklı olması, gerçek dünyada alınabilecek verimin sorgulanmasına yol açtı. Şirketin modeli beklenen performansı gösteremediği için daha önce birkaç kez ertelediği de biliniyor.

Yaşanan bu gelişme, yapay zekâ karşılaştırma testlerinin şeffaflık ve güvenilirlik açısından önemini bir kez daha gündeme taşıdı. Aynı zamanda modellerin test koşulları ile kullanıcıya sunulan hâli arasında fark olması, geliştiricilerin karar alma süreçlerini de etkileyebiliyor.

Kaynak: WEBTEKNO.COM

HABERİ SİTEDEN OKU...

Meta'nın Llama 4 Modeli Testte Farklı, Gerçekte Farklı Çıktı!

Testte görünen Maverick ile halka sunulan model aynı değil

Beykoz'da villaya kumarhane baskını: 38 kişi yakalandı

ChatGPT'nin Sevilen 'Akıl Yürüt' Özelliği Yakında Tüm Kullanıcılara Ücretsiz Oluyor

Popüler Yayıncı Kai Cenat'ın Ne Kadar Kazandığı Ortaya Çıktı

Notre Dame'dan İlham Alan 3,7 Milyon TL’lik iPhone 16 Pro Max Modeli Satışa Sunuldu

Fareler Nasıl ve Neden Kuyruklarından Dolanarak Ölüyorlar?

Kendilerini polis olarak tanıtıp dolandıran şüpheliler yakalandı

Cumhurbaşkanı Tatar, Bakanlar Kurulu toplantısından ayrıldı

TÜİK, mart ayı enflasyonunu açıkladı

Euro 41.70, sterlin 49.90, dolar 38.10 TL’den işlem görüyor

Dünyanın İlk Muz Şekilli El Tipi Oyun Konsolu Tanıtıldı

Trump'tan New York Times'a 15 milyar dolarlık dava

Marco Rubio: "Trump önümüzdeki hafta Zelenskiy ile görüşebilir"

Galata Kulesi TEKNOFEST’in ışığıyla parladı

İsrail, Yemen’i vurdu

Cumhurbaşkanı Erdoğan, A Milli Kadın Voleybol Takımı'nı kabul etti

Türkiye yangınlarla mücadeleye devam ediyor…

Rusya’da WhatsApp ve Telegram üzerinden aramalar engellenmeye başladı

Azerbaycan ile Ermenistan'ın parafladığı barış anlaşmasının metni açıklandı

Irak'ın orta ve güney kesimi tamamen elektriksiz kaldı

Güney’deki cinayet girişimi zanlısı KKTC’ye kaçmış olabilir iddiası

Kıbrıs Report