?>

Meta'nın Llama 4 Modeli Testte Farklı, Gerçekte Farklı Çıktı!

Meta’nın Llama 4 modeliyle yaptığı testlerde kullanılan sürüm ile halka açık sürüm arasında fark olduğu ortaya çıktı.

Gündem - 5 ay önce

Meta, yeni yapay zekâ modellerini tanıttı ama sonrasında işler biraz karıştı. Şirketin, modellerini rakiplerinden daha başarılı göstermek için test sonuçlarını biraz “kendi lehine” oynadığı iddia edildi. Kısacası, Meta’nın yapay zekâsı daha zeki gibi görünüyordu ama bunun arkasında küçük bir oyun varmış.

Şirketin Llama 4 serisinden Maverick modeli, testlerde yüksek puan almasına rağmen bu sonucun halka açık versiyonu yansıtmadığı ortaya çıktı.

Testte görünen Maverick ile halka sunulan model aynı değil

Meta, hafta sonu gerçekleştirdiği duyuruyla Llama 4 çatısı altındaki iki yeni yapay zekâ modelini tanıttı. Scout ve Maverick isimli bu modellerden özellikle Maverick’in, GPT-4o ve Gemini 2.0 Flash gibi rakiplerini geçtiği belirtildi. LMArena isimli popüler karşılaştırma platformunda ikinci sıraya yükselen Maverick, 1417 ELO puanıyla dikkat çekti.

Ancak kısa süre sonra ortaya çıkan detaylar, test edilen Maverick’in kamuya açık versiyondan farklı olduğunu gösterdi. Meta'nın belgelerinde, LMArena’da kullanılan modelin “konuşma yetenekleri için özel olarak optimize edilmiş deneysel bir sürüm” olduğu belirtildi. Patform yöneticilerinin de tepkisini çekti ve kuralların güncelleneceği açıklandı.

Meta, bu özel sürümün kullanımını savunurken, geliştiricilerin açık kaynaklı versiyonu kendi ihtiyaçlarına göre özelleştirebileceğini belirtti. Ancak test platformunda gösterilen performans ile halka sunulan modelin farklı olması, gerçek dünyada alınabilecek verimin sorgulanmasına yol açtı. Şirketin modeli beklenen performansı gösteremediği için daha önce birkaç kez ertelediği de biliniyor.

Yaşanan bu gelişme, yapay zekâ karşılaştırma testlerinin şeffaflık ve güvenilirlik açısından önemini bir kez daha gündeme taşıdı. Aynı zamanda modellerin test koşulları ile kullanıcıya sunulan hâli arasında fark olması, geliştiricilerin karar alma süreçlerini de etkileyebiliyor.

Kaynak: WEBTEKNO.COM

Haftanın Öne Çıkanları

Beykoz'da villaya kumarhane baskını: 38 kişi yakalandı

2025-04-06 18:08 - Gündem

ChatGPT'nin Sevilen 'Akıl Yürüt' Özelliği Yakında Tüm Kullanıcılara Ücretsiz Oluyor

2025-04-02 19:42 - Gündem

Popüler Yayıncı Kai Cenat'ın Ne Kadar Kazandığı Ortaya Çıktı

2025-04-04 18:07 - Gündem

Notre Dame'dan İlham Alan 3,7 Milyon TL’lik iPhone 16 Pro Max Modeli Satışa Sunuldu

2025-04-03 20:07 - Gündem

Fareler Nasıl ve Neden Kuyruklarından Dolanarak Ölüyorlar?

2025-04-05 00:38 - Gündem

Kendilerini polis olarak tanıtıp dolandıran şüpheliler yakalandı

2025-04-02 14:07 - Gündem

Cumhurbaşkanı Tatar, Bakanlar Kurulu toplantısından ayrıldı

2025-04-03 02:17 - Kıbrıs

TÜİK, mart ayı enflasyonunu açıkladı

2025-04-04 20:53 - Gündem

Euro 41.70, sterlin 49.90, dolar 38.10 TL’den işlem görüyor

2025-04-04 20:22 - Ekonomi

Dünyanın İlk Muz Şekilli El Tipi Oyun Konsolu Tanıtıldı

2025-04-04 23:47 - Gündem

İlgili Haberler

Trump'tan New York Times'a 15 milyar dolarlık dava

23:43 - Gündem

Marco Rubio: "Trump önümüzdeki hafta Zelenskiy ile görüşebilir"

22:13 - Gündem

Galata Kulesi TEKNOFEST’in ışığıyla parladı

21:13 - Gündem

İsrail, Yemen’i vurdu

20:18 - Gündem

Cumhurbaşkanı Erdoğan, A Milli Kadın Voleybol Takımı'nı kabul etti

20:12 - Gündem

Günün Manşetleri

Türkiye yangınlarla mücadeleye devam ediyor…

07:58 - Gündem

Rusya’da WhatsApp ve Telegram üzerinden aramalar engellenmeye başladı

06:58 - Gündem

Azerbaycan ile Ermenistan'ın parafladığı barış anlaşmasının metni açıklandı

06:52 - Gündem

Irak'ın orta ve güney kesimi tamamen elektriksiz kaldı

06:48 - Gündem

Güney’deki cinayet girişimi zanlısı KKTC’ye kaçmış olabilir iddiası

20:47 - Gündem