Yandex, müzik akış servisi Yandex Music üzerinden elde ettiği yaklaşık 5 milyar kullanıcı etkileşiminden oluşan veri setini araştırmacıların kullanımına açtı. “Yambda” adı verilen bu set, öneri sistemleri alanında şimdiye kadar yayımlanmış en büyük açık veri kaynağı olma özelliği taşıyor.
Yamba veri seti, 10 aylık bir süreçte toplanan 4,79 milyar anonimleştirilmiş etkileşim verisini içeriyor. Kullanıcıların müzik dinleme, beğenme ve beğenmeme gibi etkileşimlerinden oluşan veri seti, hem örtülü hem açık geri bildirimleri kapsıyor. Aynı zamanda tüm veriler, zaman damgaları ve içerik önerisinin organik olup olmadığını belirten işaretlerle birlikte sunuluyor.
Farklı boyutlardaki veri setleri araştırmacılara açıldı
Veri seti, öneri sistemleri üzerine çalışan araştırmacılar için farklı boyutlarda (50 milyon, 500 milyon ve 5 milyar etkinlik) erişilebilir hale getirildi. Apache Parquet formatında sunulan dosyalar, Spark ve Pandas gibi analiz araçlarıyla uyumlu olarak hazırlanmış durumda. Değerlendirme yöntemi olarak ise zaman bağını koruyan Global Temporal Split tekniği kullanılıyor.
Bu veri seti sayesinde araştırmacılar, öneri sistemlerini gerçek dünya senaryolarına daha yakın koşullarda test edebiliyor. Aynı zamanda mevcut temel modellerle karşılaştırmalar yapılmasını sağlayan değerlendirme metrikleri de sistemle birlikte sunuluyor.
Kaynak: WEBTEKNO.COM