На цьому тижні Meta представила дві нові моделі штучного інтелекту Llama 4 – Scout і Maverick. Компанія стверджує, що Maverick перевершує конкурентів у популярних тестах, таких як GPT-4o і Gemini 2.0 Flash. Проте виявилося, що статистика від Meta може бути маніпуляцією, як повідомляє The Verge.
У пресрелізі Meta підкреслила успіх Maverick у рейтингу LMArena, де користувачі порівнюють ШІ-моделі в режимі чату. Однак виявилося, що тестувалася експериментальна версія моделі, спеціально оптимізована для розмов. Керівництво LMArena звинуватило Meta в обмані та почало оновлювати правила, щоб уникнути подібних ситуацій у майбутньому. Компанія вважає, що коли постачальники ШІ можуть надавати спеціально налаштовані версії для тестування, рейтинги, як LMArena, стають менш вірогідними як індикатори продуктивності.
Залишити відповідь