Meta sous le feu pour avoir manipulé le benchmark Llama 4 : ce n'est pas leur première infraction

Meta sous le feu pour avoir manipulé le benchmark Llama 4 : ce n’est pas leur première infraction

Meta a récemment publié sa série Llama 4 de modèles AI, faisant la une des journaux pour surmonter GPT-4O et Gemini 2.0 Pro dans Chatbot Arena (anciennement LMSYS). La société a affirmé que son modèle LLAMA 4 Maverick – un modèle MOE qui n’activait que 17 milliards de paramètres sur un 400B massif de 128 experts – a obtenu un score ELO impressionnant de 1417 sur le benchmark de Chatbot Arena.

Ce résultat a haussé les sourcils dans la communauté de l’IA, car un modèle MOE relativement plus petit a dépassé les LLM beaucoup plus grandes telles que GPT-4.5 et Grok 3. Les performances inhabituelles d’un petit modèle ont conduit de nombreuses personnes dans la communauté d’IA pour tester le modèle de manière indépendante. Étonnamment, la performance du monde réel de Llama 4 Maverick ne correspondait pas aux revendications de référence de Meta, en particulier dans tâches de codage.

Sur 1 point3acresun forum populaire pour les Chinois en Amérique du Nord, un utilisateur prétendant être un ancien employé de Meta a publié une bombe. Selon le Post, qui a été traduit en anglais sur Redditla méta-leadership aurait mélangé «les ensembles de tests de divers repères dans le processus post-entraînement» pour gonfler le score de référence et atteindre les cibles internes.

L’employé Meta a trouvé la pratique inacceptable et a choisi de démissionner. L’ancien employé a également demandé à l’équipe d’exclure son nom du rapport technique de Llama 4. En fait, l’utilisateur prétend que la récente démission du chef de la recherche de Meta de l’IA, Joelle Pineau, est directement liée au piratage de référence de Llama 4.

En réponse aux allégations croissantes, Ahmad al-Dahle, chef de la division génératrice de l’IA de Meta, a partagé un Publier sur x. Il a fermement rejeté l’affirmation selon laquelle Llama 4 était post-formé sur les ensembles de tests. Al-Dahle écrit:

Nous avons également entendu des affirmations selon lesquelles nous nous sommes formés sur des tests de test – ce n’est tout simplement pas vrai et nous ne ferions jamais cela. Notre meilleure compréhension est que les gens de la qualité variable sont dus à la stabilisation des implémentations.

Il a reconnu la performance incohérente de Llama 4 sur différentes plateformes. Et, a également exhorté la communauté de l’IA à lui donner quelques jours pour que la mise en œuvre soit «composée».

LMSYS répond aux allégations de manipulation de référence de Llama 4

Suite aux préoccupations de la communauté de l’IA, LMSYS – l’organisation derrière le classement de l’aréna Chatbot – a publié une déclaration pour améliorer la transparence. LMSYS a précisé que le modèle soumis sur Chatbot Arena était «Llama-4-Maverick-03-26-Experimental». C’était une variante personnalisée du modèle, optimisée pour la préférence humaine.

LMSYS a reconnu que «le ton de la réponse au style et au modèle était un facteur important». Cela peut avoir donné un avantage indu au modèle de Maverick Custom Llama 4. L’organisation a également admis que ces informations n’avaient pas été indiquées suffisamment claires par l’équipe Meta. De plus, LMSYS a déclaré: «L’interprétation de Meta de notre politique ne correspondait pas à ce que nous attendons des fournisseurs de modèles».

Lisez également:

10 meilleurs modèles de langue grande (LLM) en 2025

Être juste, méta, dans son officiel Blog Llama 4a mentionné que «une version expérimentale de chat» a marqué 1 417 sur Chatbot Arena. Mais ils n’ont rien expliqué plus loin.

Enfin, pour améliorer la transparence, LMSYS a ajouté la version étreinte Face de Llama 4 Maverick à Chatbot Arena. En plus de cela, il a publié plus de 2 000 résultats de bataille en tête-à-tête pour que le public puisse examiner. Les résultats incluent des invites, des réponses du modèle et des préférences des utilisateurs.

J’ai passé en revue le Résultats de combatet il était déroutant de voir les utilisateurs préférant constamment les réponses souvent incorrectes et trop verbales de Llama 4. Cela soulève des questions plus approfondies sur la confiance des repères axés sur la communauté comme Chatbot Arena.

Pas la première fois des références de jeu de méta

Ce n’est pas la première fois que Meta est accusé de repères de jeu grâce à la contamination des données, c’est-à-dire des ensembles de données de référence dans le corpus de formation. En février de cette année, Susan Zhang – un ancien chercheur de Meta AI qui travaille maintenant chez Google Deepmind – a partagé une étude révélatrice en réponse à un poste de Yann LeCun, le scientifique en chef de Meta Ai.

Le étude ont constaté que plus de 50% des échantillons d’essai à partir de repères clés étaient présents dans les données de pré-formation de Llama 1 de Meta. Le journal dit: «En particulier, Big Banc Hard, Humaneval, Hellaswag, MMLU, PIQA et Triviaqa présentent des niveaux de contamination substantiels dans les deux corpus».

Maintenant, au milieu des dernières allégations de piratage de référence autour de Llama 4, Zhang a sarcastiquement noté Cette méta devrait au moins citer leurs «travaux antérieurs» de Llama 1 pour cette «approche unique». Le JAB s’adresse à Meta que la manipulation de référence n’est pas un accident. Mais c’est une stratégie de la société dirigée par Zuckerberg pour augmenter artificiellement les mesures de performance.

Voir aussi:  Pete Hegseth fait face à des retombées au milieu d'un deuxième scandale de signal
Moyens I/O Staff est une équipe de rédacteurs spécialisés, passionnés par la technologie, l’innovation et les usages numériques. Forts d’une expertise pointue en IA, applications mobiles, gaming et tendances digitales, nous produisons un contenu rigoureux, vérifié et utile. Notre mission : vous offrir une information fiable et claire pour mieux naviguer dans le monde numérique en constante évolution.