Une autre semaine, un autre modèle d’IA a dépassé GPT-4, du moins sur les benchmarks. Cette fois, il s’agit d’Anthropic, la société formée par Daniela et Dario Amodei, anciens membres d’OpenAI, frères et sœurs. L’entreprise a lancé une famille de modèles Claude 3 comprenant les modèles Opus (le plus grand et le plus performant), Sonnet (de taille moyenne) et Haiku (le plus petit). Anthropic affirme que le modèle Claude 3 Opus bat GPT-4 et Gemini 1.0 Ultra sur tous les benchmarks populaires.
Claude 3 Repères
Anthropic a testé les trois modèles sur des benchmarks populaires tels que MMLU, GPQA, GSM8K, MATH, HumanEval, HellaSwag, etc. Sur MMLU, Claude 3 Opus a obtenu 86,8 % tandis que GPT-4 a un score déclaré de 86,4 %. Gemini 1.0 Ultra a obtenu 83,7 % sur la même technique d’invite à 5 coups.
Sur le benchmark HumanEval qui teste la capacité de codage, le plus grand modèle Opus a obtenu 84,9 %bien supérieur aux 67 % de GPT-4 et aux 74,4 % de Gemini 1.0 Ultra. Le modèle Clade 3 Opus a même battu le GPT-4 lors du test HellaSwag mais avec une légère marge. Il a obtenu un score de 95,4 %, tandis que GPT-4 a obtenu un score de 95,3 % et Gemini 1.0 Ultra un score de 87,8 %.
Capacités de Claude 3
Dans l’ensemble, le plus grand modèle Claude 3 Opus semble très prometteur et nous allons certainement le tester avec GPT-4, Gemini 1.5 Pro et Mistral Large, alors restez à l’écoute avec nous. En dehors de cela, Anthropic affirme que les trois modèles ont de grandes capacités d’analyse et de prévision, de création de contenu nuancé, de génération de code et de maîtrise de langues internationales telles que Espagnol, japonais et français.
Les modèles Claude 3 ont également une capacité de vision, cependant, Anthropic ne les commercialise pas en tant que modèles multimodaux. Anthropic affirme que la capacité de vision de Claude 3 peut aider les entreprises clientes à traiter des tableaux, des graphiques et des diagrammes techniques. Sur les benchmarks, il fait mieux que GPT-4V mais est légèrement en retard par rapport à Gemini 1.0 Ultra.
Longueur du contexte 200 000
En termes de longueur de contexte, Anthropic indique que les trois modèles offriront initialement une fenêtre contextuelle de 200 000 jetons, ce qui est assez grand, je dois le dire. De plus, l’entreprise affirme que les modèles de la famille Claude 3 peuvent traiter plus d’un million de jetonsToutefois, cette fonctionnalité ne sera disponible que pour certains clients.
Lors du test Needle In A Haystack (NIAH) avec plus de 200 000 jetons, le modèle Opus s’est exceptionnellement bien comporté avec Récupération précise à plus de 99 %tout comme Gemini 1.5 Pro. Claude a été l’un des meilleurs modèles d’IA pour la récupération de contexte long, et les performances se sont considérablement améliorées avec Claude 3.
Performances et prix
En ce qui concerne les performances, Anthropic déclare que les modèles Claude 3 sont assez rapides et que le plus grand modèle Opus offre les mêmes performances que Claude 2 et 2.1, mais avec une meilleure intelligence. Le modèle Sonnet de taille moyenne est presque 2x plus rapide que Claude 2 et 2.1. En plus de cela, Anthropic mentionne que les modèles Claude 3 sont nettement moins susceptibles de refuser de répondre, ce qui était un problème dans les modèles précédents.
Vous pouvez commencer à utiliser le modèle phare Opus en vous abonnant à Claude Pro lequel coûte 23,60 $ après impôts. Et le Claude 3 Sonnet de taille moyenne est déjà déployé sur la version gratuite de claude.ai (visite). Enfin, les développeurs peuvent accéder immédiatement aux API des modèles Opus et Sonnet.
Quant au prix de l’API, Claude 3 Opus avec une fenêtre contextuelle de 200 Ko coûte 15 $ par million de jetons (entrée) et 75 $ par million de jetons (sortie). En comparaison avec GPT-4 Turbo (10 $ d’entrée / 30 $ de sortie avec un contexte de 128 Ko), le prix semble assez cher.
Néanmoins, que pensez-vous de la nouvelle famille de modèles lancée par Anthropic, notamment le modèle Opus ? Faites-le-nous savoir dans la section commentaires ci-dessous.