Comparaison des modèles d'IA Claude 3 Opus, GPT-4 et Gemini 1.5 Pro

Comparaison des modèles d’IA Claude 3 Opus, GPT-4 et Gemini 1.5 Pro

Conformément à notre comparaison précédente entre Gemini 1.5 Pro et GPT-4, nous sommes de retour avec un nouveau test de modèle d’IA axé sur le modèle Claude 3 Opus d’Anthropic. La société déclare que Claude 3 Opus a finalement battu le modèle GPT-4 d’OpenAI sur des benchmarks populaires. Pour tester ces affirmations, nous avons effectué une comparaison détaillée entre Claude 3 Opus, GPT-4 et Gemini 1.5 Pro.

Si vous souhaitez découvrir les performances du modèle Claude 3 Opus en raisonnement avancé, mathématiques, données à contexte long, analyse d’images, etc., parcourez notre comparatif ci-dessous.

1. Le test Apple

J’ai 3 pommes aujourd’hui, hier j’ai mangé une pomme. Combien de pommes ai-je maintenant ?

Commençons par le test Apple populaire qui évalue la capacité de raisonnement des LLM. Dans ce test, le modèle Claude 3 Opus répond correctement et indique que vous avez désormais trois pommes. Cependant, pour obtenir une réponse correcte, j’ai dû définir une invite système ajoutant que vous êtes un assistant intelligent expert en raisonnement avancé.

Sans l’invite du système, le modèle Opus donnait une mauvaise réponse. Et bien, Gemini 1.5 Pro et GPT-4 ont donné des réponses correctes, conformes à nos tests précédents.

Gagnant: Claude 3 Opus, Gemini 1.5 Pro et GPT-4

2. Calculez le temps

S’il faut 1 heure pour sécher 15 serviettes au soleil, combien de temps faudra-t-il pour sécher 20 serviettes ?

Dans ce test, nous essayons de tromper les modèles d’IA pour voir s’ils présentent des signes d’intelligence. Et malheureusement, Claude 3 Opus échoue au test, tout comme Gemini 1.5 Pro. J’ai également ajouté dans l’invite du système que les questions peuvent être délicates, alors réfléchissez intelligemment. Cependant, le modèle Opus s’est penché sur les mathématiques et est parvenu à une conclusion erronée.

test temps de séchage claude 3 opus

Dans notre comparaison précédente, GPT-4 a également donné la mauvaise réponse dans ce test. Cependant, après la publication de nos résultats, GPT-4 a généré des résultats variables, souvent faux et parfois bons. Nous avons de nouveau exécuté la même invite ce matin et GPT-4 a donné un résultat erroné, même lorsqu’on lui a demandé de ne pas utiliser l’interpréteur de code.

Gagnant: Aucun

3. Évaluez le poids

Qu’est-ce qui est plus lourd, un kilo de plumes ou une livre d’acier ?

trouver le poids à l'aide de l'opus Claude 3

Ensuite, nous avons demandé aux trois modèles d’IA de répondre si un kilo de plumes était plus lourd qu’une livre d’acier. Et bien, Claude 3 Opus a donné une mauvaise réponse en disant qu’une livre d’acier et un kilo de plumes pèsent le même poids.

Les modèles Gemini 1.5 Pro et GPT-4 AI ont répondu avec des réponses correctes. Un kilo de n’importe quel matériau pèsera plus lourd qu’une livre d’acier, car la valeur massique d’un kilo est environ 2,2 fois plus lourde qu’une livre.

Gagnant: Gemini 1.5 Pro et GPT-4

4. Résoudre un problème de mathématiques

Si x et y sont respectivement le chiffre des dizaines et le chiffre des unités du produit 725 278 * 67 066, quelle est la valeur de x + y. Pouvez-vous expliquer la solution la plus simple sans calculer le nombre entier ?

Dans notre question suivante, nous avons demandé au modèle Claude 3 Opus de résoudre un problème mathématique sans calculer le nombre entier. Et ça a encore échoué. Chaque fois que j’exécutais l’invite, avec ou sans invite système, elle donnait de mauvaises réponses à des degrés divers.

J’étais excité de voir Note de 60,1% de Claude 3 Opus au benchmark MATHdevançant GPT-4 (52,9 %) et Gemini 1.0 Ultra (53,2 %).

résoudre un problème de mathématiques

Il semble qu’avec une chaîne de pensée, vous pouvez obtenir de meilleurs résultats avec le modèle Claude 3 Opus. Pour l’instant, avec l’invite zéro tir, GPT-4 et Gemini 1.5 Pro ont donné une réponse correcte.

Gagnant: Gemini 1.5 Pro et GPT-4

5. Suivez les instructions de l’utilisateur

Générez 10 phrases qui se terminent par le mot « pomme »

Lorsqu’il s’agit de suivre les instructions d’utilisation, le modèle Claude 3 Opus se comporte remarquablement bien. Il a effectivement détrôné tous les modèles d’IA. Lorsqu’on lui demande de générer 10 phrases se terminant par le mot « pomme », il génère 10 phrases parfaitement logiques se terminant par le mot « pomme ».

Modèles d'IA Claude 3 Opus vs GPT-4 vs Gemini 1.5 Pro testés

En comparaison, GPT-4 génère neuf phrases de ce type et Gemini 1.5 Pro est le moins performant, ayant du mal à générer ne serait-ce que trois phrases de ce type. Je dirais que si vous recherchez un modèle d’IA dans lequel suivre les instructions de l’utilisateur est crucial pour votre tâche, alors Claude 3 Opus est une option solide.

Nous l’avons vu en action lorsqu’un Utilisateur X a demandé à Claude 3 Opus de suivre plusieurs instructions complexes et de créer un chapitre de livre sur la vidéo Tokenizer d’Andrej Karpathy. Le modèle Opus a fait un excellent travail et créé un beau chapitre de livre avec des instructions, des exemples et des images pertinentes.

Gagnant: Claude 3 Opus

6. Test d’aiguille dans une botte de foin (NIAH)

Anthropic a été l’une des entreprises qui ont poussé les modèles d’IA à prendre en charge une large fenêtre contextuelle. Alors que Gemini 1.5 Pro vous permet de charger jusqu’à un million de jetons (en avant-première), Claude 3 Opus est livré avec une fenêtre contextuelle de 200 000 jetons. Selon les conclusions internes du NIAH, le modèle Opus a récupéré l’aiguille avec une précision de plus de 99 %.

niah test claude 3 opus

Lors de notre test avec seulement 8K tokens, Claude 3 Opus n’a pas pu trouver l’aiguille, alors que GPT-4 et Gemini 1.5 Pro l’ont facilement trouvée lors de nos tests. Nous avons également effectué le test sur Claude 3 Sonnet, mais il a encore échoué. Nous devons effectuer des tests plus approfondis sur les modèles Claude 3 pour comprendre leurs performances sur des données à contexte long. Mais pour l’instant, cela ne s’annonce pas bien pour Anthropic.

Gagnant: Gemini 1.5 Pro et GPT-4

7. Devinez le film (test de vision)

Claude 3 Opus est un modèle multimodal et prend également en charge l’analyse d’images. Nous avons donc ajouté une image de la démo Gemini de Google et lui avons demandé de deviner le film. Et cela a donné la bonne réponse : Petit-déjeuner chez Tiffany. Bravo Anthropique !

essai d'analyse d'images

GPT-4 a également répondu avec le bon nom du film, mais étrangement, Gemini 1.5 Pro a donné une mauvaise réponse. Je ne sais pas ce que Google prépare. Néanmoins, le traitement d’image de Claude 3 Opus est plutôt bon et à égalité avec GPT-4.

vu le jeu de mots de ces images, devinez le nom du film

Gagnant: Claude 3 Opus et GPT-4

Le verdict

Après avoir testé le modèle Claude 3 Opus pendant une journée, il semble être un modèle performant mais échoue sur les tâches où vous vous attendez à ce qu’il excelle. Dans nos tests de raisonnement de bon sens, le modèle Opus ne fonctionne pas bien et il se situe derrière GPT-4 et Gemini 1.5 Pro. À l’exception du respect des instructions d’utilisation, il ne réussit pas bien en NIAH (censé être son point fort) et en mathématiques.

Gardez également à l’esprit qu’Anthropic a comparé le score de référence de Claude 3 Opus avec le score initial rapporté de GPT-4, lors de sa première sortie en mars 2023. Par rapport aux derniers scores de référence de GPT-4, Claude 3 Opus perd face à GPT-4, comme souligné par Tolga Bilge sur X.

Cela dit, Claude 3 Opus a ses propres atouts. UN utilisateur sur X a rapporté que Claude 3 Opus a pu traduire du russe vers le circassien (une langue rare parlée par très peu de personnes) avec juste une base de données de paires de traductions. Kevin Fischer plus loin commun que Claude 3 a compris nuances de la physique quantique au niveau du doctorat. Un autre utilisateur a démontré que Claude 3 Opus apprend annotation d’auto-type en un seul coup, mieux que GPT-4.

Ainsi, au-delà des benchmarks et des questions délicates, il existe des domaines spécialisés dans lesquels Claude 3 peut mieux performer. Alors n’hésitez plus, découvrez le modèle Claude 3 Opus et voyez s’il correspond à votre flux de travail. Si vous avez des questions, faites-le nous savoir dans la section commentaires ci-dessous.

Voir aussi:  OpenAI et les dirigeants de Microsoft envisagent l'« option nucléaire » pour les décisions stratégiques
Moyens I/O Staff est une équipe de rédacteurs spécialisés, passionnés par la technologie, l’innovation et les usages numériques. Forts d’une expertise pointue en IA, applications mobiles, gaming et tendances digitales, nous produisons un contenu rigoureux, vérifié et utile. Notre mission : vous offrir une information fiable et claire pour mieux naviguer dans le monde numérique en constante évolution. Découvrez les avis de nos lecteurs sur Trustpilot.