Le mode vocal avancé de ChatGPT, qui permet aux utilisateurs de converser avec le chatbot en temps réel, pourrait bientôt bénéficier du don de la vue, selon le code découvert dans la dernière version bêta de la plateforme. Bien qu’OpenAI n’ait pas encore confirmé la sortie spécifique de la nouvelle fonctionnalité, le code de la version bêta de ChatGPT v1.2024.317 repéré par Autorité Android suggère que la soi-disant « caméra en direct » pourrait être prochainement disponible.
OpenAI avait présenté pour la première fois les capacités de vision du mode vocal avancé pour ChatGPT en mai, lorsque la fonctionnalité a été lancée pour la première fois en version alpha. Lors d’une démo publiée à l’époque, le système était capable d’identifier qu’il regardait un chien grâce au flux de la caméra du téléphone, d’identifier le chien sur la base d’interactions passées, de reconnaître la balle du chien et d’associer la relation du chien avec la balle (c’est-à-dire jouer à chercher).
La fonctionnalité a également été un succès immédiat auprès des testeurs alpha. L’utilisateur de X, Manuel Sainsily, l’a utilisé à bon escient pour répondre à des questions verbales sur son nouveau chaton, basées sur le flux vidéo de la caméra.
Vidéos recommandées
En essayant #ChatGPTle nouveau mode vocal avancé de qui vient de sortir dans Alpha. C’est comme rencontrer un ami très compétent, ce qui dans ce cas s’est avéré très utile – nous rassurant avec notre nouveau chaton. Il peut répondre aux questions en temps réel et utiliser également la caméra comme entrée ! pic.twitter.com/Xx0HCAc4To
– Manuel Sainsily (@ManuVision) 30 juillet 2024
Le mode vocal avancé a ensuite été publié en version bêta pour les abonnés Plus et Enterprise en septembre, mais sans ses capacités visuelles supplémentaires. Bien sûr, cela n’a pas empêché les utilisateurs de se déchaîner en testant les limites vocales de la fonctionnalité. Advanced Voice, « offre des conversations plus naturelles et en temps réel, vous permet d’interrompre à tout moment, et de détecter et répondre à vos émotions », selon l’entreprise.
L’ajout d’yeux numériques distinguerait certainement Advanced Voice Mode des principaux concurrents d’OpenAI, Google et Meta, qui ont tous deux introduit leurs propres fonctionnalités conversationnelles ces derniers mois.
Gemini Live est peut-être capable de parler plus de 40 langues, mais il ne peut pas voir le monde qui l’entoure (du moins jusqu’à ce que Le projet Astra démarre) — les interactions vocales naturelles de Meta, qui ont fait leurs débuts lors de l’événement Connect 2024 en septembre, ne peuvent pas non plus utiliser les entrées de caméra.
OpenAI également annoncé aujourd’hui ce mode Voice Advanced était désormais également disponible pour les comptes ChatGPT Plus payants sur ordinateur. Il était disponible exclusivement sur mobile pendant un certain temps, mais il est désormais également accessible directement sur votre ordinateur portable ou PC.