Google Gemini Live: Intelligence artificielle avec caméra et partage d'écran dévoilée - Moyens I/O

Google Gemini Live: Intelligence artificielle avec caméra et partage d’écran dévoilée – Moyens I/O

Il est quelque peu énervant d’entendre une IA parler d’un ton étrangement amical et de me dire de nettoyer l’encombrement de mon poste de travail. J’en suis un peu fier, mais je suppose qu’il est temps d’empiler les gadgets épargnés au hasard et de ranger le désordre.

Ma sœur serait également d’accord. Mais sauter dans l’action après qu’une AI «voit» ma table, reconnaît le gâchis et qui étend les conseils de la femme au foyer est la situation dans son ensemble. Le chatbot Gemini AI de Google peut maintenant le faire. Et beaucoup plus.

La sauce secrète ici est une récente mise à jour des fonctionnalités intitulée Project Astra. Il est en développement depuis des années et a finalement commencé à se déployer plus tôt ce mois-ci. L’idée globale est de servir une IA de tous les temps, de tous les cas et ouvertement intelligente sur votre téléphone.

Google Hawks ces superpuissances sous un nom plutôt sans intérêt: Gemini Live avec le partage de l’appareil photo et de l’écran. Développée à l’unité DeepMind de la société, la société a commencé son développement en tant qu’assistant d’IA universel « . C’est dommage que le nom final ne soit pas aussi ambitieux.

Commençons par la situation d’accès. La capacité est désormais disponible pour les utilisateurs de Pixel 9 et Galaxy S25. Mais si vous avez un téléphone Android avec un abonnement avancé Gemini pour accompagner, vous pouvez accéder à la nouvelle boîte à outils.

Soit dit en passant, ce serait 20 $ par mois. Je l’ai essayé sur les deux téléphones susmentionnés et je l’ai maintenant prêt à rouler sur mon OnePlus 13. La partie la plus agréable? Vous n’avez pas à passer par des cerceaux techniques pour y accéder.

Un combo de bouton d’alimentation / volume, ou un balayage d’angle d’écran pour invoquer les Gémeaux est tout ce dont vous avez besoin. Peu importe l’application que vous exécutez, vous pouvez accéder à la nouvelle caméra et aux côtelettes de partage d’écran comme superposition dans tous les coins du système d’exploitation.

Donner un sens au monde qui vous entoure

J’ai commencé par pointer la caméra sur une peinture et j’ai posé des questions à ce sujet. Gemini Live a pu le détecter avec précision en tant que peinture de style Madhubani, décodant l’utilisation audacieuse des couleurs et la représentation des animaux.

Il a ensuite procédé à me donner une brève leçon d’histoire et les variations qui se sont développées au fil des ans. Les informations étaient précises, jusqu’au niveau le plus granulaire. Heureusement, vous pouvez également choisir d’avoir un va-et-vient basé sur le texte avec des Gémeaux, si vous êtes dans un endroit où les conversations vocales pourraient être gênantes.

Ce que j’aime le plus dans le nouvel avatar de la caméra et du partage d’écran de Gemini Live, c’est que ce n’est pas extrêmement bavard. Vous pouvez l’interrompre à tout moment, ce qui ne fait qu’ajouter à l’attrait «naturel» des conversations.

J’ai essayé les Gémeaux dans une variété de scénarios. Je n’y suis pas préparé.

Les réponses qu’il fournit sont généralement succinctes, comme s’il voulait vous donner une chance (ou même un coup de pouce) de poser une question de suivi au lieu de donner une réponse extrêmement longue. Il excelle dans toute une gamme de sujets et de scénarios visuels, mais il y a quelques pièges.

Il ne peut pas encore utiliser Google Lens, ce qui signifie que Gemini ne peut pas comparer les images qu’il voit sur l’écran de votre téléphone avec les résultats correspondants sur le Web. De plus, il ne peut pas accéder aux informations en temps réel si vous demandez aux Gémeaux de rechercher les derniers développements autour d’un sujet ou d’une personnalité.

Je l’ai interrogé sur les espèces végétales, les listes de restaurants, la ramassage des données dans les cartes de préavis et le sens de ma prescription médicale pour un récent combat de grippe. Gemini s’est plutôt bien comporté, plus que je n’ai jamais connu le joueur de chatbot AI jusqu’à présent.

Déverrouiller une banque de connaissances

Ensuite, j’ai poussé les Gémeaux pour donner un sens au matériel académique complexe. J’ai mis un livre sur l’apprentissage automatique dans le cadre de la caméra. Gemini Live l’a non seulement reconnu, mais a également donné un aperçu du contenu du livre et de ses sujets principaux.

Curieusement, j’ai commencé à traverser les pages et j’ai atterri sur la liste des chapitres. L’IA a reconnu les progrès, a cessé de parler et m’a demandé si j’étais intéressé par un chapitre particulier maintenant que je vérifiais la liste des sujets.

J’ai été surpris par surprise en ce moment.

Je lui ai demandé de décomposer quelques sujets complexes, et l’IA a fait un travail respectable, allant même au-delà de la portée du matériel sur la page et tirant des informations de sa vaste banque de connaissances.

Par exemple, lorsque je l’ai interrogé sur le contenu de la page d’introduction du roman séminal de Bhisham Sahni, Tamas, l’IA a correctement repris la mention du prix Sahitya Akademi. Il a ensuite mentionné les détails qui n’étaient même pas répertoriés sur la page, comme l’année où il a remporté le prestigieux honneur littéraire et ce qu’est le livre.

D’un autre côté, la lecture de la langue hindi de Gemini Live était horrible. Ce n’était pas seulement le mauvais accent, mais le fait que les Gémeaux prononçaient à plusieurs reprises du charabia et des non-mots. Tout en essayant de lire l’ourdou, le persan et l’arabe, il a fait un travail considérablement meilleur, mais souvent mélangé des mots à partir de lignes aléatoires.

Lors de ma première tentative avec la poésie ourdou, il a reconnu non seulement le texte de l’ourdou, mais a également donné un résumé précis du poème. Le plus grand défi, encore une fois, a été la narration. Entendre une version anglicisée de l’ourdou me fais vraiment mal aux oreilles.

Excelle dans des endroits surprenants

L’IA est un outil de résolution de problèmes fantastique, et il existe de nombreux repères pour le prouver. Je l’ai testé contre les problèmes physiques traitant de la thermodynamique, des équations électrochimiques et des problèmes statistiques apparaissant dans un cahier manuscrit. Gemini Live a fait un travail fantastique dans de telles tâches.

Il a même excellé dans les tâches créatives aussi. Ma sœur, qui est créatrice de mode, a présenté l’un de ses croquis dans la vue de la caméra et a demandé des commentaires ainsi que des améliorations. Gemini Live a commencé avec l’éloge du design, a fait des parallèles avec l’idéologie de design de quelques marques de mode et a fait une poignée de recommandations.

Lorsqu’il a été poussé plus loin, l’IA a également conseillé ma sœur sur les meilleurs outils pour convertir des croquis dessinés à la main en concepts numériques. Il a suivi ces mots de guidage en fournissant des informations utiles sur la pile logicielle et où l’on pourrait trouver du matériel d’apprentissage.

Lorsque j’ai mis quelques batteries Duracell dans la vue de la caméra, elle les a non seulement reconnues avec précision, mais m’a également dit les plateformes de commerce électronique hyperlocal qui peuvent me les livrer en quelques minutes.

La sensibilisation à la situation est son fort costume.

Par rapport à votre chat Gemini habituel ou à ce que vous trouvez dans la section des aperçus de l’IA de Google Search, les conversations en direct Gemini adoptent une approche plus prudente pour distribuer des connaissances, surtout si c’est de nature sensible. J’ai remarqué que des sujets tels que les recommandations alimentaires et les traitements médicaux sont gérés avec une approche de plus en plus prudente, et les utilisateurs sont souvent poussés à trouver la bonne ressource d’experts.

Quelques pièges familiers

Ma réalisation écrasante est que la cure de jouvence «Project Astra» de Gemini est très impressionnante. C’est un aperçu de l’avenir de ce que les smartphones peuvent réaliser. Avec quelques améliorations, intégrations et workflows croisés, cela peut faire en sorte que Google Search se sente comme une relique obsolète. Mais pour l’instant, il y a quelques défauts flagrants.

À quelques reprises, j’ai remarqué que le système de mémoire se détraque. Lorsqu’on lui a demandé d’identifier une bande de fitness dans la vue de la caméra, elle l’a correctement reconnue comme le Samsung Galaxy Fit 3. Mais lorsque j’ai poussé une question de suivi, il a perçu à tort l’appareil comme une bande de fitness de Huawei.

Il peut également mentir manifestement. Et avec confiance, je pourrais dire. Par exemple, lorsque je lui ai dit de résumer mon examen de l’appareil portable, l’IA a répondu que Moyens E / O ne l’a pas encore examiné. En réalité, l’article a été publié il y a une semaine.

Ensuite, je lui ai demandé de passer par quelques articles sur ma page d’auteur après avoir activé le partage d’écran. Gemini a fait un travail décent pour expliquer les histoires, mais a parfois trébuché à la compréhension contextuelle. Par exemple, il a mal mentionné que seuls Intel et AMD peuvent faire des NPU qui se qualifient pour le badge Copilot +.

L’article, en revanche, mentionne clairement que Qualcomm a été le premier à répondre à ces critères, avant la compétition. Et qu’il n’est qu’à la fin de l’année dernière qu’AMD et Intel pouvaient enfin monter de niveau et respecter cette base de référence AI Chip avec un nouveau portefeuille de processeurs.

À mi-chemin de la conversation sur un article, il a de nouveau rencontré un problème de mémoire. Au lieu de résumer l’histoire qui a été discutée, il a recommencé à parler du premier article qu’il a vu via le partage d’écran. Lorsque je l’ai interrompu à mi-chemin de la narration, Gemini a corrigé son erreur.

Un autre problème que j’ai remarqué avec la narration des langues non anglophones est que les Gémeaux ont changé au hasard la voix et le rythme à mi-chemin de la narration. C’était assez choquant, et la prononciation était absolument mécanique, très différente de ses compétences conversationnelles en anglais de type humain.

Les difficultés de vision machine sont également apparentes contre les polices stylistiques. À quelques reprises, il a craché avec confiance des informations erronées et lorsqu’on leur a demandé de se corriger, l’IA a exprimé son incapacité à trouver les dernières informations sur ce sujet. Ces scénarios sont rares, mais les erreurs des Gémeaux sont là pour rester.

Pour résumer tout, je pense que Gemini Live avec le partage de caméra et d’écran est l’un des plus grands sauts que l’IA a fait jusqu’à présent. C’est l’une des implémentations les plus enrichissantes de l’IA générative jusqu’à présent. Tout ce dont il a besoin est un soupçon de diversité et une solution pour son syndrome de «menteur confiant».

Les choses sont définitivement sur la bonne voie maintenant, et massivement, mais encore à quelques étapes cruciales d’être le compagnon d’IA parfait des rêves techno-futuristes.

Voir aussi:  Le département d'État va utiliser l'IA pour identifier et expulser les étudiants « pro-Hamas »
Moyens I/O Staff est une équipe de rédacteurs spécialisés, passionnés par la technologie, l’innovation et les usages numériques. Forts d’une expertise pointue en IA, applications mobiles, gaming et tendances digitales, nous produisons un contenu rigoureux, vérifié et utile. Notre mission : vous offrir une information fiable et claire pour mieux naviguer dans le monde numérique en constante évolution.