Home » Au-delà de Bard : Google lance Gemini, une IA multimodale pour défier ChatGPT

Au-delà de Bard : Google lance Gemini, une IA multimodale pour défier ChatGPT

by Thomas

Google a étonné le monde de la technologie mercredi avec le lancement de Gemini, sa suite d’outils d’intelligence artificielle multimodale destinée aux consommateurs et aux entreprises.

Parmi les géants de la technologie qui se lancent agressivement dans l’IA, le titan de la recherche Google semble nager dans un espace intermédiaire, alors qu’OpenAI, soutenu par Microsoft, a poussé ChatGPT vers Turbo et que Vision et Anthropic ont mis à niveau Claude. Aujourd’hui, Google propose trois versions de Gemini-Nano, Pro et Ultra – qui comprennent et intègrent de manière transparente le texte, les images, l’audio et la vidéo.

Gemini semble prêt à surpasser les modèles d’IA haut de gamme d’OpenAI, qui vient de publier une liste de nouvelles capacités, mais qui s’est vite retrouvée noyée dans les intrigues de l’entreprise.

La version la plus avancée, Gemini Ultra, a obtenu d’excellents résultats sur plusieurs critères de référence populaires, égalant ou dépassant les performances humaines dans certains cas. Par exemple, il a établi de nouveaux records pour 30 des 32 points de référence de l’examen MMLU, qui couvre une variété de sujets académiques.

Une des principales caractéristiques de Gemini est sa formation « nativement multimodale », qui lui permet de traiter plusieurs types de données comme le texte, les images et l’audio en tant qu’entrées et sorties. Cette approche signifie que le modèle a été construit et entraîné à partir de zéro pour comprendre les différentes entrées, plutôt que d’être le résultat d’un assemblage ultérieur de modes et de modules discrets.

Les IA multimodales les plus populaires d’aujourd’hui suivent cette dernière feuille de route. Par exemple, ChatGPT combine GPT-4 Turbo avec Dall-E 3 pour traiter le texte et générer des images, GPT-4 Vision pour traiter les images et un module de codage spécial pour les calculs. Par conséquent, le LLM est relégué au rôle de coordinateur entre différents modèles d’IA qui ne peuvent pas comprendre indépendamment la nature complète d’un problème spécifique.

Cette limitation peut également conduire à des vulnérabilités telles que l’injection rapide. Par exemple, des techniques permettant de contourner les contrôles de sécurité mis en place pour les invites textuelles en les écrivant ou en les imprimant sur un morceau de papier, en prenant une photo et en demandant au module visuel de la traiter.

Google Gemini obtient d'excellents résultats dans les tests d'IA. Image : Google

Google Gemini obtient d’excellents résultats dans les tests d’IA. Image : Google


En revanche, les premières évaluations qualitatives de Gemini révèlent sa remarquable capacité à effectuer des raisonnements intermodaux. Par exemple, dans le domaine de l’éducation, Gemini peut comprendre des problèmes complexes de physique, les convertir en formules mathématiques et fournir des solutions correctes. Cette capacité ouvre des voies de transformation dans le domaine de l’éducation ainsi que dans d’autres domaines.

Les LLM traditionnels ne sont généralement pas très doués en mathématiques, et les capacités de raisonnement de la famille Gemini de LLM multimodaux méritent donc une certaine attention.

Dans un autre test de référence axé sur la compréhension du langage multimodal, Gemini Ultra a atteint une précision de plus de 90 %, surpassant ainsi les autres modèles existants. Google affirme que les tests de préférence humaine ont également montré une nette préférence pour Gemini par rapport à des modèles tels que PaLM 2 dans des domaines tels que l’écriture créative.

Le service plus petit, Gemini Nano, est conçu pour être efficace sur l’appareil, excellant dans les résumés, la compréhension de la lecture et diverses tâches de raisonnement. Malgré sa taille réduite, Gemini Nano affiche des performances remarquables par rapport au modèle Gemini Pro, plus grand. Cela signifie que Gemini pourrait devenir l’IA préférée pour alimenter les assistants mobiles qui peuvent ou doivent travailler hors ligne.

Gemini semble être un début très solide, à tous points de vue. Et au fur et à mesure que les capacités d’IA de Google s’améliorent, leur polyvalence pourrait permettre de nouvelles applications dans de nombreux domaines. Pour l’instant, cependant, des tests en conditions réelles sont nécessaires pour déterminer ses niveaux de performance réalistes.

Les utilisateurs peuvent tester une version perfectionnée de Gemini Pro dès aujourd’hui avec Bard. Gemini Ultra sera lancé l’année prochaine dans une nouvelle version du chatbot de Google appelée Bard Advanced. Google prévoit de lancer Gemini dans plus de 170 langues différentes et d’utiliser la technologie pour alimenter sa gamme Pixel et la Search Generative Experience.

Related Posts

Leave a Comment