Home » OpenAI met à jour ChatGPT : Le chatbot IA peut désormais “voir, entendre et parler”

OpenAI met à jour ChatGPT : Le chatbot IA peut désormais « voir, entendre et parler »

by Patricia

OpenAI a déployé des mises à jour très attendues qui permettront à son populaire chatbot ChatGPT d’interagir avec des images et des voix. Ce lancement représente une étape majeure vers la vision d’OpenAI d’une intelligence artificielle générale capable de percevoir et de traiter des informations provenant de différents modes, et pas seulement du texte.

« Nous commençons à déployer de nouvelles capacités vocales et visuelles dans le ChatGPT. Elles offrent un nouveau type d’interface plus intuitif en vous permettant d’avoir une conversation vocale ou de montrer à ChatGPT ce dont vous parlez », a déclaré OpenAI dans son billet de blog officiel.

OpenAI a indiqué que le nouveau ChatGPT-Plus inclura un chat vocal alimenté par un nouveau modèle de synthèse vocale capable d’imiter les voix humaines, et la possibilité de discuter d’images grâce à l’intégration avec les modèles de génération d’images de l’entreprise. Ces nouvelles fonctionnalités semblent faire partie de ce que l’on appelle GPT Vision (ou GPT-V, qui est souvent confondu avec un GPT-5 théorique) et représentent des éléments clés de la version multimodale améliorée de GPT-4 qu’OpenAI avait annoncée au début de l’année

Cette mise à jour intervient juste après qu’OpenAI a dévoilé DALL-E 3, son générateur texte-image le plus avancé à ce jour. Qualifié de « fou » par les premiers testeurs en raison de sa qualité et de sa précision, DALL-E 3 peut créer des images de haute fidélité à partir d’invites textuelles tout en comprenant des contextes et des concepts complexes exprimés en langage naturel. Il sera intégré à ChatGPT Plus, un service par abonnement qui offre un ChatGPT basé sur GPT-4.

L’intégration de DALL-E 3 et du chat vocal conversationnel témoigne de la volonté d’OpenAI de mettre en place des assistants IA capables de percevoir le monde comme le font les humains, c’est-à-dire avec plusieurs sens. Selon l’entreprise : « La voix et l’image vous offrent plus de possibilités d’utiliser ChatGPT dans votre vie. Prenez une photo d’un point d’intérêt lors d’un voyage et ayez une conversation en direct sur ce qui est intéressant à ce sujet. « 

Microsoft alimente la course à l’IA avec l’intégration d’OpenAI

Le plus grand bailleur de fonds d’OpenAI, Microsoft, va également de l’avant en intégrant les capacités avancées d’IA générative d’OpenAI dans ses propres produits grand public. Lors de son récent événement automnal, Microsoft a annoncé des mises à jour de Windows 11, d’Office et de la recherche Bing grâce à des modèles tels que DALL-E 3 (dans des programmes de retouche d’images comme Paint de Microsoft) et Copilot, l’assistant de programmation d’OpenAI.

Cette initiative s’inscrit dans le cadre de l’investissement de plus de 10 milliards de dollars de Microsoft dans OpenAI, qui vise à prendre la tête de la course aux assistants d’intelligence artificielle. Le lancement de Copilot dans Windows 11 le 26 septembre promet de rendre l’aide à l’IA disponible sur toutes les plateformes et tous les appareils de Microsoft. Parallèlement, Microsoft 365 Chat utilise les prouesses d’OpenAI en matière de langage naturel pour automatiser des tâches professionnelles complexes.

Comme l’a précédemment rapporté TCN, Microsoft a déclaré que le « Microsoft 365 Chat passe au peigne fin tout votre univers de données au travail, y compris les courriels, les réunions, les chats, les documents et plus encore, ainsi que le web. « 

Des étapes prudentes vers une IA responsable

Cependant, OpenAI est parfaitement consciente des risques potentiels liés à des systèmes d’IA multimodaux plus puissants impliquant la vision et la génération de voix. L’usurpation d’identité, les préjugés et la dépendance à l’égard de l’interprétation visuelle sont des préoccupations majeures.

« L’objectif d’OpenAI est de construire une IA sûre et bénéfique », écrit l’entreprise dans son communiqué. « Nous croyons en la mise à disposition progressive de nos outils, ce qui nous permet d’apporter des améliorations et d’affiner l’atténuation des risques au fil du temps, tout en préparant tout le monde à des systèmes plus puissants à l’avenir. « 

Alors, comme TCN l’a précédemment rapporté, OpenAI est en train d’assembler une équipe rouge pour travailler sur les moyens de prévenir les conséquences néfastes dues à une utilisation inappropriée de ses produits d’IA. Le PDG Sam Altman a également fait du lobbying dans le monde entier pour obtenir une législation favorable.

OpenAI a déclaré que les utilisateurs Plus et Enterprise auront accès à ces nouvelles fonctionnalités au cours des deux prochaines semaines, et qu’il est prévu d’étendre la disponibilité aux développeurs par la suite. Google ayant également annoncé son propre LLM multimodal révolutionnaire, Gemini, la course à la domination de l’industrie de l’IA ne fait que commencer

Related Posts

Leave a Comment