Mistral AI choisit un modèle de "mélange d'experts" pour défier le GPT 3.5

La startup parisienne Mistral AI, qui a récemment revendiqué une valorisation de 2 milliards de dollars, a lancé Mixtral, un grand modèle de langage (LLM) ouvert qui, selon elle, surpasse le GPT 3.5 d’OpenAI dans plusieurs tests de référence, tout en étant beaucoup plus efficace.

Mistral a bénéficié d’un important investissement de série A de la part d’Andreessen Horowitz (a16z), une société de capital-risque réputée pour ses investissements stratégiques dans les secteurs technologiques transformateurs, en particulier l’IA. D’autres géants de la technologie comme Nvidia et Salesforce ont également participé au tour de table.

« Mistral est au centre d’une communauté de développeurs petite mais passionnée qui se développe autour de l’IA open source », a déclaré Andreessen Horowitz dans son annonce de financement. « Les modèles affinés par la communauté dominent désormais régulièrement les classements open source (et battent même les modèles à source fermée sur certaines tâches) ».

Mixtral utilise une technique appelée mélange épars d’experts (MoE), qui, selon Mistral, rend le modèle plus puissant et plus efficace que son prédécesseur, Mistral 7b, et même que ses concurrents plus puissants.

Un mélange d’experts (MoE) est une technique d’apprentissage automatique dans laquelle les développeurs forment ou configurent plusieurs modèles d’experts virtuels pour résoudre des problèmes complexes. Chaque modèle expert est formé sur un sujet ou un domaine spécifique. Lorsqu’il est confronté à un problème, le modèle choisit un groupe d’experts parmi un ensemble d’agents, et ces experts utilisent leur formation pour décider quel résultat correspond le mieux à leur expertise.

MoE peut améliorer la capacité, l’efficacité et la précision des modèles d’apprentissage profond – la sauce secrète qui distingue Mixtral des autres, capable de rivaliser avec un modèle formé sur 70 milliards de paramètres à l’aide d’un modèle 10 fois plus petit.

« Mixtral a 46,7 milliards de paramètres totaux mais n’utilise que 12,9 milliards de paramètres par jeton », a déclaré Mistral AI. « Il traite donc les entrées et génère des sorties à la même vitesse et pour le même coût qu’un modèle de 12,9 milliards ».

« Mixtral surpasse Llama 2 70B sur la plupart des benchmarks avec une inférence 6x plus rapide et correspond ou surpasse GPT 3.5 sur la plupart des benchmarks standards », a déclaré Mistral AI dans un billet de blog officiel.

Image : Mistral AI

Mixtral est également soumis à la licence permissive Apache 2.0. Cela permet aux développeurs d’inspecter, d’exécuter, de modifier et même de construire des solutions personnalisées sur la base du modèle.

La question de savoir si Mixtral est 100 % open source ou non fait toutefois débat, car Mistral affirme n’avoir publié que des « poids ouverts », et la licence du modèle de base empêche son utilisation pour concurrencer l’IA de Mistral. La startup n’a pas non plus fourni l’ensemble des données d’entraînement et le code utilisé pour créer le modèle, ce qui serait le cas dans un projet open-source.

L’entreprise affirme que Mixtral a été affiné pour fonctionner exceptionnellement bien dans les langues étrangères autres que l’anglais. « Mixtral 8x7B maîtrise le français, l’allemand, l’espagnol, l’italien et l’anglais », obtenant d’excellents résultats dans les tests de référence multilingues standardisés, a déclaré Mistral AI.

Une version instruite, appelée Mixtral 8x7B Instruct, a également été publiée pour un suivi attentif des instructions. Elle a obtenu la note maximale de 8,3 sur le banc d’essai MT-Bench. Cela en fait le meilleur modèle open source actuel sur ce benchmark.

Le nouveau modèle de Mistral promet une architecture révolutionnaire de mélange d’experts clairsemé, de bonnes capacités multilingues et un accès totalement libre. Si l’on considère que cela s’est produit quelques mois seulement après sa création, la communauté des logiciels libres traverse une période passionnante et intéressante.

Mixtral peut être téléchargé via Hugging Face, mais les utilisateurs peuvent également utiliser la version d’instruction en ligne.

Mistral AI choisit un modèle de « mélange d’experts » pour défier le GPT 3.5

Échec et mat : Immortal Game abandonne les NFT d’échecs et les jetons cryptographiques en raison d’une « tricherie importante ».

La FIFA va frapper des NFT de football sur Polygon – mais n’abandonne pas Algorand

Related Posts

Leave a Comment Cancel Reply