Home » Mistral AI escolhe um modelo de “mistura de peritos” para desafiar o GPT 3.5

Mistral AI escolhe um modelo de “mistura de peritos” para desafiar o GPT 3.5

by Thomas

A Mistral AI, uma startup sediada em Paris, que recentemente reivindicou uma avaliação de 2 mil milhões de dólares, lançou o Mixtral, um modelo aberto de linguagem de grande dimensão (LLM) que, segundo a empresa, supera o GPT 3.5 da OpenAI em vários parâmetros de referência, sendo muito mais eficiente.

A Mistral atraiu um investimento substancial da Série A da Andreessen Horowitz (a16z), uma empresa de capital de risco conhecida pelos seus investimentos estratégicos em sectores tecnológicos transformadores, especialmente a IA. Outros gigantes da tecnologia, como a Nvidia e a Salesforce, também participaram na ronda de financiamento.

“Mistral está no centro de uma comunidade de desenvolvedores pequena, mas apaixonada, crescendo em torno da IA de código aberto”, disse Andreessen Horowitz em seu anúncio de financiamento. “Os modelos ajustados pela comunidade agora dominam rotineiramente as tabelas de classificação de código aberto (e até mesmo vencem os modelos de código fechado em algumas tarefas).”

Mixtral usa uma técnica chamada mistura esparsa de especialistas (MoE), que Mistral diz que torna o modelo mais poderoso e eficiente do que seu antecessor, Mistral 7b – e até mesmo seus concorrentes mais poderosos.

Uma mistura de especialistas (MoE) é uma técnica de aprendizado de máquina na qual os desenvolvedores treinam ou configuram vários modelos de especialistas virtuais para resolver problemas complexos. Cada modelo de especialista é treinado num tópico ou campo específico. Quando lhe é apresentado um problema, o modelo escolhe um grupo de peritos de um conjunto de agentes e esses peritos utilizam a sua formação para decidir qual o resultado que melhor se adequa aos seus conhecimentos.

O MoE pode melhorar a capacidade, a eficiência e a precisão dos modelos de aprendizagem profunda – o molho secreto que distingue o Mixtral dos restantes, capaz de competir com um modelo treinado com 70 mil milhões de parâmetros utilizando um modelo 10 vezes mais pequeno.

“Mixtral tem 46.7B parâmetros totais, mas usa apenas 12.9B parâmetros por token”, disse Mistral AI. “Ele, portanto, processa a entrada e gera saída na mesma velocidade e pelo mesmo custo de um modelo de 12.9B.”

“O Mixtral supera o Llama 2 70B na maioria dos benchmarks com inferência 6x mais rápida e corresponde ou supera o GPT 3.5 na maioria dos benchmarks padrão”, disse Mistral AI em uma postagem oficial no blog.

Imagem: Mistral AI

Imagem: Mistral AI


O Mistral também está licenciado sob a licença permissiva Apache 2.0. Isto permite que os programadores inspeccionem, executem, modifiquem e até criem livremente soluções personalizadas com base no modelo.

Há um debate, no entanto, sobre se o Mixtral é 100% de código aberto ou não, já que a Mistral diz que lançou apenas “pesos abertos” e a licença do modelo principal impede seu uso para competir com a Mistral AI. A startup também não forneceu o conjunto de dados de treinamento e o código usado para criar o modelo, o que seria o caso em um projeto de código aberto.

A empresa afirma que o Mixtral foi aperfeiçoado para funcionar excecionalmente bem em línguas estrangeiras para além do inglês. “O Mixtral 8x7B domina o francês, o alemão, o espanhol, o italiano e o inglês”, obtendo uma pontuação elevada em benchmarks multilingues padronizados, afirmou a Mistral AI.

Uma versão instruída chamada Mixtral 8x7B Instruct também foi lançada para seguir instruções cuidadosas, alcançando uma pontuação máxima de 8,3 no benchmark MT-Bench. Isto torna-o o melhor modelo de código aberto atual no benchmark.

O novo modelo da Mistral promete uma arquitetura revolucionária de mistura esparsa de especialistas, boas capacidades multilingues e acesso aberto completo. E considerando que isto aconteceu apenas alguns meses após a sua criação, a comunidade de código aberto está a atravessar uma era excitante e interessante.

O Mixtral está disponível para ser descarregado através do Hugging Face, mas os utilizadores também podem utilizar a versão de instrução online.

Related Posts

Leave a Comment