Anthropic afirma que não utilizará os seus dados privados para treinar a sua IA

by Thomas Fevereiro 3, 2024

written by Thomas Fevereiro 3, 2024

Dados dos utilizadores: O alimento vital dos LLMs

Os Modelos de Linguagem de Grande Porte (LLMs), como o GPT-4, o LlaMa ou o Claude da Anthropic, são sistemas avançados de IA que compreendem e geram linguagem humana ao serem treinados com base em dados de texto extensos. Estes modelos utilizam técnicas de aprendizagem profunda e redes neuronais para prever sequências de palavras, compreender o contexto e entender as subtilezas da linguagem. Durante o treino, aperfeiçoam continuamente as suas previsões, melhorando a sua capacidade de conversar, compor texto ou fornecer informações relevantes. A eficácia dos LLMs depende muito da diversidade e do volume dos dados com que são treinados, tornando-os mais precisos e contextualmente conscientes à medida que aprendem com vários padrões de linguagem, estilos e novas informações.

É por esta razão que os dados dos utilizadores são tão valiosos para a formação de LLM. Em primeiro lugar, asseguram que os modelos se mantêm actualizados com as últimas tendências linguísticas e preferências dos utilizadores (por exemplo, a compreensão de novas gírias). Em segundo lugar, permite a personalização e um melhor envolvimento do utilizador, adaptando-se às suas interacções e estilos individuais. No entanto, isto gera um debate ético porque as empresas de IA não pagam aos utilizadores por esta informação crucial que é utilizada para treinar modelos que lhes rendem milhões de dólares.

Conforme noticiado pela TCN, a Meta revelou recentemente que está a treinar o seu futuro LlaMA-3 LLM com base nos dados dos utilizadores e os seus novos modelos EMU (que geram fotografias e vídeos a partir de instruções de texto) também foram treinados utilizando dados publicamente disponíveis carregados pelos seus utilizadores nas redes sociais.

Além disso, a Amazon também revelou que o seu próximo LLM, que alimentaria uma versão atualizada do Alexa, também está sendo treinado nas conversas e interações dos usuários, no entanto, os usuários podem optar por não receber os dados de treinamento que, por padrão, são configurados para assumir que os usuários concordam em compartilhar essas informações. “[Amazon] sempre acreditou que treinar Alexa com solicitações do mundo real é essencial para oferecer uma experiência aos clientes que é precisa e personalizada e está constantemente melhorando”, disse um porta-voz da Amazon à TCN. “Mas, ao mesmo tempo, damos aos clientes o controlo sobre se as suas gravações de voz da Alexa são utilizadas para melhorar o serviço, e honramos sempre as preferências dos nossos clientes quando treinamos os nossos modelos.”

Com os gigantes da tecnologia correndo para lançar os serviços de IA mais avançados, as práticas de dados responsáveis são essenciais para ganhar a confiança do público. A Anthropic pretende dar o exemplo a este respeito. O debate ético sobre a obtenção de modelos mais poderosos e convenientes à custa da cedência de informações pessoais é tão prevalecente hoje como era há décadas, quando as redes sociais popularizaram o conceito de os utilizadores se tornarem o produto em troca de serviços gratuitos.

Sim! RT @bryce adoro esta citação “Se não estás a pagar por isso, não és o cliente; és o produto que está a ser vendido.” http://bit.ly/93JYCJ

– Tim O’Reilly (@timoreilly) September 2, 2010

Anthropic afirma que não utilizará os seus dados privados para treinar a sua IA

‘Chegou a hora do Bitcoin’: Esperanças de ETF aguardam ansiosamente a decisão da SEC

Anunciado o lançamento aéreo do jogo Pixels – Eis como obter fichas Pixel

Related Posts

Leave a Comment Cancel Reply