27 de mar 2025
Anthropic revela segredos de modelos de linguagem com nova técnica de rastreamento
A nova técnica de análise da Anthropic revela como o modelo Claude 3.5 opera, desvendando comportamentos inesperados e estratégias internas.
Foto:Reprodução
Ouvir a notícia:
Anthropic revela segredos de modelos de linguagem com nova técnica de rastreamento
Ouvir a notícia
Anthropic revela segredos de modelos de linguagem com nova técnica de rastreamento - Anthropic revela segredos de modelos de linguagem com nova técnica de rastreamento
A empresa de inteligência artificial Anthropic revelou um novo método para analisar o funcionamento interno de modelos de linguagem, oferecendo insights sobre suas operações. Utilizando uma técnica chamada circuit tracing, os pesquisadores puderam observar o modelo Claude 3.5 Haiku em ação, desvendando comportamentos inesperados e estratégias que os modelos adotam para resolver problemas, como completar frases e realizar cálculos simples. Joshua Batson, cientista da pesquisa, destacou que os resultados mostram que esses modelos operam de maneiras ainda mais complexas do que se imaginava.
Os estudos de Anthropic se concentram em como os modelos de linguagem, que são treinados em grandes volumes de dados, desenvolvem suas capacidades. A pesquisa revelou que Claude não possui componentes específicos para cada idioma, mas utiliza partes independentes para entender questões e, em seguida, escolhe o idioma para a resposta. Além disso, ao resolver problemas matemáticos, Claude segue um raciocínio que não corresponde ao que foi ensinado, apresentando uma série de passos que incluem aproximações antes de chegar à resposta correta.
Outro achado interessante foi a capacidade de Claude de planejar ao escrever poemas, o que contradiz a ideia de que os modelos apenas escolhem palavras sequencialmente. Ao analisar a composição de um verso, os pesquisadores notaram que o modelo já havia decidido a palavra final antes de completar a linha anterior. Essa descoberta sugere que os modelos podem ter um nível de planejamento mais avançado do que se pensava anteriormente.
Por fim, a pesquisa também abordou o fenômeno das alucinações, onde o modelo gera informações incorretas. Os pesquisadores notaram que, em algumas situações, Claude tende a especular, especialmente sobre figuras públicas, o que pode ser atribuído a componentes que superam a configuração padrão de não especular. Apesar dos avanços, Batson enfatiza que ainda há muito a aprender sobre como esses modelos funcionam internamente e como suas estruturas se formaram durante o treinamento.
Perguntas Relacionadas
Comentários
Os comentários não representam a opinião do Portal Tela;
a responsabilidade é do autor da mensagem.