- Estudo do MIT aponta que LLMs podem responder usando padrões gramaticais aprendidos, em vez de conhecimento do domínio.
- Isso pode levar a respostas incorretas em novas tarefas, associando estruturas de frases a tópicos específicos.
- Experimentos com GPT‑4 e Llama mostraram que modelos podem falhar even com perguntas com sentido ausente se a sintaxe remeter a um tema conhecido.
- Há risco de segurança: alguém pode explorar esse fenômeno para fazer o modelo gerar conteúdo nocivo, mesmo com salvaguardas.
- Os pesquisadores criaram um método de benchmarking para medir essa dependência sintaxe‑domínio e orientar mitigação futura; o trabalho será apresentado na conferência Neural Information Processing Systems.
Dois ou três parágrafos introdutórios descrevem o que aconteceu: estudo realizado por pesquisadores do MIT revelou que grandes modelos de linguagem podem recorrer a padrões gramaticais aprendidos durante o treinamento para responder a perguntas, em vez de usar apenas o conhecimento do domínio. O resultado pode comprometer a confiabilidade de LLMs em tarefas de atendimento ao cliente, resumo de notas clínicas e geração de relatórios financeiros. O trabalho será apresentado na conferência NeurIPS.
A pesquisa identifica que os modelos associam templates sintáticos a domínios específicos, levando a respostas convincentes baseadas na forma da frase e não no conteúdo. Experimentos com modelos de ponta mostraram falhas quando a estrutura da pergunta foi alterada, mesmo mantendo o significado. Ponto central: a dependência de padrões pode reduzir a precisão em tarefas novas.
Metodologia
Os autores criaram experimentos sintéticos para testar a influência de apenas um template por domínio no treinamento. Substituições de palavras mantiveram a sintaxe, revelando falhas quando a estrutura era alterada. Testes com GPT-4 e Llama evidenciaram queda de desempenho diante de novas combinações de sintaxe.
Resultados e implicações
Foi possível demonstrar que a associação entre sintaxe e domínio pode induzir respostas inadequadas ou perigosas, ainda que salvaguardas existam. Os pesquisadores desenvolveram um procedimento de avaliação automática para medir a dependência desses padrões, útil para mitigar riscos antes de implantação.
Perspectivas
A equipe planeja investigar estratégias de mitigação, como enriquecer dados de treinamento com mais variações de templates. O objetivo é reduzir vulnerabilidades em cenários de segurança, especialmente em domínios sensíveis, sem comprometer a performance. Pesquisadores ressaltam a necessidade de avançar na análise de sintaxe para segurança de modelos.