Benchmark de inteligência artificial pode estar distorcendo resultados reais

Pesquisadores, incluindo Anshul Kundaje da Universidade de Stanford, alertam sobre a inadequação de benchmarks na avaliação de modelos de inteligência artificial (IA) na ciência.
Esses padrões mal projetados resultam em informações errôneas e previsões imprecisas em várias áreas.
Kundaje menciona que “benchmarks ruins se propagam”, criando um ciclo vicioso que compromete a pesquisa científica.
A análise de Nick McGreivy e Ammar Hakim revela que setenta e nove por cento dos artigos sobre melhorias em modelos de IA apresentam reivindicações problemáticas.
A comunidade científica precisa urgentemente de padrões de avaliação mais robustos para garantir a eficácia da IA no avanço do conhecimento.

Pesquisadores, como Anshul Kundaje, da Universidade de Stanford, alertam que benchmarks inadequados estão comprometendo a eficácia de modelos de inteligência artificial (IA) na ciência. Esses padrões de avaliação, muitas vezes mal projetados, resultam em informações errôneas e previsões imprecisas em diversas áreas.

Kundaje destaca que “bad benchmarks propagate”, referindo-se ao ciclo vicioso em que benchmarks falhos são adotados e aprimorados por usuários bem-intencionados, mas ingênuos. Esse fenômeno gera um acúmulo de dados incorretos, prejudicando a pesquisa científica. A falta de pressão para melhorar esses padrões é um fator crítico, segundo Nick McGreivy, ex-aluno de doutorado da Universidade de Princeton, que compara a situação à permissividade em permitir que empresas farmacêuticas avaliem a eficácia de seus próprios produtos.

Problemas nos Modelos de IA

Os modelos de linguagem de DNA (DNALMs) são um exemplo claro das falhas nos benchmarks. Kundaje e sua equipe identificaram que muitos desses modelos não são avaliados em tarefas cruciais, como a classificação de variantes genéticas funcionais, levando a estimativas irreais de suas capacidades. Essa situação é comparável ao ensino que prioriza a preparação para testes em detrimento do aprendizado real.

Além disso, Lorena Barba, engenheira mecânica da Universidade George Washington, aponta que a ciência enfrenta desafios devido à falta de transparência e à negligência de dados. A aplicação de IA em dinâmicas de fluidos, por exemplo, depende de soluções aproximadas para equações diferenciais parciais, mas a confiança nos benchmarks atuais é questionável.

A Necessidade de Melhoria nos Benchmarks

A análise de McGreivy e seu colega Ammar Hakim revela que 79% dos artigos sobre melhorias em modelos de IA apresentam reivindicações problemáticas. Isso ocorre, em parte, devido a comparações injustas com métodos não baseados em IA que não são eficientes. A falta de rigor na avaliação dos modelos compromete a credibilidade da literatura científica.

A situação é alarmante, pois a confiança em benchmarks inadequados pode levar a um uso indevido da IA na pesquisa científica, resultando em soluções que não atendem às necessidades reais. A comunidade científica precisa urgentemente de padrões de avaliação mais robustos para garantir que a IA realmente contribua para o avanço do conhecimento.