- Pesquisadores do MIT e do MIT-IBM Watson AI Lab publicaram um estudo sobre modelos de linguagem de grande escala (LLMs).
- O estudo reúne dados de 485 modelos pré-treinados de 40 famílias diferentes e analisa mais de 1,9 milhão de métricas de desempenho.
- Os pesquisadores desenvolveram diretrizes para otimizar a previsão de desempenho, ajudando desenvolvedores a maximizar resultados dentro de orçamentos limitados.
- A pesquisa destaca a importância de incluir checkpoints de treinamento intermediários e sugere que modelos menores podem ser preditivos.
- As leis de escalonamento podem ser usadas para prever o desempenho de modelos menores a partir de modelos maiores, facilitando o acesso a técnicas avançadas de modelagem.
Pesquisadores do MIT e do MIT-IBM Watson AI Lab publicaram um novo estudo que reúne dados de centenas de modelos de linguagem e métricas de desempenho, visando otimizar a previsão de resultados em modelos de linguagem de grande escala (LLMs). O trabalho foi apresentado na International Conference on Machine Learning e propõe diretrizes para ajudar desenvolvedores a maximizar o desempenho dentro de orçamentos computacionais e financeiros limitados.
O treinamento de LLMs pode custar milhões de dólares, o que torna essencial que os desenvolvedores façam escolhas informadas sobre arquitetura, otimizadores e conjuntos de dados. Para prever a qualidade das previsões de um modelo grande, muitos recorrem a leis de escalonamento, que utilizam modelos menores para estimar o desempenho de modelos maiores. No entanto, a criação de leis de escalonamento é complexa, com milhares de abordagens possíveis.
Os pesquisadores coletaram dados de 485 modelos pré-treinados de 40 famílias diferentes, como Pythia, OPT e GPT, e analisaram mais de 1,9 milhão de métricas de desempenho. A equipe desenvolveu uma meta-análise que permite a comparação de mais de mil leis de escalonamento, oferecendo recomendações práticas para a seleção de modelos menores e a estimativa de desempenho.
Diretrizes para Previsão de Desempenho
Entre as descobertas, os pesquisadores identificaram que incluir checkpoints de treinamento intermediários melhora a precisão das previsões. Além disso, modelos menores, mesmo que parcialmente treinados, podem ser preditivos. A pesquisa sugere que, ao priorizar a formação de modelos de diferentes tamanhos, os desenvolvedores podem aumentar a robustez das estimativas de desempenho.
Os pesquisadores também notaram que as leis de escalonamento podem ser aplicadas de forma eficaz para prever o desempenho de modelos menores a partir de modelos maiores. Essa abordagem pode democratizar o acesso a técnicas avançadas de modelagem, permitindo que pesquisadores com menos recursos compreendam e construam leis de escalonamento eficazes.
O estudo destaca a importância de desenvolver modelos preditivos não apenas para o treinamento, mas também para a inferência, sugerindo que a análise de como os modelos se comportam durante o tempo de execução pode se tornar cada vez mais relevante.