Quem veja pela primeira vez os modelos Inteligência Artificial Generativa a funcionar parece que acabou de entrar para um universo imaginado por um autor de ficção científica. No entanto, a maioria destes modelos não conseguem levar a cabo tarefas que para um ser humano são tão simples que se tornaram basicamente instintivas, como ler as horas num relógio de ponteiros ou um calendário.
Uma equipa de investigadores da Universidade de Edimburgo, testou o desempenho dos principais modelos de Inteligência Artificial multimodais (os que são capazes de mais tarefas do que apenas gerar respostas em texto) para avaliar a sua precisão na leitura das horas marcadas em relógios analógicos e na leitura de calendários.
Os sistemas que foram usados nesta experiência foram o Gemini 2.0 da Google, o Cloud 3.5 Sonnet da Anthropic, o Llama 3.1-11B-Vision-Instruct da Meta, o Qwen2-VL7B-Instruct da Alibaba, o MiniCPM-V-2.6 da ModelBeast e os GPT-4º e GPT-o1 da OpenAI.
Foram usadas imagens de de relógios com numerais romanos, com e sem ponteiro dos segundos, várias cores e outras diferenças.
A má notícia é que estas IA só conseguiram ler correctamente as horas em 25% das vezes, tendo tido mais dificuldades em ler os relógios com numerais romanos e com ponteiro mais estilizados.
O desempenho das IA não melhorou com a remoção do ponteiro dos segundos, o que levou os investigadores a concluir que o problema está na leitura dos ponteiros e os ângulos a que estão no mostrador.
Quando foram usadas imagens de calendários, os investigadores fizeram perguntas às IA, como em que dia da semana calhou o dia de Ano Novo, ou que dia da semana era o 153º dia do ano.
Aqui, o desempenho foi ainda pior porque as IA só conseguiram acertar em 20% das vezes.
A taxa de acerto variou bastante consoante a IA utilizada. O Gemini 2.0 foi o que se portou melhor no teste dos relógios e o GPT-o1 foi o melhor no teste dos calendários.
As conclusões deste estudo vão ser publicadas num artigo que será apresentado a 28 de Abril no workshop Reasoning and Planning for Large Language Models que vai decorrer na The Thirteenth International Conference on Learning Representations (ICLR). Também podem ser consultadas no arquivo de publicações científicas arXiv.