Resultados de estudos usados para prever interações entre proteínas, recomendar medicamentos e detectar fraudes financeiras podem ser menos confiáveis do que se supunha. Uma revisão sistemática, conduzida por pesquisadores do Interfaces da Universidade Federal de São Carlos (UFSCar), identificou falhas metodológicas recorrentes em pesquisas que utilizam redes neurais de grafos, um tipo de inteligência artificial que analisa dados conectados em rede e já acumulou mais de 40 mil citações desde 2016.
A revisão, publicada no periódico IEEE Access, examinou 84 artigos que aplicam a técnica ao agrupamento de dados em rede. Em 69 deles (82% do total), os autores validaram seus algoritmos com as mesmas três bases de dados. Na prática, é como se dezenas de laboratórios testassem um medicamento sempre nos mesmos pacientes: os resultados podem parecer sólidos, mas dizem pouco sobre o desempenho em condições reais.
“Temos um problema de confiança muito grande em poucos conjuntos de dados”, explica Guilherme Henrique Messias, doutorando em Ciência da Computação (PPGCC) da UFSCar e autor do trabalho. Essas bases, conhecidas como Cora, CiteSeer e PubMed, foram originalmente desenvolvidas para tarefas de classificação supervisionada e posteriormente adaptadas para testar algoritmos de agrupamento, o que pode distorcer os resultados.
O problema vai além da repetição. Segundo Messias, essas bases de dados não conseguem simular cenários específicos de problemas reais. “Nas redes sociais, temos poucos perfis com milhões de seguidores e muitos perfis com poucos seguidores. Isso significa que o comportamento dessa rede é diferente do contexto das bases usadas, que são redes de citações acadêmicas”.
Além de Messias, o artigo também é assinado pelos pesquisadores Tiago Gonçalves Botelho, do Departamento de Computação (DC) da UFSCar e professor do Instituto Federal de Educação, Ciência e Tecnologia do Sul de Minas (IFSULDEMINAS – campus de Muzambinho); Sylvia Iasulaitis, professora do Departamento de Ciências Sociais (DCSo) da UFSCar e líder do Interfaces e; Murilo Coelho Naldi, professor do DC/UFSCar; e Alan Demétrius Baria Valejo, professor do DC/UFSCar e vice-líder do Interfaces.
O estudo foi financiado pela Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (Capes), pela Fundação de Amparo à Pesquisa do Estado de São Paulo (Fapesp) e pelo Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq).
Metodologia e taxonomia
Para chegar aos 84 artigos finais, os pesquisadores partiram de 496 publicações identificadas nas bases Scopus e Web of Science, aplicando 20 critérios de inclusão e exclusão. A seleção foi feita por dois pesquisadores, Messias e Botelho, de forma independente, com taxa de concordância verificada pelo coeficiente de Cohen (kappa de 0,75, considerado substancial). Apenas trabalhos focados em redes homogêneas com atributos e métodos não supervisionados foram incluídos.
A partir dessa análise, os autores propõem uma nova taxonomia que organiza os algoritmos existentes em duas grandes categorias: modelos de incorporação de nós, que transformam os dados em representações vetoriais para posterior agrupamento, e modelos profundos, que realizam o agrupamento de forma integrada ao aprendizado. Cada categoria se subdivide em abordagens específicas, desde técnicas adversariais até métodos baseados em divergência de Kullback-Leibler.
A classificação pretende preencher uma lacuna na literatura. Revisões anteriores tratavam os métodos de forma genérica, agrupando técnicas muito distintas em categorias amplas que dificultavam a comparação entre abordagens e a identificação de limitações específicas.
Reprodutibilidade em xeque
Outro problema identificado diz respeito à transparência dos experimentos. A maioria dos algoritmos avaliados não disponibilizava códigos ou repositórios abertos. “Encontramos um problema muito grande: experimentos que não eram abertos”, relembra Messias. “Não havia a indicação de qual repositório ou pasta estavam os experimentos”. A consequência prática é a dificuldade de reproduzir resultados. Segundo o pesquisador, algumas tentativas de replicação geraram resultados muito diferentes dos reportados nos artigos originais, levantando suspeitas sobre a confiabilidade dos dados apresentados.
Apenas dois dos 84 trabalhos tentavam resolver outro problema central: a definição automática do número de grupos a serem identificados. A maioria dos algoritmos exige que o usuário especifique previamente quantos grupos existem nos dados, uma informação frequentemente desconhecida em aplicações reais. “Se você falar três grupos e naturalmente os dados têm quatro grupos, vai ser um resultado ruim”, exemplifica Messias.
Aplicações e perspectivas
A revisão, porém, também documenta aplicações concretas dessas técnicas. Os artigos analisados reportam usos em diagnóstico de Parkinson a partir de redes cerebrais, detecção de fraudes em transações financeiras, análise de redes criminosas, planejamento de transporte urbano e identificação de comunidades em sistemas biológicos.
Os pesquisadores apontam direções para superar os gargalos identificados. Uma delas é o desenvolvimento de bases de dados sintéticas que permitam testar algoritmos em cenários controlados, com características específicas que simulem problemas reais. “Isso abriu uma brecha para pesquisas em criação de dados artificiais”, conta Messias, indicando que esse será o próximo passo de sua pesquisa de doutorado.
O estudo também destaca a ausência de modelos baseados em transformers, a arquitetura dominante no processamento de linguagem natural, para tarefas de agrupamento em grafos, uma frente de pesquisa ainda pouco investigada.
🤩 Gostou do conteúdo? Acompanhe o Nation POP em todos os canais e não perca nenhuma novidade!
Facebook | Instagram | TikTok | YouTube
📲 Acompanhe também nosso canal exclusivo no Instagram e siga o Nation POP no Google News.







