Publicação:
Time-series GAN for longitudinal tabular data

A carregar...
Miniatura

Título da revista

ISSN da revista

Título do Volume

Editora

Projetos de investigação

Unidades organizacionais

Fascículo

Resumo

Este trabalho aborda as limitações fundamentais da fragilidade dos modelos de previsão clínica longitudinal e os enviesamentos causados pela escassez de dados e pelo desequilíbrio entre classes, inerentes aos registos sequenciais de doentes, recorrendo especificamente a um conjunto de dados limitado a apenas 117 registos. Apresenta uma metodologia integrada e uma validação empírica rigorosa que utiliza uma Rede Adversária Generativa para Séries Temporais (TimeGAN) para criar uma população sintética de doentes de elevada fidelidade, mitigando esta restrição extrema de dados. A implementação do TimeGAN preservou com sucesso a fidelidade estrutural e temporal, confirmada através de análises estatísticas (teste de Kolmogorov-Smirnov) e estruturais (projecção por PCA), um passo crucial para o treino de classificadores multi-classe robustos para a previsão de resultados em saúde. As trajetórias longitudinais sintéticas geradas, melhoradas por uma estratégia de balanceamento de classes imperfeita, mas benéfica, constituíram a base de um estudo comparativo que contrastou de forma rigorosa o desempenho de generalização de duas famílias de modelos: o Multi-Layer Perceptron (MLP) estático versus a rede sequencial Long Short-Term Memory (LSTM). Avaliados exclusivamente num conjunto de teste de doentes reais não vistos e reservado (T1), os resultados experimentais demonstraram que o modelo de base treinado apenas com dados reais limitados falhou de forma catastrófica (Macro F1- Score: 15,17%), validando empiricamente a necessidade de aumento de dados sintéticos através do TimeGAN. Em contraste, o modelo LSTM (M4), treinado com sequências sintéticas balanceadas, alcançou a melhor generalização em contexto real (Weighted F1-Score: 74,67%); os modelos MLP sobre ajustaram significativamente às características sintéticas estáticas, resultando numa generalização substancialmente inferior e confirmando a sua incapacidade de explorar a causalidade sequencial. Estes resultados validam a utilidade do TimeGAN na geração de dados tabulares longitudinais sintéticos fiáveis e estabelecem uma dependência arquitetónica crucial: a previsão multi-classe robusta requer não só um aumento de dados essencial, mas também um modelo sensível à sequência (LSTM) para explorar plenamente a fidelidade temporal preservada pelo enquadramento TimeGAN. Esta investigação oferece uma metodologia validada, de ponta a ponta, para acelerar a investigação em domínios clínicos de elevado valor e com dados limitados.

Descrição

Palavras-chave

Citação

Avaliação

Revisão

Complementado por

Referenciado por