Emotion Recognition using Multimodal Time Series

Botelho, Inês Alexandra Vieira

http://hdl.handle.net/10362/188006

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
Botelho_2023.pdf		3.83 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Botelho, Inês Alexandra Vieira

Orientador(es)

Gamboa, Hugo

Resumo(s)

Emotions play an important role in Human-Computer Interaction (HCI), specially in health- care, as they can provide psychological feedback on patients’ status. Wearable sensor data such as electrodermal activity (EDA), electrocardiography (ECG), and Voice activity may enhance emotion recognition, but their integration remains a challenge. This work aimed to address this by exploring cross-modal synergies. In pursuit of such goals, data collections have been conducted, encompassing record- ings from these three modalities, during a sequential protocol. Diverse stimulus types were employed covering four quadrants of the 2D Valence-Arousal spectrum. Signals were pre-processed with state-of-the-art methodologies and meaningful feature were ex- tracted. Optimization was extensively conducted using Machine Learning techniques, as well as preliminary Deep Learning experiments. Multimodal fusion approaches were evaluated through (1) early and (2) late fusion techniques and validated in the (a) collected (public) and (b) external (private) datasets. In unimodal analyses, the Voice signal showed higher performance on public datasets (simulated emotions) compared to our protocol. Models averaged 69% (public) and 51% (private) balanced accuracy (BA). Physiological signals had similar performance, 47% (public) and 44% (private) BA for EDA, and 48% (public) and 52% (private) BA for ECG. Combining data modalities using late fusion consistently outperformed unimodal strate- gies, achieving 57% (public) and 60% (private) BA in a 4-class classification problem. An- notator agreement significantly affected emotion detection, as models trained on consis- tent labels performed better. For stimuli-wise, audiovisual, and acting tasks triggered better model performance. Emotion recognition remains challenging due to inherent uncertainty. Combining modalities enhances model performance, emphasizing the need for reliable assessment tools in healthcare scenarios.

As emoções desempenham um papel fundamental na Human Computer Interaction (HCI), especialmente na área da saúde, pois são capazes de fornecer feedback psicológico do es- tado dos pacientes. Dados de sensores wearable como electrodermal activity (EDA), electro- cardiography (ECG) e atividade vocal podem melhorar o reconhecimento de emoções, mas a sua junção permanece um desafio. Este trabalho visa abordar esse desafio explorando sinergias entre diferentes modalidades. Desta forma, foram realizadas recolhas destes dados, seguindo um protocolo sequen- cial. Foram usados vários tipos de estímulos que incluem os quatro quadrantes do espetro 2D Valence-Arousal. Os sinais foram pré-processados com metodologias do estado da arte e features relevantes foram extraídas. Foi realizada uma extensa otimização usando técni- cas de Machine Learning, bem como experiências preliminares de Deep Learning. Aborda- gens de fusão multimodal foram avaliadas por meio de técnicas de fusão (1) precoce e (2) tardia e validadas em datasets (a) coletados (públicos) (b) e externos (privados). Nas análises unimodais, o sinal de Voz mostrou um desempenho superior nos datasets públicos (emulações de emoções) em comparação com o protocolo proposto. Os modelos alcançaram uma média de 69% (público) e 51% (privado) de balanced accuracy (BA). Os sinais fisiológicos tiveram desempenho semelhante, de 47% (público) e 44% (privado) de BA para o EDA e 48% (público) e 52% (privado) de BA para o ECG. A combinação de modalidades de dados usando a fusão tardia superou consistentemente, alcançando 57% (público) e 60% (privado) de BA em um problema de classificação de quatro classes. O acordo entre os anotadores afetou significativamente a deteção de emoções. Modelos treinados com labels consistentes tiveram um desempenho melhor. Quanto aos estímulos, tarefas audiovisuais e de atuação provocaram um melhor desempenho dos modelos. O reconhecimento de emoções ainda é um desafio devido à incerteza inerente. A com- binação de modalidades aprimora o desempenho do modelo, destacando a necessidade de ferramentas de avaliação confiáveis em cenários de saúde.

Palavras-chave

Emotion Recognition Physiological Signals Voice Activity Multimodal Data Fusion Machine Learning

URI

http://hdl.handle.net/10362/188006

Coleções

FCT: DF - Dissertações de Mestrado

Ver registo completo