SLVideo: A Sign Language Video Moment Retrieval Framework

Martins, Gonçalo Vinagre

http://hdl.handle.net/10362/182682

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
Martins_2024.pdf		3.93 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Martins, Gonçalo Vinagre

Orientador(es)

Magalhães, João

Cavaco, Sofia

Resumo(s)

Sign Language Recognition has been an increasingly studied and developed subject throughout the years to help deaf and hard-of-hearing individuals in their social interactions in everyday life. These technologies employ manual sign recognition algorithms; however, the majority of them lack the capacity to recognise facial expressions, which are also an essential part of sign language as they allow the speaker to add expressiveness to their dialogue or even change the meaning of certain manual signs. For Portuguese Sign Language Recognition software this is no exception. This dissertation introduces SLVideo, a video moment retrieval system for Sign Language videos that incorporates facial expressions, addressing the gap in existing technology by focusing on both hand and facial signs. The system extracts embedding representations for the hand and face signs from video frames to capture the language signs in their entirety. This enables users to search for a specific sign language video segment with text queries or to search by similar sign language videos. To evaluate this system, a collection of eight hours of annotated Portuguese Sign Language videos is used as the dataset, and a CLIP model is used to generate the embeddings. The initial results are promising in a zero-shot setting. Additionally, SLVideo allows users to edit existing annotations and create new ones, making it a collaborative tool for annotators working with the same videos.

O Reconhecimento de Língua Gestual tem sido um tema cada vez mais estudado e desenvolvido ao longo dos anos para ajudar as pessoas surdas e com dificuldades auditivas nas suas interações sociais do dia-a-dia. Estas tecnologias recorrem a algoritmos de reconhecimento de sinais manuais; no entanto, na sua maioria, carece do reconhecimento de expressões faciais, que são também uma parte essencial da língua gestual, pois permitem ao falante acrescentar expressividade ao seu diálogo ou mesmo alterar o significado de determinados sinais manuais. No caso do software de reconhecimento de Língua Gestual Portuguesa isto não é exceção. Esta dissertação apresenta o SLVideo, um sistema de recuperação de momentos em vídeos de Língua Gestual Portuguesa que incorpora expressões faciais, colmatando a falha existente na tecnologia atual ao focar-se tanto nos sinais manuais como nos faciais. O sistema extrai representações em embeddings para os sinais manuais e faciais a partir dos frames de vídeo para captar os sinais linguísticos na sua totalidade. Isto permite aos utilizadores procurar um segmento específico de vídeo de língua gestual com consultas de texto ou procurar por vídeos de língua gestual semelhantes. Para avaliar este sistema, é utilizada uma coleção de oito horas de vídeos anotados de Língua Gestual Portuguesa como conjunto de dados, e é utilizado um modelo CLIP para gerar as embeddings. Os resultados iniciais são promissores num cenário de zero-shot. Além disso, o SLVideo permite aos utilizadores editar anotações existentes e criar novas, tornando-o numa ferramenta de colaboração para anotadores que trabalham com os mesmos vídeos.

Palavras-chave

Sign Language Recognition Facial expressions Portuguese Sign Language Video moment retrieval

URI

http://hdl.handle.net/10362/182682

Coleções

FCT: DI - Dissertações de Mestrado

Ver registo completo