| Nome: | Descrição: | Tamanho: | Formato: | |
|---|---|---|---|---|
| 3.93 MB | Adobe PDF |
Autores
Orientador(es)
Resumo(s)
Sign Language Recognition has been an increasingly studied and developed subject
throughout the years to help deaf and hard-of-hearing individuals in their social interactions in everyday life. These technologies employ manual sign recognition algorithms;
however, the majority of them lack the capacity to recognise facial expressions, which are
also an essential part of sign language as they allow the speaker to add expressiveness
to their dialogue or even change the meaning of certain manual signs. For Portuguese
Sign Language Recognition software this is no exception. This dissertation introduces
SLVideo, a video moment retrieval system for Sign Language videos that incorporates
facial expressions, addressing the gap in existing technology by focusing on both hand
and facial signs. The system extracts embedding representations for the hand and face
signs from video frames to capture the language signs in their entirety. This enables
users to search for a specific sign language video segment with text queries or to search
by similar sign language videos. To evaluate this system, a collection of eight hours of
annotated Portuguese Sign Language videos is used as the dataset, and a CLIP model
is used to generate the embeddings. The initial results are promising in a zero-shot
setting. Additionally, SLVideo allows users to edit existing annotations and create new
ones, making it a collaborative tool for annotators working with the same videos.
O Reconhecimento de Língua Gestual tem sido um tema cada vez mais estudado e desenvolvido ao longo dos anos para ajudar as pessoas surdas e com dificuldades auditivas nas suas interações sociais do dia-a-dia. Estas tecnologias recorrem a algoritmos de reconhecimento de sinais manuais; no entanto, na sua maioria, carece do reconhecimento de expressões faciais, que são também uma parte essencial da língua gestual, pois permitem ao falante acrescentar expressividade ao seu diálogo ou mesmo alterar o significado de determinados sinais manuais. No caso do software de reconhecimento de Língua Gestual Portuguesa isto não é exceção. Esta dissertação apresenta o SLVideo, um sistema de recuperação de momentos em vídeos de Língua Gestual Portuguesa que incorpora expressões faciais, colmatando a falha existente na tecnologia atual ao focar-se tanto nos sinais manuais como nos faciais. O sistema extrai representações em embeddings para os sinais manuais e faciais a partir dos frames de vídeo para captar os sinais linguísticos na sua totalidade. Isto permite aos utilizadores procurar um segmento específico de vídeo de língua gestual com consultas de texto ou procurar por vídeos de língua gestual semelhantes. Para avaliar este sistema, é utilizada uma coleção de oito horas de vídeos anotados de Língua Gestual Portuguesa como conjunto de dados, e é utilizado um modelo CLIP para gerar as embeddings. Os resultados iniciais são promissores num cenário de zero-shot. Além disso, o SLVideo permite aos utilizadores editar anotações existentes e criar novas, tornando-o numa ferramenta de colaboração para anotadores que trabalham com os mesmos vídeos.
O Reconhecimento de Língua Gestual tem sido um tema cada vez mais estudado e desenvolvido ao longo dos anos para ajudar as pessoas surdas e com dificuldades auditivas nas suas interações sociais do dia-a-dia. Estas tecnologias recorrem a algoritmos de reconhecimento de sinais manuais; no entanto, na sua maioria, carece do reconhecimento de expressões faciais, que são também uma parte essencial da língua gestual, pois permitem ao falante acrescentar expressividade ao seu diálogo ou mesmo alterar o significado de determinados sinais manuais. No caso do software de reconhecimento de Língua Gestual Portuguesa isto não é exceção. Esta dissertação apresenta o SLVideo, um sistema de recuperação de momentos em vídeos de Língua Gestual Portuguesa que incorpora expressões faciais, colmatando a falha existente na tecnologia atual ao focar-se tanto nos sinais manuais como nos faciais. O sistema extrai representações em embeddings para os sinais manuais e faciais a partir dos frames de vídeo para captar os sinais linguísticos na sua totalidade. Isto permite aos utilizadores procurar um segmento específico de vídeo de língua gestual com consultas de texto ou procurar por vídeos de língua gestual semelhantes. Para avaliar este sistema, é utilizada uma coleção de oito horas de vídeos anotados de Língua Gestual Portuguesa como conjunto de dados, e é utilizado um modelo CLIP para gerar as embeddings. Os resultados iniciais são promissores num cenário de zero-shot. Além disso, o SLVideo permite aos utilizadores editar anotações existentes e criar novas, tornando-o numa ferramenta de colaboração para anotadores que trabalham com os mesmos vídeos.
Descrição
Palavras-chave
Sign Language Recognition Facial expressions Portuguese Sign Language Video moment retrieval
