Video Surveillance Metadata Extraction with Multimodal LLM Agents through Iterative Dialogue Exploration

Domingos, Pedro Acúrcio

http://hdl.handle.net/10362/200058

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
Domingos_2025.pdf		14.89 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Domingos, Pedro Acúrcio

Orientador(es)

Semedo, David

Neves, João

Lopes, Vasco

Resumo(s)

Current surveillance methods are unsustainable, demanding constant human oversight and vast storage for millions of hours of footage. This reliance on manual monitoring is not only labour-intensive but also error-prone, owing both to the challenging characteristics of surveillance footage (low resolution, poor lighting, and unconventional camera angles) and to the sheernumberof cameras thatmust be supervised. While LargeVision-Language Model (LVLM)s have shown promise in understanding generic videos, they often fail in this domain and tend to omit critical details, limiting their use for evidence extraction. This thesis addresses surveillance metadata extraction by employing multi-agent approaches sharing a foundational principle: obtaining additional scene context through iterative question-answering dialogue exploration. We begin with static questioning schemes; progress to dynamic, class-aware question generation; investigate reasoningbased approaches; and finally develop a surveillance-fitted, reasoning-guided method. The developed approaches use a set of models to overcome major single-model and surveillance limitations, ultimately being capable of producing richer representations of the video. To evaluate the developed methods, we conduct quantitative experiments on surveillance anomaly detection and classification tasks using the UCF-Crime Annotation (UCA) [59] dataset, and present qualitative examples demonstrating their fragilities and extraction capabilities. One method improves anomaly detection by 21 percentage points (p.p.) over the baseline. We also curate a higher-quality subset of surveillance data to study resolution effects on the prominent developed approaches. On this subset, we are able to surpass the baseline in anomaly detection by 10 p.p. and in anomaly classification by 4 p.p., without retraining. Resolution impacts anomaly classification by up to 12 p.p. This research contributes to the surveillance field by introducing alternative methods to perform zero-shot anomaly detection and classification, while pioneering the surveillance metadata extraction domain, and presenting insights into context extraction by employing multi-agent solutions.

Os métodos atuais de vigilância são insustentáveis, exigindo supervisão humana constante e vasta capacidade de armazenamento para milhões de horas de vídeo. Esta dependência de monitorização é intensiva em mão de obra e propensa a erros, devido às características das filmagens (baixa resolução, fraca iluminação e ângulos de câmara inconvencionais) e ao elevado número de câmaras para supervisionar. Embora os Large Vision-Language Model (LVLM)s consigam compreender vídeos genéricos, falham frequentemente neste domínio e tendem a omitir detalhes críticos, limitando a sua utilização na recolha de provas. Esta tese aborda a extração de metadados de vigilância através de abordagens multiagente que partilham um princípio fundamental: obter contexto através de um diálogo de pergunta-resposta. Iniciamos com esquemas perguntas estáticas; progredimos para geração dinâmica de perguntas por class; investigamos abordagens baseadas em raciocínio; e desenvolvemos um método de raciocínio guiado, adaptado a vigilância. As abordagens utilisam um conjunto de modelos para superar limitações individuais e de vigilância, sendo no final capazes de produzir representações mais fiéis do vídeo. Para avaliar os métodos desenvolvidos, realizámos testes quantitativos em tarefas de deteção e classificação de anomalias utilizando o conjunto de dados UCF-Crime Annotation (UCA) [59], e apresentamos exemplos qualitativos para demonstrar tanto as suas fragilidades como as suas capacidades de extração. Um dos métodos melhora a deteção de anomalias em 21 pontos percentuais (p.p.) face ao modelo base. Selecionámos ainda um subconjunto com maior resolução para estudar o seu impacto nas abordagens desenvolvidas. Neste subconjunto, conseguimos superar o modelo base em deteção por 10 p.p. e em classificação por 4 p.p. sem treino. A resolução impacta a classificação de anomalias até 12 p.p. Esta investigação contribui para o domínio da vigilância, ao introduzir métodos alternativos para realizar deteção e classificação de anomalias em zero-shot, ao mesmo tempo que inaugura o domínio da extração de metadados em vigilância e apresenta insights sobre extração de contexto através de abordagens multiagente.

Palavras-chave

Surveillance Video Analysis Exploratory Question-Answering Multimodal Large Language Models

URI

http://hdl.handle.net/10362/200058

Coleções

FCT: DI - Dissertações de Mestrado

Licença CC

cclicense-by

Ver registo completo