| Nome: | Descrição: | Tamanho: | Formato: | |
|---|---|---|---|---|
| 13.11 MB | Adobe PDF |
Autores
Orientador(es)
Resumo(s)
Visual Dialogue is a task requiring an AI agent to hold dialogue with humans in natural,
conversational language about visual content. It is a challenging task, requiring a high
level of understanding about both the visual world and natural language. The open
nature of conversational agents further increases the complexity of this task. This task
brings together the two main fields of AI and, being sufficiently detached from typical
downstream tasks, serves as a general test of machine intelligence. In addition to the
technical challenge, it is also an impactful application of AI, as it can help users when
interacting with systems, improving their experience. In the context of this work, we
propose to enrich the multimodal aspect of a task assistant, in two ways: 1) Dialogue
Video Moment Retrieval: We will allow users to navigate through videos by voice. We
will extract the video’s most relevant frames, create useful data about these frames, and
index the data, so it can later be retrieved; 2) Task-Grounded Image Sequence Synthesis:
We will use Image Synthesis models to illustrate task steps, with an emphasis on sequence
coherence.
Visual Dialogue é uma tarefa que requer que um agente de IA mantenha diálogos, em linguagem natural, com humanos, sobre conteúdo visual. É uma tarefa desafiante, que requer um alto nível de conhecimento acerca do mundo visual e de linguagem natural. A natureza livre dos agentes conversacionais aumenta a complexidade desta tarefa. Esta tarefa une as duas vertentes mais promissoras da Inteligência Artificial. Sendo suficientemente desconectada das tarefas típicas, pode servir como um teste geral para a Inteligência Artificial. Além do desafio técnico, é uma aplicação importante da área de IA, podendo ajudar utilizadores quando interagem com sistemas, melhorando a sua experiência. No contexto deste trabalho, propomos enriquecer um agente conversacional em dois aspetos: 1) Dialogue Video Moment Retrieval: Permitir aos utilizadores navegar pelos vídeos através da voz. Extrairemos as frames mais relevantes dos vídeos, criar dados úteis sobre estas frames, e indexá-los, para mais tarde podermos recuperá-los; 2) Task-Grounded Image Sequence Synthesis: Usaremos modelos de geração de imagem para ilustrar os passos das tarefas, com um foco na coerência da sequência.
Visual Dialogue é uma tarefa que requer que um agente de IA mantenha diálogos, em linguagem natural, com humanos, sobre conteúdo visual. É uma tarefa desafiante, que requer um alto nível de conhecimento acerca do mundo visual e de linguagem natural. A natureza livre dos agentes conversacionais aumenta a complexidade desta tarefa. Esta tarefa une as duas vertentes mais promissoras da Inteligência Artificial. Sendo suficientemente desconectada das tarefas típicas, pode servir como um teste geral para a Inteligência Artificial. Além do desafio técnico, é uma aplicação importante da área de IA, podendo ajudar utilizadores quando interagem com sistemas, melhorando a sua experiência. No contexto deste trabalho, propomos enriquecer um agente conversacional em dois aspetos: 1) Dialogue Video Moment Retrieval: Permitir aos utilizadores navegar pelos vídeos através da voz. Extrairemos as frames mais relevantes dos vídeos, criar dados úteis sobre estas frames, e indexá-los, para mais tarde podermos recuperá-los; 2) Task-Grounded Image Sequence Synthesis: Usaremos modelos de geração de imagem para ilustrar os passos das tarefas, com um foco na coerência da sequência.
Descrição
Palavras-chave
Visual Dialogue Video Moment Retrieval Image Synthesis Multimodal Models
