Strategies to Bridge Modalities in Large Vision and Language Models

Simplício, Afonso Miguel Lopes

http://hdl.handle.net/10362/190514

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
Simplicio_2024.pdf		17.3 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Simplício, Afonso Miguel Lopes

Orientador(es)

Magalhães, João

Resumo(s)

Vision and language models have achieved remarkable results by leveraging cross-modality encoders that connect visual and textual information. However, training such models with large amounts of data is computationally expensive. To address this, recent models have employed frozen pre-trained image encoders and large language models (LLMs), focusing on efficiently transforming visual embeddings into a format that can be processed by text decoders. In this dissertation, we investigate the methods for establishing this vision-to-language connection. Building upon the framework used to train the Fromage [14] model, we conduct ablation studies to explore various techniques for extracting and transforming visual embeddings to be used as input of the text decoder. We focus on two primary architectures: (1) one that extracts a single visual embedding from the encoder and converts it into a sequence of embeddings using a linear transformation, and (2) one that extracts all token embeddings from a given layer and transforms them into a sequence of embeddings using cross-attention. Our experiments examine the impact of varying the number of embeddings generated and the choice of the encoder layer from which the embeddings are extracted. We evaluate model performance across several tasks, including image captioning, retrieval, and visual question answering. Based on our findings, we conclude that utilizing multiple visual token embeddings as decoder inputs significantly improves model performance. Additionally, following this framework, we trained a new generative model for European Portuguese. As part of this effort, we created a Portuguese vision-and-language dataset by translating existing English datasets using machine translation.

Modelos de visão e linguagem têm alcançado resultados notáveis ao utilizarem encoders multimodais que conectam informação visual e textual. No entanto, treinar esses modelos com grandes quantidades de dados é computacionalmente caro. Para contornar esta limitação, modelos recentes têm utilizado encoders de imagem pré-treinados e congelados, assim como Large Language Models (LLMs), concentrando-se na transformação eficiente de embeddings visuais para um formato que possa ser processado por decoders de texto. Nesta dissertação, investigamos os métodos usados para estabelecer esta conexão entre visão e linguagem. Baseando-nos na arquitetura usada para treinar o modelo Fromage [14], realizamos estudos de ablação para explorar várias técnicas de extração e transformação de embeddings visuais para serem usados como entrada do decoder de texto. Focamo- nos em duas arquiteturas principais: (1) uma que extrai um único embedding visual do encoder e converte numa sequência de embeddings através de uma transformação linear, e (2) uma que extrai todos os tokens de uma camada específica e transforma-os utilizando cross-attention. As nossas experiências examinam o impacto de variar o número de embeddings gerados e a escolha da camada do encoder de onde são extraídos os embeddings. Avaliamos o desempenho do modelo em várias tarefas, incluindo legendagem de imagens, recuperação de imagens e resposta a perguntas visuais. Com base nos nossos resultados, concluímos que a utilização de vários embeddings visuais como entrada do decoder melhora significativamente o desempenho do modelo. Além disso, seguindo este enquadramento, treinámos um novo modelo generativo para português europeu. Como parte deste esforço, criámos um conjunto de dados de visão e linguagem em português, traduzindo conjuntos de dados existentes em inglês utilizando tradução automática.

Palavras-chave

Visual Question Answering Natural Language Processing Multimodal Models Contrastive Learning Retrieval

URI

http://hdl.handle.net/10362/190514

Coleções

FCT: DI - Dissertações de Mestrado

Ver registo completo