Knowledge-Driven Answer Generation for Conversational Search

Leite, Mariana Estríbio

http://hdl.handle.net/10362/158897

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
Leite_2021.pdf		6.06 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Leite, Mariana Estríbio

Orientador(es)

Magalhães, João

Semedo, David

Resumo(s)

Conversational Information Seeking has been recognized as a major emerging research area, with the rise of a new generation of virtual personal assistants (Google Assistant, Alexa, Siri, Cortana, amongst others). These systems, however, only support limited information tasks in narrow domains. Conventional search engines, while supporting open-domain queries, provide the user with a ranked list of documents instead of straight- forward answers. In this context, we address the problem of open-domain conversation assistance sup- ported by a corpus of text passages from Wikipedia and Web, totaling 40 million passages. The core proposal of this thesis consists of a framework for generating answers by focus- ing the answers in the conversation central named entities. With this knowledge, various strategies were researched to select the Wikipedia passages that should be summarized by three different Transformer architectures. These models were fine-tuned for the sum- marization task and enabled the creation of a single and more natural knowledge guided answer for a given conversation turn. Our proposed pipeline was evaluated both quantitatively and qualitatively, most noto- riously using the TREC CAsT dataset and a human evaluation experiment with over 130 participants. Results have shown that the goal of creating answers with better informa- tion quality was successfully met. Furthermore, the application of a modified PageRank algorithm with the BART model has shown to further enhance the system’s performance by over 6%.

A Pesquisa de Informação de forma Conversacional foi reconhecida como uma área de investigação emergente, com o surgimento de uma nova geração de assistentes pesso- ais virtuais (Assistente do Google, Alexa, Siri, Cortana, entre outros). Estes sistemas, no entanto, apenas suportam tarefas de recolha de informação em domínios limitados. Os motores de pesquisa convencionais, apesar de suportarem perguntas de domínios mais abertos, providenciam aos seus utilizadores uma lista de documentos ordenados em vez de respostas diretas. Neste contexto, confrontamos o problema de assistência a conversas em domínios abertos suportada por um corpus de passagens de texto da Wikipedia e da Web, cujo total são 40 milhões de passagens. A proposta central desta tese consiste numa framework para gerar respostas ao focar as mesmas nas entidades centrais de uma conversa. Com este conhecimento, várias estratégias foram investigadas para selecionar as passagens da Wikipedia que devem ser sumarizadas por três arquitecturas Transformer diferentes. Estes modelos foram fine-tuned para a tarefa de sumarização e possibilitaram a criação de respostas únicas, mais naturais e guiadas pelo conhecimento de um dado turno de uma conversa. O pipeline proposto foi avaliado quantitativamente e qualitativamente, mais noto- riamente com recurso ao dataset TREC CAsT e a uma experiência com mais de 130 avaliadores humanos. Os resultados mostram que o objectivo de criar respostas com uma melhor qualidade de informação foi atingido com sucesso. Além disso, a aplicação de um algoritmo de PageRank modificado e do modelo BART mostrou melhorar a performance do sistema em mais de 6%.

Palavras-chave

Conversational Search Information Retrieval Answer Generation Entities Knowledge Graph

URI

http://hdl.handle.net/10362/158897

Projetos de investigação

Sem título

Projeto de investigaçãoVer mais

Coleções

FCT: DI - Dissertações de Mestrado

Ver registo completo