| Nome: | Descrição: | Tamanho: | Formato: | |
|---|---|---|---|---|
| 6.06 MB | Adobe PDF |
Autores
Orientador(es)
Resumo(s)
Conversational Information Seeking has been recognized as a major emerging research
area, with the rise of a new generation of virtual personal assistants (Google Assistant,
Alexa, Siri, Cortana, amongst others). These systems, however, only support limited
information tasks in narrow domains. Conventional search engines, while supporting
open-domain queries, provide the user with a ranked list of documents instead of straight-
forward answers.
In this context, we address the problem of open-domain conversation assistance sup-
ported by a corpus of text passages from Wikipedia and Web, totaling 40 million passages.
The core proposal of this thesis consists of a framework for generating answers by focus-
ing the answers in the conversation central named entities. With this knowledge, various
strategies were researched to select the Wikipedia passages that should be summarized
by three different Transformer architectures. These models were fine-tuned for the sum-
marization task and enabled the creation of a single and more natural knowledge guided
answer for a given conversation turn.
Our proposed pipeline was evaluated both quantitatively and qualitatively, most noto-
riously using the TREC CAsT dataset and a human evaluation experiment with over 130
participants. Results have shown that the goal of creating answers with better informa-
tion quality was successfully met. Furthermore, the application of a modified PageRank
algorithm with the BART model has shown to further enhance the system’s performance
by over 6%.
A Pesquisa de Informação de forma Conversacional foi reconhecida como uma área de investigação emergente, com o surgimento de uma nova geração de assistentes pesso- ais virtuais (Assistente do Google, Alexa, Siri, Cortana, entre outros). Estes sistemas, no entanto, apenas suportam tarefas de recolha de informação em domínios limitados. Os motores de pesquisa convencionais, apesar de suportarem perguntas de domínios mais abertos, providenciam aos seus utilizadores uma lista de documentos ordenados em vez de respostas diretas. Neste contexto, confrontamos o problema de assistência a conversas em domínios abertos suportada por um corpus de passagens de texto da Wikipedia e da Web, cujo total são 40 milhões de passagens. A proposta central desta tese consiste numa framework para gerar respostas ao focar as mesmas nas entidades centrais de uma conversa. Com este conhecimento, várias estratégias foram investigadas para selecionar as passagens da Wikipedia que devem ser sumarizadas por três arquitecturas Transformer diferentes. Estes modelos foram fine-tuned para a tarefa de sumarização e possibilitaram a criação de respostas únicas, mais naturais e guiadas pelo conhecimento de um dado turno de uma conversa. O pipeline proposto foi avaliado quantitativamente e qualitativamente, mais noto- riamente com recurso ao dataset TREC CAsT e a uma experiência com mais de 130 avaliadores humanos. Os resultados mostram que o objectivo de criar respostas com uma melhor qualidade de informação foi atingido com sucesso. Além disso, a aplicação de um algoritmo de PageRank modificado e do modelo BART mostrou melhorar a performance do sistema em mais de 6%.
A Pesquisa de Informação de forma Conversacional foi reconhecida como uma área de investigação emergente, com o surgimento de uma nova geração de assistentes pesso- ais virtuais (Assistente do Google, Alexa, Siri, Cortana, entre outros). Estes sistemas, no entanto, apenas suportam tarefas de recolha de informação em domínios limitados. Os motores de pesquisa convencionais, apesar de suportarem perguntas de domínios mais abertos, providenciam aos seus utilizadores uma lista de documentos ordenados em vez de respostas diretas. Neste contexto, confrontamos o problema de assistência a conversas em domínios abertos suportada por um corpus de passagens de texto da Wikipedia e da Web, cujo total são 40 milhões de passagens. A proposta central desta tese consiste numa framework para gerar respostas ao focar as mesmas nas entidades centrais de uma conversa. Com este conhecimento, várias estratégias foram investigadas para selecionar as passagens da Wikipedia que devem ser sumarizadas por três arquitecturas Transformer diferentes. Estes modelos foram fine-tuned para a tarefa de sumarização e possibilitaram a criação de respostas únicas, mais naturais e guiadas pelo conhecimento de um dado turno de uma conversa. O pipeline proposto foi avaliado quantitativamente e qualitativamente, mais noto- riamente com recurso ao dataset TREC CAsT e a uma experiência com mais de 130 avaliadores humanos. Os resultados mostram que o objectivo de criar respostas com uma melhor qualidade de informação foi atingido com sucesso. Além disso, a aplicação de um algoritmo de PageRank modificado e do modelo BART mostrou melhorar a performance do sistema em mais de 6%.
Descrição
Palavras-chave
Conversational Search Information Retrieval Answer Generation Entities Knowledge Graph
