Time-aware Question-Answering for the Portuguese Web Archive

Arvana, João Manuel Coelho Barroso Varandas

http://hdl.handle.net/10362/163268

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
Arvana_2023.pdf		8.82 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Arvana, João Manuel Coelho Barroso Varandas

Orientador(es)

Semedo, David

Resumo(s)

The rise of the internet has dramatically increased the rate at which we produce digital information. However, due to the ephemeral nature of the web, much of this information is lost because it goes offline as quickly as it comes online. As a result, web archives were established to preserve and make information accessible in perpetuity. However the traditional approach of accessing information within these, were one uses the URL of the archived resource, is both prone to loss of knowledge due to forgotten URLs, as well as no longer sufficient to meet modern expectations for ease of access to information. Expectations like searchability and question-answering, which modern users have acquired through daily use of search engines, due to the way these features provide a more natural and easier way to express and satisfy an information need. Thus Web Archives increasingly exercise efforts to provide users with new access methods to it’s archived content, one such example is the PortugueseWeb Archive which offers full-text search. In thisworkwe propose a Time-aware Multi-document Extractive Question-Answering approach over the Portugueseweb archive, capable of independently answering questions without the need for user specified reference documents, selecting those instead by searching through the millions of archived documents. This approach is achieved by combining two components: 1) a time-aware semantic search component which retrieves candidate reference documents; 2) an ensemble of transformer-based extractive QA models, which collaborate on both the selection of the best reference document, and on the selection of the answer from within it. We also present ArquiWIZ, a prototype implementing our proposed approach over a subset of the Portuguese web archive’s data. Finally, to evaluate our proposed solution we introduce Arquivo.pt-QA, an extractive Single and Multi document QA evaluation set, focused on Portuguese archived news articles originating from the PortugueseWeb Archive.

O crescimento da internet aumentou dramaticamente a velocidade a que produzimos informação. No entanto, devido à natureza efêmera da web, muitas desta informação é perdida porque fica offline tão rapidamente quanto é posta online. Por esta razão, para preservar para sempre o acesso a esta informação, foram criados arquivos web. No entanto, a abordagem tradicional de acesso à informação nestes arquivos, que envolve o uso do URL do recurso arquivado, é tanto suscetível à perda de conhecimento por URLs esquecidas, como já não é suficiente para as expectativas currentes de facilidade de acesso à informação. Expectativas estas de funcionalidades como pesquisa e perguntasrespostas, algo que os usuários atuais tem vindo a adquirir do uso diário de motores de busca, devido à forma como estas oferecem maneiras mais naturais e fáceis de expressar e satisfazer necessidades de informação. Portanto, os Arquivos da Web estão cada vez mais a dedicar tempo e esforços ao desenvolvimento de novos métodos de acesso ao seu conteúdo arquivado, sendo um exemplo disso o Arquivo daWeb Português, que oferece pesquisa por texto. Neste trabalho propomos, para o Arquivo da Web Portuguesa, uma abordagem de Perguntas e Respostas (QA) Extrativas Multi-documentos com consideração pela componente temporal, capaz de responder a perguntas de forma independente sem necessitar de documentos de referencia identificados pelo utilizador, selecionando estes atravez de pesquisa entre os milhões de documentos arquivados. Esta abordagem resulta da combinação de dois componentes: 1) um componente de pesquisa semântica com consideração pela componente temporal, que pesquisa por candidatos a documentos de referência; 2) um conjunto de modelos de QA extrativos baseados em transformers, que colaboram tanto na seleção do melhor documento de referência quanto na seleção da resposta a partir deste. Apresentamos também o ArquiWIZ, um protótipo que implementa nossa abordagem proposta sobre um subconjunto dos dados do Arquivo daWeb Portuguesa. Por fim, para avaliar a solução proposta, introduzimos o Arquivo.pt-QA, um evaluation set para QA extrativo tanto para modalidade de documento singular como para Multi-documentos. Este é focado em artigos de notícias portugueses arquivados no Arquivo daWeb Portuguesa.

Palavras-chave

Web Archive Search System Information Retrieval Question Answering

URI

http://hdl.handle.net/10362/163268

Coleções

FCT: DI - Dissertações de Mestrado

Ver registo completo