| Nome: | Descrição: | Tamanho: | Formato: | |
|---|---|---|---|---|
| 8.82 MB | Adobe PDF |
Orientador(es)
Resumo(s)
The rise of the internet has dramatically increased the rate at which we produce digital
information. However, due to the ephemeral nature of the web, much of this information
is lost because it goes offline as quickly as it comes online. As a result, web archives
were established to preserve and make information accessible in perpetuity. However
the traditional approach of accessing information within these, were one uses the URL
of the archived resource, is both prone to loss of knowledge due to forgotten URLs, as
well as no longer sufficient to meet modern expectations for ease of access to information.
Expectations like searchability and question-answering, which modern users have acquired
through daily use of search engines, due to the way these features provide a more
natural and easier way to express and satisfy an information need. Thus Web Archives
increasingly exercise efforts to provide users with new access methods to it’s archived
content, one such example is the PortugueseWeb Archive which offers full-text search.
In thisworkwe propose a Time-aware Multi-document Extractive Question-Answering
approach over the Portugueseweb archive, capable of independently answering questions
without the need for user specified reference documents, selecting those instead by searching
through the millions of archived documents. This approach is achieved by combining
two components: 1) a time-aware semantic search component which retrieves candidate
reference documents; 2) an ensemble of transformer-based extractive QA models, which
collaborate on both the selection of the best reference document, and on the selection of
the answer from within it.
We also present ArquiWIZ, a prototype implementing our proposed approach over a
subset of the Portuguese web archive’s data.
Finally, to evaluate our proposed solution we introduce Arquivo.pt-QA, an extractive
Single and Multi document QA evaluation set, focused on Portuguese archived news
articles originating from the PortugueseWeb Archive.
O crescimento da internet aumentou dramaticamente a velocidade a que produzimos informação. No entanto, devido à natureza efêmera da web, muitas desta informação é perdida porque fica offline tão rapidamente quanto é posta online. Por esta razão, para preservar para sempre o acesso a esta informação, foram criados arquivos web. No entanto, a abordagem tradicional de acesso à informação nestes arquivos, que envolve o uso do URL do recurso arquivado, é tanto suscetível à perda de conhecimento por URLs esquecidas, como já não é suficiente para as expectativas currentes de facilidade de acesso à informação. Expectativas estas de funcionalidades como pesquisa e perguntasrespostas, algo que os usuários atuais tem vindo a adquirir do uso diário de motores de busca, devido à forma como estas oferecem maneiras mais naturais e fáceis de expressar e satisfazer necessidades de informação. Portanto, os Arquivos da Web estão cada vez mais a dedicar tempo e esforços ao desenvolvimento de novos métodos de acesso ao seu conteúdo arquivado, sendo um exemplo disso o Arquivo daWeb Português, que oferece pesquisa por texto. Neste trabalho propomos, para o Arquivo da Web Portuguesa, uma abordagem de Perguntas e Respostas (QA) Extrativas Multi-documentos com consideração pela componente temporal, capaz de responder a perguntas de forma independente sem necessitar de documentos de referencia identificados pelo utilizador, selecionando estes atravez de pesquisa entre os milhões de documentos arquivados. Esta abordagem resulta da combinação de dois componentes: 1) um componente de pesquisa semântica com consideração pela componente temporal, que pesquisa por candidatos a documentos de referência; 2) um conjunto de modelos de QA extrativos baseados em transformers, que colaboram tanto na seleção do melhor documento de referência quanto na seleção da resposta a partir deste. Apresentamos também o ArquiWIZ, um protótipo que implementa nossa abordagem proposta sobre um subconjunto dos dados do Arquivo daWeb Portuguesa. Por fim, para avaliar a solução proposta, introduzimos o Arquivo.pt-QA, um evaluation set para QA extrativo tanto para modalidade de documento singular como para Multi-documentos. Este é focado em artigos de notícias portugueses arquivados no Arquivo daWeb Portuguesa.
O crescimento da internet aumentou dramaticamente a velocidade a que produzimos informação. No entanto, devido à natureza efêmera da web, muitas desta informação é perdida porque fica offline tão rapidamente quanto é posta online. Por esta razão, para preservar para sempre o acesso a esta informação, foram criados arquivos web. No entanto, a abordagem tradicional de acesso à informação nestes arquivos, que envolve o uso do URL do recurso arquivado, é tanto suscetível à perda de conhecimento por URLs esquecidas, como já não é suficiente para as expectativas currentes de facilidade de acesso à informação. Expectativas estas de funcionalidades como pesquisa e perguntasrespostas, algo que os usuários atuais tem vindo a adquirir do uso diário de motores de busca, devido à forma como estas oferecem maneiras mais naturais e fáceis de expressar e satisfazer necessidades de informação. Portanto, os Arquivos da Web estão cada vez mais a dedicar tempo e esforços ao desenvolvimento de novos métodos de acesso ao seu conteúdo arquivado, sendo um exemplo disso o Arquivo daWeb Português, que oferece pesquisa por texto. Neste trabalho propomos, para o Arquivo da Web Portuguesa, uma abordagem de Perguntas e Respostas (QA) Extrativas Multi-documentos com consideração pela componente temporal, capaz de responder a perguntas de forma independente sem necessitar de documentos de referencia identificados pelo utilizador, selecionando estes atravez de pesquisa entre os milhões de documentos arquivados. Esta abordagem resulta da combinação de dois componentes: 1) um componente de pesquisa semântica com consideração pela componente temporal, que pesquisa por candidatos a documentos de referência; 2) um conjunto de modelos de QA extrativos baseados em transformers, que colaboram tanto na seleção do melhor documento de referência quanto na seleção da resposta a partir deste. Apresentamos também o ArquiWIZ, um protótipo que implementa nossa abordagem proposta sobre um subconjunto dos dados do Arquivo daWeb Portuguesa. Por fim, para avaliar a solução proposta, introduzimos o Arquivo.pt-QA, um evaluation set para QA extrativo tanto para modalidade de documento singular como para Multi-documentos. Este é focado em artigos de notícias portugueses arquivados no Arquivo daWeb Portuguesa.
Descrição
Palavras-chave
Web Archive Search System Information Retrieval Question Answering
