| Nome: | Descrição: | Tamanho: | Formato: | |
|---|---|---|---|---|
| 4.4 MB | Adobe PDF |
Autores
Orientador(es)
Resumo(s)
The internet is a large-scale web of interconnected pages, which are ephemeral by nature.
Most web pages have a short life span, which leads to a loss of data as they die out. To fight
this knowledge gap, web archives were created, which occasionally crawl the internet to
store web pages. Because of the sheer size of the Internet as well as their longitudinal
nature, web archives are some of the largest agglomerations of human social knowledge.
ArquivoPT is the largest Portuguese web archive, and easily the largest collection of
unsorted Portuguese text. Its searching mechanisms focus on full-text search, domain and
URL filtering, and time ranges. These methods scale well but fail to capture the implicit
semantic connections across pages. Web pages, particularly news pages, are connected
through mentioning the same entities, directly or indirectly, or through referring to the
same or preceding/succeeding events. These relations between pages form an implicit
graph structure that goes unexplored with conventional methods, but that theoretically
allows for powerful exploration of knowledge in regards to entities and their relations.
We hypothesize that by making these relations explicit through a knowledge graph, we
can perform semantic-based, relation-oriented search and question answering over a news
set. By using a natural language processing pipeline to extract entities and relations from
Portuguese text, the sources of these connections are made apparent and, in combination
with a well-defined model, structured into an RDF graph. This graph is later queried and
used with specific algorithms which fulfill specific information-seeking use cases.
We thus contribute with a framework that generalizes to other scenarios, archives, and
even domains. It is accompanied by an evaluation methodology and dataset, to assess the
quality of these knowledge bases. Because news are not self-contained and lack common
facts, we also propose several ways to incorporate these into an entity-relation graph,
when it is linked to external knowledge bases.
A internet é uma rede de grande escala, formada por páginas interligadas que são de natureza passageira. A maior parte das páginas web tem uma vida curta, o que resulta numa perda de informação à medida que estas vão desaparecendo. Para combater esta discrepância de informação, foram criados os arquivos web, que ocasionalmente guardam páginas da internet. Devido ao tamanho da internet e à natureza longitudinais deste arquivos, acabam por ser das maiores coleções de conhecimento humano disponíveis. O ArquivoPT é o maior arquivo web português e facilmente a maior coleção de texto não organizado da língua. Os seus mecanismos de busca focam-se em pesquisa por pala- vras chave, filtragem por URL e intervalos temporais. Estes métodos escalam bem, mas não conseguem capturar as ligações semânticas que implicitamente existem entre as pá- ginas web. Estas páginas, principalmente as de notícias, estão interligadas por menções das mesmas entidades, diretamente ou indiretamente, e descrições dos mesmos eventos, ou da causalidade/sequência destes. Estas ligações formam um grafo implícito, que não é explorado pelos métodos convencionais de busca, mas que teoricamente permite uma poderosa forma de pesquisa baseada em entidades e as suas relações. A nossa hipótese é que, ao tornar estas relações explicitas com um grafo de conheci- mento, conseguimos fazer buscas semânticas e orientadas a relações, assim como questões, a um conjunto de notícias. Através do processamento sequencial de texto em português, entidades e relações são extraídas, e estas ligações são tornadas obvias e combinadas com um modelo bem definido, que as estrutura num grafo RDF. Este grafo é usado para busca e consultado por algoritmos que cumprem certos usos de casos de pesquisa. Contribuímos assim com um processo capaz de se generalizar para outros cenários, arquivos e até domínios. É acompanhado por uma metodologia de avaliação, e corres- pondente dataset, que avaliam a qualidade destas bases de conhecimento. Como noticias omitem conhecimento comum, apresentamos também varias formas de incorporar conhe- cimento externo em grafos entidade-relação ligados a outras bases de conhecimento.
A internet é uma rede de grande escala, formada por páginas interligadas que são de natureza passageira. A maior parte das páginas web tem uma vida curta, o que resulta numa perda de informação à medida que estas vão desaparecendo. Para combater esta discrepância de informação, foram criados os arquivos web, que ocasionalmente guardam páginas da internet. Devido ao tamanho da internet e à natureza longitudinais deste arquivos, acabam por ser das maiores coleções de conhecimento humano disponíveis. O ArquivoPT é o maior arquivo web português e facilmente a maior coleção de texto não organizado da língua. Os seus mecanismos de busca focam-se em pesquisa por pala- vras chave, filtragem por URL e intervalos temporais. Estes métodos escalam bem, mas não conseguem capturar as ligações semânticas que implicitamente existem entre as pá- ginas web. Estas páginas, principalmente as de notícias, estão interligadas por menções das mesmas entidades, diretamente ou indiretamente, e descrições dos mesmos eventos, ou da causalidade/sequência destes. Estas ligações formam um grafo implícito, que não é explorado pelos métodos convencionais de busca, mas que teoricamente permite uma poderosa forma de pesquisa baseada em entidades e as suas relações. A nossa hipótese é que, ao tornar estas relações explicitas com um grafo de conheci- mento, conseguimos fazer buscas semânticas e orientadas a relações, assim como questões, a um conjunto de notícias. Através do processamento sequencial de texto em português, entidades e relações são extraídas, e estas ligações são tornadas obvias e combinadas com um modelo bem definido, que as estrutura num grafo RDF. Este grafo é usado para busca e consultado por algoritmos que cumprem certos usos de casos de pesquisa. Contribuímos assim com um processo capaz de se generalizar para outros cenários, arquivos e até domínios. É acompanhado por uma metodologia de avaliação, e corres- pondente dataset, que avaliam a qualidade destas bases de conhecimento. Como noticias omitem conhecimento comum, apresentamos também varias formas de incorporar conhe- cimento externo em grafos entidade-relação ligados a outras bases de conhecimento.
Descrição
Palavras-chave
Temporal Graph Structuring Web Archives Portuguese Language Processing
