Structuring and Organizing Large Scale Graph Temporal Information

Castanho, Daniel João Nunes

http://hdl.handle.net/10362/190421

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
Castanho_2023.pdf		4.4 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Castanho, Daniel João Nunes

Orientador(es)

Semedo, David

Resumo(s)

The internet is a large-scale web of interconnected pages, which are ephemeral by nature. Most web pages have a short life span, which leads to a loss of data as they die out. To fight this knowledge gap, web archives were created, which occasionally crawl the internet to store web pages. Because of the sheer size of the Internet as well as their longitudinal nature, web archives are some of the largest agglomerations of human social knowledge. ArquivoPT is the largest Portuguese web archive, and easily the largest collection of unsorted Portuguese text. Its searching mechanisms focus on full-text search, domain and URL filtering, and time ranges. These methods scale well but fail to capture the implicit semantic connections across pages. Web pages, particularly news pages, are connected through mentioning the same entities, directly or indirectly, or through referring to the same or preceding/succeeding events. These relations between pages form an implicit graph structure that goes unexplored with conventional methods, but that theoretically allows for powerful exploration of knowledge in regards to entities and their relations. We hypothesize that by making these relations explicit through a knowledge graph, we can perform semantic-based, relation-oriented search and question answering over a news set. By using a natural language processing pipeline to extract entities and relations from Portuguese text, the sources of these connections are made apparent and, in combination with a well-defined model, structured into an RDF graph. This graph is later queried and used with specific algorithms which fulfill specific information-seeking use cases. We thus contribute with a framework that generalizes to other scenarios, archives, and even domains. It is accompanied by an evaluation methodology and dataset, to assess the quality of these knowledge bases. Because news are not self-contained and lack common facts, we also propose several ways to incorporate these into an entity-relation graph, when it is linked to external knowledge bases.

A internet é uma rede de grande escala, formada por páginas interligadas que são de natureza passageira. A maior parte das páginas web tem uma vida curta, o que resulta numa perda de informação à medida que estas vão desaparecendo. Para combater esta discrepância de informação, foram criados os arquivos web, que ocasionalmente guardam páginas da internet. Devido ao tamanho da internet e à natureza longitudinais deste arquivos, acabam por ser das maiores coleções de conhecimento humano disponíveis. O ArquivoPT é o maior arquivo web português e facilmente a maior coleção de texto não organizado da língua. Os seus mecanismos de busca focam-se em pesquisa por pala- vras chave, filtragem por URL e intervalos temporais. Estes métodos escalam bem, mas não conseguem capturar as ligações semânticas que implicitamente existem entre as pá- ginas web. Estas páginas, principalmente as de notícias, estão interligadas por menções das mesmas entidades, diretamente ou indiretamente, e descrições dos mesmos eventos, ou da causalidade/sequência destes. Estas ligações formam um grafo implícito, que não é explorado pelos métodos convencionais de busca, mas que teoricamente permite uma poderosa forma de pesquisa baseada em entidades e as suas relações. A nossa hipótese é que, ao tornar estas relações explicitas com um grafo de conheci- mento, conseguimos fazer buscas semânticas e orientadas a relações, assim como questões, a um conjunto de notícias. Através do processamento sequencial de texto em português, entidades e relações são extraídas, e estas ligações são tornadas obvias e combinadas com um modelo bem definido, que as estrutura num grafo RDF. Este grafo é usado para busca e consultado por algoritmos que cumprem certos usos de casos de pesquisa. Contribuímos assim com um processo capaz de se generalizar para outros cenários, arquivos e até domínios. É acompanhado por uma metodologia de avaliação, e corres- pondente dataset, que avaliam a qualidade destas bases de conhecimento. Como noticias omitem conhecimento comum, apresentamos também varias formas de incorporar conhe- cimento externo em grafos entidade-relação ligados a outras bases de conhecimento.

Palavras-chave

Temporal Graph Structuring Web Archives Portuguese Language Processing

URI

http://hdl.handle.net/10362/190421

Coleções

FCT: DI - Dissertações de Mestrado

Ver registo completo