| Nome: | Descrição: | Tamanho: | Formato: | |
|---|---|---|---|---|
| 939.22 KB | Adobe PDF |
Autores
Orientador(es)
Resumo(s)
Aferiu-se que 90% dos dados que existem na Internet foram criados nos últimos dois anos.
Tendo em vista este crescimento de dados, o número de padrões/relações neles contida é
também muito grande. Com o objetivo de obter meta-dados que descrevam fenómenos
linguísticos, na linguagem natural, reúnem-se conjuntos de documentos (corpus linguístico),
a fim de obter robustez estatística. Num corpus existem vários n-gramas que podem,
ou não, estar fortemente ligados entre si. Os n-gramas mais informativos têm a propriedade
de refletir fortemente o conteúdo "core" dos documentos onde ocorrem. Formam
por isso, expressões relevantes (multi-word expression). Uma vez que as ERs são extraíveis
diretamente do corpus, é possível medir quão semanticamente próximas estão umas das
outras. Tomando como exemplo as ERs, "crise financeira" e "desemprego na Zona Euro",
é de esperar que exista uma proximidade semântica forte entre elas. Esta proximidade
pode ser calculada através de métricas de correlação estatística. Também, o conteúdo
"core" dum documento pode estar semanticamente ligado a um conjunto de ERs mesmo
que estas não estejam presentes no documento; por exemplo, num documento de texto
curto que trate de questões relativas ao ambiente e contenha a ER "global warming" mas
não contenha a ER "Ice melting", à qual está semanticamente próxima, como facilmente
se compreende. Seria útil que em ambiente de pesquisa, um motor de busca pudesse recuperar
este documento após a pesquisa sobre "Ice melting", mesmo que o documento não
contivesse explicitamente esta ER. De modo a conseguir a construção automática de tais
descritores de documentos, é necessário dispor da capacidade de cálculo da correlação
entre pares de ERs. Considerando que o número de pares cresce com o quadrado do número
de ERs dos corpora, este processamento requer um ambiente paralelo e distribuído
sendo, Hadoop e Spark abordagens a ter em conta. O desafio desta dissertação inclui a
implementação dum protótipo que consiga de forma automática, em tempo útil, construir
descritores de documentos a partir de corpora linguísticos. Este protótipo pode vir a ser
útil em diversas áreas, como é o caso de query expansion, entre outros.
Descrição
Palavras-chave
Big Data Expressões Relevantes (ERs) Extratores de ERs N-grama Correlação de Pearson Sistemas Paralelos e Distribuídos
