Utilize este identificador para referenciar este registo:
http://hdl.handle.net/10362/96658Registo completo
| Campo DC | Valor | Idioma |
|---|---|---|
| dc.contributor.advisor | Silva, Joaquim | - |
| dc.contributor.advisor | Duarte, Vítor | - |
| dc.contributor.author | Simões, João Manuel Pinto | - |
| dc.date.accessioned | 2020-04-23T10:36:52Z | - |
| dc.date.available | 2020-04-23T10:36:52Z | - |
| dc.date.issued | 2019-05 | - |
| dc.date.submitted | 2019 | - |
| dc.identifier.uri | http://hdl.handle.net/10362/96658 | - |
| dc.description.abstract | Aferiu-se que 90% dos dados que existem na Internet foram criados nos últimos dois anos. Tendo em vista este crescimento de dados, o número de padrões/relações neles contida é também muito grande. Com o objetivo de obter meta-dados que descrevam fenómenos linguísticos, na linguagem natural, reúnem-se conjuntos de documentos (corpus linguístico), a fim de obter robustez estatística. Num corpus existem vários n-gramas que podem, ou não, estar fortemente ligados entre si. Os n-gramas mais informativos têm a propriedade de refletir fortemente o conteúdo "core" dos documentos onde ocorrem. Formam por isso, expressões relevantes (multi-word expression). Uma vez que as ERs são extraíveis diretamente do corpus, é possível medir quão semanticamente próximas estão umas das outras. Tomando como exemplo as ERs, "crise financeira" e "desemprego na Zona Euro", é de esperar que exista uma proximidade semântica forte entre elas. Esta proximidade pode ser calculada através de métricas de correlação estatística. Também, o conteúdo "core" dum documento pode estar semanticamente ligado a um conjunto de ERs mesmo que estas não estejam presentes no documento; por exemplo, num documento de texto curto que trate de questões relativas ao ambiente e contenha a ER "global warming" mas não contenha a ER "Ice melting", à qual está semanticamente próxima, como facilmente se compreende. Seria útil que em ambiente de pesquisa, um motor de busca pudesse recuperar este documento após a pesquisa sobre "Ice melting", mesmo que o documento não contivesse explicitamente esta ER. De modo a conseguir a construção automática de tais descritores de documentos, é necessário dispor da capacidade de cálculo da correlação entre pares de ERs. Considerando que o número de pares cresce com o quadrado do número de ERs dos corpora, este processamento requer um ambiente paralelo e distribuído sendo, Hadoop e Spark abordagens a ter em conta. O desafio desta dissertação inclui a implementação dum protótipo que consiga de forma automática, em tempo útil, construir descritores de documentos a partir de corpora linguísticos. Este protótipo pode vir a ser útil em diversas áreas, como é o caso de query expansion, entre outros. | pt_PT |
| dc.language.iso | por | pt_PT |
| dc.rights | openAccess | pt_PT |
| dc.subject | Big Data | pt_PT |
| dc.subject | Expressões Relevantes (ERs) | pt_PT |
| dc.subject | Extratores de ERs | pt_PT |
| dc.subject | N-grama | pt_PT |
| dc.subject | Correlação de Pearson | pt_PT |
| dc.subject | Sistemas Paralelos e Distribuídos | pt_PT |
| dc.title | Estudo de implementações eficientes em correlações estatísticas de expressões relevantes em documentos de linguagem natural | pt_PT |
| dc.type | masterThesis | pt_PT |
| thesis.degree.name | Mestre em Engenharia Informática | pt_PT |
| dc.subject.fos | Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática | pt_PT |
| Aparece nas colecções: | FCT: DI - Dissertações de Mestrado | |
Ficheiros deste registo:
| Ficheiro | Descrição | Tamanho | Formato | |
|---|---|---|---|---|
| Simoes_2019.pdf | 939,22 kB | Adobe PDF | Ver/Abrir |
Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.











