Logo do repositório
 
Publicação

Enhancements onMultiword Extraction and Inclusion of Relevant SingleWords on LocalMaxs

datacite.subject.fosEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informáticapt_PT
dc.contributor.advisorSilva, Joaquim
dc.contributor.authorAlves, Tomás Maria Fernandes Farrajota de Morais
dc.date.accessioned2023-01-13T15:30:50Z
dc.date.available2023-01-13T15:30:50Z
dc.date.issued2022-02
dc.description.abstractThe digital information available to us reproduces itself in an overwhelmingly rapid way. Following advances in Text Mining, this large amount of information can now be processed and understood more swiftly by people. For this purpose, the concept of extracting Relevant Expressions and Keywords from a text becomes an important task. This process consists in retrieving the most important ideas from a document or set of documents, which can be done using statistical and/or linguistic tools, being the first the focus of this work. In order to extract these terminologies using statistical methodologies, one must take advantage of patterns that indicate importance in a word/expression. Relevant Expressions tend to present some singularities, as the words therein, seem to have, for example, high values of cohesion between them, conveying importance. The LocalMaxs is an algorithm that uses this cohesion metric between words to capture meaningful Multi Word Expressions from a text, with an average Precision close to 70%, but it is not able to extract 1-grams (single words). This dissertation aims at improving the performance of this algorithm, as well as including the newly added Relevant Single Words, which is an important factor specially in languages where relevant compound nouns come in long words (i.e. German). These improvements must be made keeping language independence.pt_PT
dc.description.abstractA informação disponível em forma digital aumenta a uma velocidade estonteante, tornando difícil o seu processamento e acompanhamento. Utilizando técnicas de Text Mining, esta grande quantidade de informação pode ser lida e compreendida de forma mais expedita por Humanos. A extração de Expressões e Termos Relevantes é um processo crucial para a decomposição de um documento ou grupo de documentos, e consiste na recolha dos conceitos mais importantes dos mesmos. Este processo é realizado através da utilização de ferramentas estatísticas (focadas neste trabalho) e/ou linguísticas. Para extrair estas terminologias utilizando métodos estatísticos, têm que ser encontrados padrões que indiquem e apontem para a importância e relevância de uma palavra/ expressão. Expressões Relevantes apresentam várias características que as definem, sendo uma das quais a verificação de altos valores de coesão estatística entre as palavras que as compõem. O algoritmo LocalMaxs utiliza estes valores de coesão entre palavras para extraír Expressões Relevantes de um texto, com uma precisão de aproximadamente 70%. Não consegue, no entanto, extrair 1-gramas (palavras isoladas) Relevantes. Esta dissertação tem como objetivo melhorar a performance na extração de Expressões Relevantes do algoritmo LocalMaxs, bem como criar mecanismos que o permitam extrair 1-gramas relevantes. Estes melhoramentos devem manter o algoritmo independente da língua do texto em análise.pt_PT
dc.identifier.urihttp://hdl.handle.net/10362/147464
dc.language.isoengpt_PT
dc.subjectLocalMaxspt_PT
dc.subjectRelevant Expressionspt_PT
dc.subjectMulti Word Expressionpt_PT
dc.subjectRelevant Single Wordspt_PT
dc.titleEnhancements onMultiword Extraction and Inclusion of Relevant SingleWords on LocalMaxspt_PT
dc.typemaster thesis
dspace.entity.typePublication
rcaap.rightsopenAccesspt_PT
rcaap.typemasterThesispt_PT
thesis.degree.nameMASTER IN COMPUTER SCIENCEpt_PT

Ficheiros

Principais
A mostrar 1 - 1 de 1
A carregar...
Miniatura
Nome:
Alves_2022.pdf
Tamanho:
3.69 MB
Formato:
Adobe Portable Document Format
Licença
A mostrar 1 - 1 de 1
Miniatura indisponível
Nome:
license.txt
Tamanho:
348 B
Formato:
Item-specific license agreed upon to submission
Descrição: