Silva, JoaquimAlves, Tomás Maria Fernandes Farrajota de Morais2023-01-132023-01-132022-02http://hdl.handle.net/10362/147464The digital information available to us reproduces itself in an overwhelmingly rapid way. Following advances in Text Mining, this large amount of information can now be processed and understood more swiftly by people. For this purpose, the concept of extracting Relevant Expressions and Keywords from a text becomes an important task. This process consists in retrieving the most important ideas from a document or set of documents, which can be done using statistical and/or linguistic tools, being the first the focus of this work. In order to extract these terminologies using statistical methodologies, one must take advantage of patterns that indicate importance in a word/expression. Relevant Expressions tend to present some singularities, as the words therein, seem to have, for example, high values of cohesion between them, conveying importance. The LocalMaxs is an algorithm that uses this cohesion metric between words to capture meaningful Multi Word Expressions from a text, with an average Precision close to 70%, but it is not able to extract 1-grams (single words). This dissertation aims at improving the performance of this algorithm, as well as including the newly added Relevant Single Words, which is an important factor specially in languages where relevant compound nouns come in long words (i.e. German). These improvements must be made keeping language independence.A informação disponível em forma digital aumenta a uma velocidade estonteante, tornando difícil o seu processamento e acompanhamento. Utilizando técnicas de Text Mining, esta grande quantidade de informação pode ser lida e compreendida de forma mais expedita por Humanos. A extração de Expressões e Termos Relevantes é um processo crucial para a decomposição de um documento ou grupo de documentos, e consiste na recolha dos conceitos mais importantes dos mesmos. Este processo é realizado através da utilização de ferramentas estatísticas (focadas neste trabalho) e/ou linguísticas. Para extrair estas terminologias utilizando métodos estatísticos, têm que ser encontrados padrões que indiquem e apontem para a importância e relevância de uma palavra/ expressão. Expressões Relevantes apresentam várias características que as definem, sendo uma das quais a verificação de altos valores de coesão estatística entre as palavras que as compõem. O algoritmo LocalMaxs utiliza estes valores de coesão entre palavras para extraír Expressões Relevantes de um texto, com uma precisão de aproximadamente 70%. Não consegue, no entanto, extrair 1-gramas (palavras isoladas) Relevantes. Esta dissertação tem como objetivo melhorar a performance na extração de Expressões Relevantes do algoritmo LocalMaxs, bem como criar mecanismos que o permitam extrair 1-gramas relevantes. Estes melhoramentos devem manter o algoritmo independente da língua do texto em análise.engLocalMaxsRelevant ExpressionsMulti Word ExpressionRelevant Single WordsEnhancements onMultiword Extraction and Inclusion of Relevant SingleWords on LocalMaxsmaster thesis