| Nome: | Descrição: | Tamanho: | Formato: | |
|---|---|---|---|---|
| 485.34 KB | Adobe PDF |
Autores
Orientador(es)
Resumo(s)
A extracção automática de Unidades Lexicais Multipalavra (ULM) a partir de corpora
é actualmente uma área de grande aplicabilidade. Porém, os avanços na aplicação das ULMs vieram realçar uma lacuna: os conjuntos obtidos pelos extractores de ULMs são incompletos
porque não incluem as unidades de uma só palavra os Unigramas Relevantes
(URs).
Com efeito, a extracção de URs é uma área ainda pouco explorada onde as abordagens
actuais apresentam algumas limitações. Umas são demasiado simplistas e permissivas;
outras bastante punitivas em determinadas situações. Estas limitações motivaram a
criação das métricas Score e SPQ, desenvolvidas no âmbito desta dissertação.
Por outro lado, essas abordagens apenas permitem obter listas que medem a import
ância relativa dos unigramas. Porém, nalgumas aplicações poderá ser necessária a
classi cação booleana acerca da relevância de uma palavra, como por exemplo, obter as
palavras-chave que verdadeiramente caracterizam um documento. A inexistência de qualquer abordagem capaz desta classi cação, com bons resultados, motivou a criação do
Método das Ilhas.
Esta dissertação propõe novas abordagens para os problemas acima mencionados e
compara resultados com as abordagens existentes. Por m, apresenta também o Método
das Sílabas que, de uma forma bastante simples e, julgo, inovadora, permite melhorar
substancialmente os resultados em geral.
Descrição
Dissertação apresentada na Faculdade de Ciências e Tecnologia da Universidade Nova de
Lisboa para obtenção do grau de Mestre em Engenharia Informática
