Extracção de unigramas relevantes

Ventura, João Miguel Jones

http://hdl.handle.net/10362/1786

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
Ventura_2008.pdf		485.34 KB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Ventura, João Miguel Jones

Orientador(es)

Silva, Joaquim Francisco Ferreira da

Resumo(s)

A extracção automática de Unidades Lexicais Multipalavra (ULM) a partir de corpora é actualmente uma área de grande aplicabilidade. Porém, os avanços na aplicação das ULMs vieram realçar uma lacuna: os conjuntos obtidos pelos extractores de ULMs são incompletos porque não incluem as unidades de uma só palavra os Unigramas Relevantes (URs). Com efeito, a extracção de URs é uma área ainda pouco explorada onde as abordagens actuais apresentam algumas limitações. Umas são demasiado simplistas e permissivas; outras bastante punitivas em determinadas situações. Estas limitações motivaram a criação das métricas Score e SPQ, desenvolvidas no âmbito desta dissertação. Por outro lado, essas abordagens apenas permitem obter listas que medem a import ância relativa dos unigramas. Porém, nalgumas aplicações poderá ser necessária a classi cação booleana acerca da relevância de uma palavra, como por exemplo, obter as palavras-chave que verdadeiramente caracterizam um documento. A inexistência de qualquer abordagem capaz desta classi cação, com bons resultados, motivou a criação do Método das Ilhas. Esta dissertação propõe novas abordagens para os problemas acima mencionados e compara resultados com as abordagens existentes. Por m, apresenta também o Método das Sílabas que, de uma forma bastante simples e, julgo, inovadora, permite melhorar substancialmente os resultados em geral.

Descrição

Dissertação apresentada na Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa para obtenção do grau de Mestre em Engenharia Informática

URI

http://hdl.handle.net/10362/1786

Editora

FCT - UNL

Coleções

FCT: DI - Dissertações de Mestrado

Ver registo completo