Logo do repositório
 
A carregar...
Miniatura
Publicação

Classificação de Documentos

Utilize este identificador para referenciar este registo.
Nome:Descrição:Tamanho:Formato: 
Madureira_2009.pdf2.32 MBAdobe PDF Ver/Abrir

Resumo(s)

No presente trabalho de investigação pretende-se automatizar o processo de classificação temÔtica de documentos. Foram utilizadas três técnicas de selecção de termos, com três classificadores automÔticos, e sete representações de documentos: palavra, multi-palavra, pentagrama, e cadeias dos primeiros 4, 5 e 6 caracteres individualmente, e globalmente. Entre as técnicas de selecção de termos encontra-se a medida do Terceiro Momento em relação à média. Esta medida foi recentemente proposta, por o Professor Joaquim Ferreira da Silva, e considerou-se importante realizar um estudo comparativo da sua performance em relação a outras medidas, jÔ muito conhecidas e comprovada a sua aplicabilidade. As medidas escolhidas foram: Chi-Square e Information Gain. Existem medidas de selecção de termos que demonstram melhores resultados conforme o classificador utilizado, e por isso, as medidas foram experimentadas com diferentes classificadores: K-Nearest Neighbour, RIPPER e Support Vector Machines. São classificadores que na Ôrea de classificação demonstraram bons resultados, e assim, avaliou-se o seu desempenho com as diferentes medidas de selecção de termos. Nos resultados experimentais, em que foi utilizado o corpus da Reuters-21578, pode-se observar que o desempenho obtido com a técnica do terceiro momento é superior, ou equivalente, à obtida com as medidas de selecção de termos Chi-Square e Information Gain. Utilizando diferentes representações de documentos é possível obter um desempenho, com os três classificadores, equivalente ao obtido com a representação de documentos por palavra.

Descrição

Dissertação apresentada na Faculdade de Ciências e Tecnologia da Universidade No Lisboa para obtenção de grau de Mestre em Engenharia de InformÔtica

Palavras-chave

Contexto Educativo

Citação

Projetos de investigação

Unidades organizacionais

FascĆ­culo

Editora

Faculdade de CiĆŖncias e Tecnologia

LicenƧa CC