| Nome: | Descrição: | Tamanho: | Formato: | |
|---|---|---|---|---|
| 2.32 MB | Adobe PDF |
Orientador(es)
Resumo(s)
No presente trabalho de investigação pretende-se automatizar o processo de classificação temÔtica de documentos. Foram utilizadas três técnicas de selecção de termos, com três classificadores automÔticos, e sete representações de documentos: palavra, multi-palavra, pentagrama, e cadeias dos primeiros 4, 5 e 6 caracteres individualmente, e globalmente.
Entre as técnicas de selecção de termos encontra-se a medida do Terceiro Momento em relação à média. Esta medida foi recentemente proposta, por o Professor Joaquim Ferreira da Silva, e considerou-se importante realizar um estudo comparativo da sua performance em relação a outras
medidas, jĆ” muito conhecidas e comprovada a sua aplicabilidade. As medidas escolhidas foram:
Chi-Square e Information Gain.
Existem medidas de selecção de termos que demonstram melhores resultados conforme o
classificador utilizado, e por isso, as medidas foram experimentadas com diferentes
classificadores: K-Nearest Neighbour, RIPPER e Support Vector Machines. São classificadores que na Ôrea de classificação demonstraram bons resultados, e assim, avaliou-se o seu desempenho com as diferentes medidas de selecção de termos.
Nos resultados experimentais, em que foi utilizado o corpus da Reuters-21578, pode-se observar que o desempenho obtido com a técnica do terceiro momento é superior, ou equivalente, à obtida com as medidas de selecção de termos Chi-Square e Information Gain.
Utilizando diferentes representaƧƵes de documentos Ć© possĆvel obter um desempenho, com os trĆŖs classificadores, equivalente ao obtido com a representação de documentos por palavra.
Descrição
Dissertação apresentada na Faculdade de Ciências e Tecnologia da Universidade No
Lisboa para obtenção de grau de Mestre em Engenharia de InformÔtica
