Classificação de Documentos

Madureira, Filipa Alexandra Peleja

http://hdl.handle.net/10362/5776

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
Madureira_2009.pdf		2.32 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Madureira, Filipa Alexandra Peleja

Orientador(es)

Lopes, José Gabriel Pereira

Resumo(s)

No presente trabalho de investigação pretende-se automatizar o processo de classificação temática de documentos. Foram utilizadas três técnicas de selecção de termos, com três classificadores automáticos, e sete representações de documentos: palavra, multi-palavra, pentagrama, e cadeias dos primeiros 4, 5 e 6 caracteres individualmente, e globalmente. Entre as técnicas de selecção de termos encontra-se a medida do Terceiro Momento em relação à média. Esta medida foi recentemente proposta, por o Professor Joaquim Ferreira da Silva, e considerou-se importante realizar um estudo comparativo da sua performance em relação a outras medidas, já muito conhecidas e comprovada a sua aplicabilidade. As medidas escolhidas foram: Chi-Square e Information Gain. Existem medidas de selecção de termos que demonstram melhores resultados conforme o classificador utilizado, e por isso, as medidas foram experimentadas com diferentes classificadores: K-Nearest Neighbour, RIPPER e Support Vector Machines. São classificadores que na área de classificação demonstraram bons resultados, e assim, avaliou-se o seu desempenho com as diferentes medidas de selecção de termos. Nos resultados experimentais, em que foi utilizado o corpus da Reuters-21578, pode-se observar que o desempenho obtido com a técnica do terceiro momento é superior, ou equivalente, à obtida com as medidas de selecção de termos Chi-Square e Information Gain. Utilizando diferentes representações de documentos é possível obter um desempenho, com os três classificadores, equivalente ao obtido com a representação de documentos por palavra.

Descrição

Dissertação apresentada na Faculdade de Ciências e Tecnologia da Universidade No Lisboa para obtenção de grau de Mestre em Engenharia de Informática

URI

http://hdl.handle.net/10362/5776

Editora

Faculdade de Ciências e Tecnologia

Coleções

FCT: DI - Dissertações de Mestrado

Ver registo completo