Attribute Selection for Unsupervised and Language Independent Classification of Documents

Fazenda, Gonçalo Abrantes

http://hdl.handle.net/10362/151096

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
Fazenda_2022.pdf		7.11 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Fazenda, Gonçalo Abrantes

Orientador(es)

Silva, Joaquim

Resumo(s)

Raw text documents are the most common way documents are written, that is, unstruc- tured text. So, they contain most of the information available. Thus, it is desirable that there are tools capable of extracting the core content of each document and, through it, identify the group to which it belongs, since in unstructured texts there is usually no fore- seen place for indicating the document class. Nowadays, English is not the only language documents appear in the available repositories. This suggests the construction of tools that, if possible, do not depend on the language in which the texts are written, which is a challenge. This dissertation focuses mainly on clustering documents according to their content, using no class labels, that is, unsupervised clustering. It aims to mine and to create features from text in order to achieve that purpose. It is also intended to classify new doc- uments, in a supervised approach, according to the classes identified in the unsupervised training phase. In order to solve this, the proposed solution finds the best features inside the docu- ments, and uses their discriminative power to provide clustering. In order to summarise the core content of each cluster found by this approach, key expressions are automatically extracted from their documents.

Documentos de texto bruto são a forma mais comum de escrita de documentos, ou seja, texto não estruturado. Assim, eles contêm a maioria das informações disponíveis. Deste modo, é desejável que existam ferramentas capazes de extrair o conteúdo mais importante de um documento e, por este meio, identificar o grupo ao qual o documento pertence, pois em textos não estruturados geralmente não há uma previsão de indicação da classe do mesmo. Atualmente, o Inglês não é a única linguagem em que os documentos aparecem nos repositórios disponíveis. Isto sugere a construção de ferramentas que, se possível, não dependam da linguagem em que os textos são escritos, sendo isto um desafio. Esta dissertação foca-se principalmente em agrupar os documentos de acordo com o seu conteúdo, sem usar rótulos de classes, ou seja, agrupamento não supervisionado. O objetivo será alcançado através da extração e criação de atributos a partir do texto. Pretende-se também classificar novos documentos, numa abordagem supervisionada, de acordo com as classes identificadas na fase de treino não supervisionado. De modo a tentar resolver este problema, é proposta uma solução que encontra os melhores atributos nos documentos, e usa o poder discriminativo das mesmas para fa- zer o agrupamento. De modo a sumarizar o conteúdo principal destes agrupamentos, expressões chave são automaticamente extraídas dos documentos.

Palavras-chave

Information Retrieval Systems Natural Language Processing Feature Selection and Extraction Text Mining Document Classification Document Clustering

URI

http://hdl.handle.net/10362/151096

Coleções

FCT: DI - Dissertações de Mestrado

Ver registo completo