| Nome: | Descrição: | Tamanho: | Formato: | |
|---|---|---|---|---|
| 7.11 MB | Adobe PDF |
Autores
Orientador(es)
Resumo(s)
Raw text documents are the most common way documents are written, that is, unstruc-
tured text. So, they contain most of the information available. Thus, it is desirable that
there are tools capable of extracting the core content of each document and, through it,
identify the group to which it belongs, since in unstructured texts there is usually no fore-
seen place for indicating the document class. Nowadays, English is not the only language
documents appear in the available repositories. This suggests the construction of tools
that, if possible, do not depend on the language in which the texts are written, which is a
challenge.
This dissertation focuses mainly on clustering documents according to their content,
using no class labels, that is, unsupervised clustering. It aims to mine and to create
features from text in order to achieve that purpose. It is also intended to classify new doc-
uments, in a supervised approach, according to the classes identified in the unsupervised
training phase.
In order to solve this, the proposed solution finds the best features inside the docu-
ments, and uses their discriminative power to provide clustering. In order to summarise
the core content of each cluster found by this approach, key expressions are automatically
extracted from their documents.
Documentos de texto bruto são a forma mais comum de escrita de documentos, ou seja, texto não estruturado. Assim, eles contêm a maioria das informações disponíveis. Deste modo, é desejável que existam ferramentas capazes de extrair o conteúdo mais importante de um documento e, por este meio, identificar o grupo ao qual o documento pertence, pois em textos não estruturados geralmente não há uma previsão de indicação da classe do mesmo. Atualmente, o Inglês não é a única linguagem em que os documentos aparecem nos repositórios disponíveis. Isto sugere a construção de ferramentas que, se possível, não dependam da linguagem em que os textos são escritos, sendo isto um desafio. Esta dissertação foca-se principalmente em agrupar os documentos de acordo com o seu conteúdo, sem usar rótulos de classes, ou seja, agrupamento não supervisionado. O objetivo será alcançado através da extração e criação de atributos a partir do texto. Pretende-se também classificar novos documentos, numa abordagem supervisionada, de acordo com as classes identificadas na fase de treino não supervisionado. De modo a tentar resolver este problema, é proposta uma solução que encontra os melhores atributos nos documentos, e usa o poder discriminativo das mesmas para fa- zer o agrupamento. De modo a sumarizar o conteúdo principal destes agrupamentos, expressões chave são automaticamente extraídas dos documentos.
Documentos de texto bruto são a forma mais comum de escrita de documentos, ou seja, texto não estruturado. Assim, eles contêm a maioria das informações disponíveis. Deste modo, é desejável que existam ferramentas capazes de extrair o conteúdo mais importante de um documento e, por este meio, identificar o grupo ao qual o documento pertence, pois em textos não estruturados geralmente não há uma previsão de indicação da classe do mesmo. Atualmente, o Inglês não é a única linguagem em que os documentos aparecem nos repositórios disponíveis. Isto sugere a construção de ferramentas que, se possível, não dependam da linguagem em que os textos são escritos, sendo isto um desafio. Esta dissertação foca-se principalmente em agrupar os documentos de acordo com o seu conteúdo, sem usar rótulos de classes, ou seja, agrupamento não supervisionado. O objetivo será alcançado através da extração e criação de atributos a partir do texto. Pretende-se também classificar novos documentos, numa abordagem supervisionada, de acordo com as classes identificadas na fase de treino não supervisionado. De modo a tentar resolver este problema, é proposta uma solução que encontra os melhores atributos nos documentos, e usa o poder discriminativo das mesmas para fa- zer o agrupamento. De modo a sumarizar o conteúdo principal destes agrupamentos, expressões chave são automaticamente extraídas dos documentos.
Descrição
Palavras-chave
Information Retrieval Systems Natural Language Processing Feature Selection and Extraction Text Mining Document Classification Document Clustering
