Unsupervised Document Clustering using Implicit Features

Pio,  João Pedro Bordadágua

http://hdl.handle.net/10362/202787

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
Pio_2025.pdf		1.93 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Pio, João Pedro Bordadágua

Orientador(es)

Silva, Joaquim

Resumo(s)

Unsupervised document classification techniques tend to produce lower quality results compared with their supervised counterparts. This happens because labeled data guides the training of supervised document classification tools in the search for quality features. However, unsupervised document classification tools are able to better escalate and keep up with the increasing quantity of unlabeled textual content available on the internet. As such, developing a solution that improves the quality of unsupervised document clustering results, leading to better pseudo-labels and, as a result, better unsupervised document classifiers, would be of great value. To achieve this, we propose the use of implicit features, a set of features that is commonly left untouched that has the potential of helping clustering algorithms produce better results. To understand how the use of implicit features affects the quality of the clustering results across different document clustering scenarios, we developed a clustering pipeline that uses various commonly used term weighting techniques and different clustering algorithms, leading us to a broader research scope and possibly better conclusions. Also, to make our research more relevant, we compared our unsupervised document clustering using the implicit features approach to the results produced by state-of-the-art neural network models in unsupervised document clustering scenarios. With this research we intend to improve the quality of the results produced by unsu- pervised document clustering tools, leading to unsupervised document classification tools capable of producing results whose quality is possibly equal to the results of supervised document classification tools, so that our tools are able to keep up with demand.

Técnicas de classificação não-supervisionada de documentos tendem a produzir resultados com qualidade inferior quando comparados com resultados produzidos por técnicas de classificação supervisionada de documentos. Isto acontece porque os dados rotulados servem de guia ao treino de ferramentas de classificação supervisionada de documentos na procura de atributos de qualidade. No entanto, as ferramentas de classificação não- supervisionada de documentos são capazes de escalar e acompanhar melhor o crescimento da quantidade de texto não rotulado disponível na internet. Assim, o desenvolvimento de uma solução que melhora a qualidade dos resultados produzidos por técnicas de agrupamento não-supervisionado de documentos, levando à criação de melhores pseudo-rótulos, e, como resultado, a melhores classificadores de documentos não-supervisionados, seria de enorme valor. Para atingir este feito, propomos o uso de atributos implícitos, um conjunto de atributos normalmente não utilizado que tem o potencial de ajudar algoritmos de agrupamento a produzir melhores resultados. Para compreendermos como é que o uso de atributos implícitos afeta a qualidade dos resultados de agrupamento de vários cenários de agrupamento de documentos, desenvol- vemos uma solução capaz de utilizar várias técnicas de pesagem de termos comuns no campo de classificação textual e ainda diferentes algoritmos de agrupamento, levando a um estudo mais amplo dos efeitos dos atributos implícitos, e possivelmente a melhores conclusões. Ainda, numa tentativa de tornar o nosso trabalho mais relevante, fizemos a comparação entre abordagem de agrupamento de documentos não-supervisionada com uso de atributos implícitos e modelos de redes neuronais de estado de arte em cenários de agrupamento de documentos não-supervisionado. Com a nossa investigação procuramos melhorar os resultados produzidos por ferramentas de agrupamento não-supervisionado de documentos, possivelmente igualando a qualidade dos resultados produzidos por fer- ramentas de classificação supervisionada de documentos, para que as nossas ferramentas sejam capazes de conseguir acompanhar com a procura pelas mesmas.

Palavras-chave

Unsupervised Learning Document Clustering Clustering Algorithms Implicit Features Term Weighting

URI

http://hdl.handle.net/10362/202787

Coleções

FCT: DI - Dissertações de Mestrado

Licença CC

cclicense-by

Ver registo completo