Autores
Orientador(es)
Resumo(s)
Unsupervised document classification techniques tend to produce lower quality results
compared with their supervised counterparts. This happens because labeled data guides
the training of supervised document classification tools in the search for quality features.
However, unsupervised document classification tools are able to better escalate and keep
up with the increasing quantity of unlabeled textual content available on the internet.
As such, developing a solution that improves the quality of unsupervised document
clustering results, leading to better pseudo-labels and, as a result, better unsupervised
document classifiers, would be of great value.
To achieve this, we propose the use of implicit features, a set of features that is
commonly left untouched that has the potential of helping clustering algorithms produce
better results.
To understand how the use of implicit features affects the quality of the clustering
results across different document clustering scenarios, we developed a clustering pipeline
that uses various commonly used term weighting techniques and different clustering
algorithms, leading us to a broader research scope and possibly better conclusions. Also,
to make our research more relevant, we compared our unsupervised document clustering
using the implicit features approach to the results produced by state-of-the-art neural
network models in unsupervised document clustering scenarios.
With this research we intend to improve the quality of the results produced by unsu-
pervised document clustering tools, leading to unsupervised document classification tools
capable of producing results whose quality is possibly equal to the results of supervised
document classification tools, so that our tools are able to keep up with demand.
Técnicas de classificação não-supervisionada de documentos tendem a produzir resultados com qualidade inferior quando comparados com resultados produzidos por técnicas de classificação supervisionada de documentos. Isto acontece porque os dados rotulados servem de guia ao treino de ferramentas de classificação supervisionada de documentos na procura de atributos de qualidade. No entanto, as ferramentas de classificação não- supervisionada de documentos são capazes de escalar e acompanhar melhor o crescimento da quantidade de texto não rotulado disponível na internet. Assim, o desenvolvimento de uma solução que melhora a qualidade dos resultados produzidos por técnicas de agrupamento não-supervisionado de documentos, levando à criação de melhores pseudo-rótulos, e, como resultado, a melhores classificadores de documentos não-supervisionados, seria de enorme valor. Para atingir este feito, propomos o uso de atributos implícitos, um conjunto de atributos normalmente não utilizado que tem o potencial de ajudar algoritmos de agrupamento a produzir melhores resultados. Para compreendermos como é que o uso de atributos implícitos afeta a qualidade dos resultados de agrupamento de vários cenários de agrupamento de documentos, desenvol- vemos uma solução capaz de utilizar várias técnicas de pesagem de termos comuns no campo de classificação textual e ainda diferentes algoritmos de agrupamento, levando a um estudo mais amplo dos efeitos dos atributos implícitos, e possivelmente a melhores conclusões. Ainda, numa tentativa de tornar o nosso trabalho mais relevante, fizemos a comparação entre abordagem de agrupamento de documentos não-supervisionada com uso de atributos implícitos e modelos de redes neuronais de estado de arte em cenários de agrupamento de documentos não-supervisionado. Com a nossa investigação procuramos melhorar os resultados produzidos por ferramentas de agrupamento não-supervisionado de documentos, possivelmente igualando a qualidade dos resultados produzidos por fer- ramentas de classificação supervisionada de documentos, para que as nossas ferramentas sejam capazes de conseguir acompanhar com a procura pelas mesmas.
Técnicas de classificação não-supervisionada de documentos tendem a produzir resultados com qualidade inferior quando comparados com resultados produzidos por técnicas de classificação supervisionada de documentos. Isto acontece porque os dados rotulados servem de guia ao treino de ferramentas de classificação supervisionada de documentos na procura de atributos de qualidade. No entanto, as ferramentas de classificação não- supervisionada de documentos são capazes de escalar e acompanhar melhor o crescimento da quantidade de texto não rotulado disponível na internet. Assim, o desenvolvimento de uma solução que melhora a qualidade dos resultados produzidos por técnicas de agrupamento não-supervisionado de documentos, levando à criação de melhores pseudo-rótulos, e, como resultado, a melhores classificadores de documentos não-supervisionados, seria de enorme valor. Para atingir este feito, propomos o uso de atributos implícitos, um conjunto de atributos normalmente não utilizado que tem o potencial de ajudar algoritmos de agrupamento a produzir melhores resultados. Para compreendermos como é que o uso de atributos implícitos afeta a qualidade dos resultados de agrupamento de vários cenários de agrupamento de documentos, desenvol- vemos uma solução capaz de utilizar várias técnicas de pesagem de termos comuns no campo de classificação textual e ainda diferentes algoritmos de agrupamento, levando a um estudo mais amplo dos efeitos dos atributos implícitos, e possivelmente a melhores conclusões. Ainda, numa tentativa de tornar o nosso trabalho mais relevante, fizemos a comparação entre abordagem de agrupamento de documentos não-supervisionada com uso de atributos implícitos e modelos de redes neuronais de estado de arte em cenários de agrupamento de documentos não-supervisionado. Com a nossa investigação procuramos melhorar os resultados produzidos por ferramentas de agrupamento não-supervisionado de documentos, possivelmente igualando a qualidade dos resultados produzidos por fer- ramentas de classificação supervisionada de documentos, para que as nossas ferramentas sejam capazes de conseguir acompanhar com a procura pelas mesmas.
Descrição
Palavras-chave
Unsupervised Learning Document Clustering Clustering Algorithms Implicit Features Term Weighting
