Utilize este identificador para referenciar este registo: http://hdl.handle.net/10362/184633
Título: O comentário: da linguística do texto ao text mining
Autor: Magalhães, Miguel Gonçalves de
Orientador: Gonçalves, Matilde
Palavras-chave: Linguistica do texto
Text mining
Interacionismo Sociodiscursivo
Parâmetros de Género
Marcadores de Género
Tipos Discursivos
Text Mining
Análise Multivariada
Sociodiscursive Interactionism
Genre Parameters
Genre Markers
Discursive Types
Text Mining
Multivariate Analysis
Data de Defesa: 12-Mai-2025
Resumo: A presente tese desenvolve-se no quadro teórico do Interacionismo Sociodiscursivo (ISD) (Bronckart, 1997/2008) e propõe-se investigar o género textual Comentário, partindo das noções de parâmetros de género, mecanismos de realização textual e marcadores de género (Miranda, 2010), tal como foram definidos por Coutinho & Miranda (2009), como instrumentos de análise dos textos e de caracterização do comentário. O objetivo principal da investigação é compreender se a prática textual do comentário constitui um género relativamente estabilizado, com características próprias e fronteiras delimitadas em relação a outros géneros textuais, ou se se trata de um conjunto de textos sem fronteiras nítidas. Como objetivo secundário, a investigação visa identificar e sistematizar as marcas que caracterizam o género comentário Para tal, recorre-se a uma metodologia que alia a análise textual qualitativa ao uso de ferramentas de text e data mining, o que permite validar empiricamente os resultados obtidos. A investigação desenvolve-se em três fases, cada uma dedicada a um corpus textual específico: 1. Análise das unidades linguísticas com o objetivo de caracterizar o comentário e avaliar se uma abordagem quantitativa é suficiente para identificar padrões que definam o género. 2. Análise dos tipos discursivos presentes nos corpora, introduzindo esta noção como uma das varáveis no contexto do text e data mining. 3. Desenvolvimento de um modelo de classificação, utilizando variáveis de nível meso (tipos discursivos) e macro (tema e atividade), sendo a variável-alvo o género textual. A metodologia adotada privilegia a abordagem multivariada, permitindo a articulação entre os níveis micro, meso e macro de análise. A constituição e anotação de diversos corpora - incluindo textos do corpus G&T Comenta, Cetem Público e comentários jurídicos Comjur - forneceu a base empírica para a aplicação das técnicas de data mining. O modelo de classificação desenvolvido avalia a relevância de diferentes variáveis, demonstrando que a Atividade apresenta o maior peso na identificação do género textual, seguida pelos Tipos Discursivos (TD) e pelo Tema. Este resultado reforça a importância das práticas sociais e comunicativas no processo de análise textual, conforme sublinhado por teóricos como Bronckart (1997, na esteira de Volochinov (1929). A análise das métricas do modelo, como a accuracy (91,5%), e as métricas de precision (94,4%) e recall (88,9%), evidencia a robustez e o equilíbrio do modelo desenvolvido. O uso de marcadores de género como ferramenta de anotação e análise permitiu identificar padrões que sustentam a hipótese de que o comentário pode ser considerado um género textual relativamente estabilizado, apesar das múltiplas formas que pode assumir. Além disso, a análise das previsões e dos custos associados às classificações demonstrou que o modelo é eficaz na distinção entre “Notícia” e “Comentário”, ainda que sejam necessários futuros ajustamentos para lidar com a incerteza em algumas instâncias, particularmente relacionadas com a variável Tema.Esta investigação contribui para o avanço dos estudos sobre géneros textuais ao integrar metodologias tradicionais de análise textual com técnicas inovadoras de text mining, oferecendo uma abordagem experimental que visa tanto caracterizar o género comentário quanto explorar o potencial das ferramentas de data mining no campo da linguística do texto. Assim, este trabalho preenche uma dupla lacuna: a compreensão dos padrões associados ao género textual do comentário e a criação de uma interface entre a análise textual e as metodologias de data mining, propondo uma via metodológica interdisciplinar que pode ser aplicada em estudos futuros.
This thesis is developed within the theoretical framework of Sociodiscursive Interactionism (ISD) (Bronckart, 1997/2008) and aims to investigate the textual genre of Comment, drawing on the concepts of genre parameters, mechanisms of textual realization, and genre markers (Miranda, 2010), as defined by Coutinho & Miranda (2009), as tools for analyzing texts and characterizing the comment. The primary objective of the research is to understand whether the textual practice of the comment constitutes a relatively stabilized genre, with distinct characteristics and boundaries in relation to other textual genres, or whether it consists of a set of texts without clear boundaries. The secondary objective is to identify and systematize the features that characterize the comment genre. To achieve this, the study combines qualitative textual analysis with the use of text and data mining tools, allowing for the empirical validation of the results obtained. The research is conducted in three phases, each dedicated to a specific textual corpus: 1. Analysis of linguistic units to characterize the comment and evaluate whether a quantitative approach is sufficient to identify patterns that define the genre. 2. Analysis of the discursive types present in the corpora, introducing this concept as one of the variables in the context of text and data mining. 3. Development of a classification model, using meso-level (discursive types) and macrolevel (theme and activity) variables, with the target variable being the textual genre. The adopted methodology favors a multivariate approach, enabling the articulation of micro, meso, and macro levels of analysis. The constitution and annotation of various corpora — including texts from the G&T Comenta corpus, Cetem Público, and legal comments from Comjur — provided the empirical basis for applying data mining techniques. The developed classification model evaluates the relevance of different variables, demonstrating that Activity has the greatest weight in identifying the textual genre, followed by Discursive Types (DT) and Theme. This result reinforces the importance of social and communicative practices in the textual analysis process, as emphasized by theorists such as Bronckart (1997), following Volochinov (1929). The analysis of model metrics, such as accuracy (91.5%), and precision (94.4%) and recall (88.9%) metrics, highlights the robustness and balance of the developed model. The use of genre markers as a tool for annotation and analysis allowed for the identification of patterns that support the hypothesis that the comment can be considered a relatively stabilized textual genre, despite the multiple forms it can take. Furthermore, the analysis of predictions and associated classification costs demonstrated that the model is effective in distinguishing between "News" and "Comment," although further adjustments are necessary to address uncertainties in some instances, particularly related to the Theme variable. This research contributes to advancing the study of textual genres by integrating traditional textual analysis methodologies with innovative text mining techniques, offering an experimental approach that aims to both characterize the comment genre and explore the potential of data mining tools in the field of text linguistics. Thus, this work fills a dual gap: understanding the patterns associated with the textual genre of comment and creating an interface between textual analysis and data mining methodologies, proposing an interdisciplinary methodological pathway that can be applied in future studies.
URI: http://hdl.handle.net/10362/184633
Designação: Doutoramento em Linguística, especialidade em Linguística do Texto e do Discurso
Aparece nas colecções:FCSH: DL - Teses de Doutoramento

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
Doutoramento_Miguel_Gonçalves_Magalhães.pdf23,21 MBAdobe PDFVer/Abrir


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpace
Formato BibTex MendeleyEndnote 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.