Utilize este identificador para referenciar este registo:
http://hdl.handle.net/10362/184633| Título: | O comentário: da linguística do texto ao text mining |
| Autor: | Magalhães, Miguel Gonçalves de |
| Orientador: | Gonçalves, Matilde |
| Palavras-chave: | Linguistica do texto Text mining Interacionismo Sociodiscursivo Parâmetros de Género Marcadores de Género Tipos Discursivos Text Mining Análise Multivariada Sociodiscursive Interactionism Genre Parameters Genre Markers Discursive Types Text Mining Multivariate Analysis |
| Data de Defesa: | 12-Mai-2025 |
| Resumo: | A presente tese desenvolve-se no quadro teórico do Interacionismo Sociodiscursivo
(ISD) (Bronckart, 1997/2008) e propõe-se investigar o género textual Comentário, partindo das
noções de parâmetros de género, mecanismos de realização textual e marcadores de género
(Miranda, 2010), tal como foram definidos por Coutinho & Miranda (2009), como instrumentos
de análise dos textos e de caracterização do comentário. O objetivo principal da investigação é
compreender se a prática textual do comentário constitui um género relativamente
estabilizado, com características próprias e fronteiras delimitadas em relação a outros géneros
textuais, ou se se trata de um conjunto de textos sem fronteiras nítidas. Como objetivo
secundário, a investigação visa identificar e sistematizar as marcas que caracterizam o género
comentário Para tal, recorre-se a uma metodologia que alia a análise textual qualitativa ao uso
de ferramentas de text e data mining, o que permite validar empiricamente os resultados
obtidos.
A investigação desenvolve-se em três fases, cada uma dedicada a um corpus textual
específico:
1. Análise das unidades linguísticas com o objetivo de caracterizar o comentário e avaliar se uma
abordagem quantitativa é suficiente para identificar padrões que definam o género.
2. Análise dos tipos discursivos presentes nos corpora, introduzindo esta noção como uma das
varáveis no contexto do text e data mining.
3. Desenvolvimento de um modelo de classificação, utilizando variáveis de nível meso (tipos
discursivos) e macro (tema e atividade), sendo a variável-alvo o género textual.
A metodologia adotada privilegia a abordagem multivariada, permitindo a articulação
entre os níveis micro, meso e macro de análise. A constituição e anotação de diversos corpora -
incluindo textos do corpus G&T Comenta, Cetem Público e comentários jurídicos Comjur -
forneceu a base empírica para a aplicação das técnicas de data mining. O modelo de classificação
desenvolvido avalia a relevância de diferentes variáveis, demonstrando que a Atividade
apresenta o maior peso na identificação do género textual, seguida pelos Tipos Discursivos (TD)
e pelo Tema. Este resultado reforça a importância das práticas sociais e comunicativas no
processo de análise textual, conforme sublinhado por teóricos como Bronckart (1997, na esteira
de Volochinov (1929).
A análise das métricas do modelo, como a accuracy (91,5%), e as métricas de precision
(94,4%) e recall (88,9%), evidencia a robustez e o equilíbrio do modelo desenvolvido. O uso de
marcadores de género como ferramenta de anotação e análise permitiu identificar padrões que
sustentam a hipótese de que o comentário pode ser considerado um género textual
relativamente estabilizado, apesar das múltiplas formas que pode assumir. Além disso, a análise
das previsões e dos custos associados às classificações demonstrou que o modelo é eficaz na
distinção entre “Notícia” e “Comentário”, ainda que sejam necessários futuros ajustamentos
para lidar com a incerteza em algumas instâncias, particularmente relacionadas com a variável
Tema.Esta investigação contribui para o avanço dos estudos sobre géneros textuais ao integrar
metodologias tradicionais de análise textual com técnicas inovadoras de text mining,
oferecendo uma abordagem experimental que visa tanto caracterizar o género comentário
quanto explorar o potencial das ferramentas de data mining no campo da linguística do texto.
Assim, este trabalho preenche uma dupla lacuna: a compreensão dos padrões associados ao
género textual do comentário e a criação de uma interface entre a análise textual e as
metodologias de data mining, propondo uma via metodológica interdisciplinar que pode ser
aplicada em estudos futuros. This thesis is developed within the theoretical framework of Sociodiscursive Interactionism (ISD) (Bronckart, 1997/2008) and aims to investigate the textual genre of Comment, drawing on the concepts of genre parameters, mechanisms of textual realization, and genre markers (Miranda, 2010), as defined by Coutinho & Miranda (2009), as tools for analyzing texts and characterizing the comment. The primary objective of the research is to understand whether the textual practice of the comment constitutes a relatively stabilized genre, with distinct characteristics and boundaries in relation to other textual genres, or whether it consists of a set of texts without clear boundaries. The secondary objective is to identify and systematize the features that characterize the comment genre. To achieve this, the study combines qualitative textual analysis with the use of text and data mining tools, allowing for the empirical validation of the results obtained. The research is conducted in three phases, each dedicated to a specific textual corpus: 1. Analysis of linguistic units to characterize the comment and evaluate whether a quantitative approach is sufficient to identify patterns that define the genre. 2. Analysis of the discursive types present in the corpora, introducing this concept as one of the variables in the context of text and data mining. 3. Development of a classification model, using meso-level (discursive types) and macrolevel (theme and activity) variables, with the target variable being the textual genre. The adopted methodology favors a multivariate approach, enabling the articulation of micro, meso, and macro levels of analysis. The constitution and annotation of various corpora — including texts from the G&T Comenta corpus, Cetem Público, and legal comments from Comjur — provided the empirical basis for applying data mining techniques. The developed classification model evaluates the relevance of different variables, demonstrating that Activity has the greatest weight in identifying the textual genre, followed by Discursive Types (DT) and Theme. This result reinforces the importance of social and communicative practices in the textual analysis process, as emphasized by theorists such as Bronckart (1997), following Volochinov (1929). The analysis of model metrics, such as accuracy (91.5%), and precision (94.4%) and recall (88.9%) metrics, highlights the robustness and balance of the developed model. The use of genre markers as a tool for annotation and analysis allowed for the identification of patterns that support the hypothesis that the comment can be considered a relatively stabilized textual genre, despite the multiple forms it can take. Furthermore, the analysis of predictions and associated classification costs demonstrated that the model is effective in distinguishing between "News" and "Comment," although further adjustments are necessary to address uncertainties in some instances, particularly related to the Theme variable. This research contributes to advancing the study of textual genres by integrating traditional textual analysis methodologies with innovative text mining techniques, offering an experimental approach that aims to both characterize the comment genre and explore the potential of data mining tools in the field of text linguistics. Thus, this work fills a dual gap: understanding the patterns associated with the textual genre of comment and creating an interface between textual analysis and data mining methodologies, proposing an interdisciplinary methodological pathway that can be applied in future studies. |
| URI: | http://hdl.handle.net/10362/184633 |
| Designação: | Doutoramento em Linguística, especialidade em Linguística do Texto e do Discurso |
| Aparece nas colecções: | FCSH: DL - Teses de Doutoramento |
Ficheiros deste registo:
| Ficheiro | Descrição | Tamanho | Formato | |
|---|---|---|---|---|
| Doutoramento_Miguel_Gonçalves_Magalhães.pdf | 23,21 MB | Adobe PDF | Ver/Abrir |
Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.











