| Nome: | Descrição: | Tamanho: | Formato: | |
|---|---|---|---|---|
| 1.54 MB | Adobe PDF |
Autores
Orientador(es)
Resumo(s)
As social media usage becomes more integrated into our daily lives, the impact of
online abuse also becomes more prevalent. Research in the area of Offensive Language
Classification are numerous and often occur in parrallel. Offensive Language Identification
Dataset (OLID) schema was introduced with the aim of consolidating related
tasks by categorising offense into a three-level hierarchy - detection of offensive posts
(Level A), distinguishing between targeted and untargeted offenses (Level B) and then
identifying the target of the offense (Level C).
This thesis presents our contribution to the Offensive Language Classification Task
(English SubTask A) of OffensEval 2020, and a follow-up study of Offense Type Classification
(subTask B) and Offense Target Identification (subTask C) of OffensEval 2019.
These tasks follow the OLID schema where each level corresponds to an individual
subtask.
For subtask A, the dataset is examined in detail and the most uncertain partitions
are removed by an under-sampling technique of the training set. We improved
model performance by increasing data quality, taking advantage of further offensive
language classification datasets. We fine-tuned separate BERT models from individual
datasets and experimented with different ensemble approaches including SVMs,
Gradient boosting, AdaBoosting and Logistic Regression to achieve a final ensemble
classification model that enhanced macro-F1 score. Our best model, an average ensemble
of four different Bert models, achieved 11th place out of 82 participants with
a macro F1 score of 0.91344 in the English SubTask A.
The dataset for subtask B and C are highly unbalanced, and modification of the classification
thresholds improved classifier performance of the minority classes, which
in turn improved the overall performance. Again using the BERT architecture, the
models achieved macro-F1 scores of 0.71367 for subTask B and 0.643352 for subTask
C, equivalent to the 5th and 2nd places in the respective tasks.
We showed that BERT is an effective architecture for offensive language classification
and propose further performance gains are possible by improving data quality.
Conforme o uso da Social Media se torna mais integrado no nosso dia-a-dia, o impacto do abuso online torna-se também mais prevalente. Pesquisas na área de Classificação de Linguagem Ofensiva são numerosas e ocorrem frequentemente em paralelo. O esquema Offensive Language Identification Dataset (OLID) foi introduzido com o objectivo de consolidar tarefas relacionadas com a categorização de ofensas numa hierarquia de três níveis - detecção de posts ofensivos (nível A), distinção entre ofensas directas e indirectas (nível B) e posteriormente a identificação do visado pela ofensa (nível C). Esta tese apresenta a nossa contribuição à Offensive Language Classification Task (English sub-tarefa A) da OffensEval 2020, e um subsequente estudo de Offense Type Classification (sub-tarefa B) e Offense Target Identification (sub-tarefa C) da OffensEval 2019. Estas tarefas seguem o esquema OLID onde cada nível corresponde a uma tarefa individual. Para a sub-tarefa A, o conjunto de informação é examinado em detalhe e as partições mais incertas são removidas por uma técnica de sub-amostragem do conjunto de treinamento. Melhoramos também o desempenho ao melhorar a qualidade da informação, aproveitando de conjuntos mais recentes de classificação de linguagem ofensiva. Ajustamos modelos BERT disjuntos através de conjuntos de informação individuais e experimentamos com diferentes junções incluindo SVMs, Gradient boosting, AdaBoosting e Regressão Logística para alcançar /* um modelo classificação junção final */ que melhorou a pontuação macro-F1. O nosso melhor modelo, uma junção média de quatro modelos Bert diferentes, alcançou o 11º de 82 participantes com uma pontuação macro de 0,91344 na sub-tarefa A de Inglês. O conjunto de informação para a sub-tarefa B e C são altamente desequilibrados, e modificar os limiares de classificação melhorou o desempenho de classes minoria, que por sua vez melhoraram o desempenho no geral. Novamente usando a arquitectura BERT, os modelos alcançaram pontuações macro-F1 de 0,71367 para a sub-tarefa B e 0.643352 para a sub-tarefa C, equivalente ao 5º e 2º lugares nas tarefas respectivas. Mostrámos que a arquitectura BERT é eficaz para classificação de linguagem ofensiva e propomos que é possível ganhar desempenho através da melhoria da qualidade da informação.
Conforme o uso da Social Media se torna mais integrado no nosso dia-a-dia, o impacto do abuso online torna-se também mais prevalente. Pesquisas na área de Classificação de Linguagem Ofensiva são numerosas e ocorrem frequentemente em paralelo. O esquema Offensive Language Identification Dataset (OLID) foi introduzido com o objectivo de consolidar tarefas relacionadas com a categorização de ofensas numa hierarquia de três níveis - detecção de posts ofensivos (nível A), distinção entre ofensas directas e indirectas (nível B) e posteriormente a identificação do visado pela ofensa (nível C). Esta tese apresenta a nossa contribuição à Offensive Language Classification Task (English sub-tarefa A) da OffensEval 2020, e um subsequente estudo de Offense Type Classification (sub-tarefa B) e Offense Target Identification (sub-tarefa C) da OffensEval 2019. Estas tarefas seguem o esquema OLID onde cada nível corresponde a uma tarefa individual. Para a sub-tarefa A, o conjunto de informação é examinado em detalhe e as partições mais incertas são removidas por uma técnica de sub-amostragem do conjunto de treinamento. Melhoramos também o desempenho ao melhorar a qualidade da informação, aproveitando de conjuntos mais recentes de classificação de linguagem ofensiva. Ajustamos modelos BERT disjuntos através de conjuntos de informação individuais e experimentamos com diferentes junções incluindo SVMs, Gradient boosting, AdaBoosting e Regressão Logística para alcançar /* um modelo classificação junção final */ que melhorou a pontuação macro-F1. O nosso melhor modelo, uma junção média de quatro modelos Bert diferentes, alcançou o 11º de 82 participantes com uma pontuação macro de 0,91344 na sub-tarefa A de Inglês. O conjunto de informação para a sub-tarefa B e C são altamente desequilibrados, e modificar os limiares de classificação melhorou o desempenho de classes minoria, que por sua vez melhoraram o desempenho no geral. Novamente usando a arquitectura BERT, os modelos alcançaram pontuações macro-F1 de 0,71367 para a sub-tarefa B e 0.643352 para a sub-tarefa C, equivalente ao 5º e 2º lugares nas tarefas respectivas. Mostrámos que a arquitectura BERT é eficaz para classificação de linguagem ofensiva e propomos que é possível ganhar desempenho através da melhoria da qualidade da informação.
Descrição
Dissertation presented as the partial requirement for obtaining a Master's degree in Data Science and Advanced Analytics
Palavras-chave
Offensive Language Hate Speech Toxic Language Abusive Language Social Media Twitter BERT Transformers Text Classification NLP Natural Language Processing Deep Learning Ensembles Discurso de Odio Linguagem Ofensiva Linguagem Abusiva Linguagem Tóxica
