Utilize este identificador para referenciar este registo:
http://hdl.handle.net/10362/139557
Título: | End-to-End Pipeline For Analysing Media Coverage of Corruption in Portugal |
Autor: | Marques, Afonso Manuel Cunha |
Orientador: | Rodrigues, Rui Peralta, Susana |
Palavras-chave: | Corruption Media Big Data Local Governance |
Data de Defesa: | Fev-2022 |
Resumo: | In this work, we propose a data pipeline for the collection and analysis of news
articles on corruption and connected criminality from the Portuguese media outlets
collaborating with our project. Our approach resides in utilizing media text to support
analyses on perception of corruption, which until now have resorted to public
questionnaires and expert scores [1].
Concretely, we make use of the Mediacloud API [2], through its Portugal - National
geographical collection, and of webscraping techniques to construct a relational
database with 18119 articles from a set of 14 Portuguese news sources over the period:
01/01/2015 - 31/12/2020. Two pre-trained named entity recognition taggers were compared
in the scope of an internal manual annotation task, wherein we chose one model
to automatically extract information from the articles collected, namely, information
corresponding to Second HAREM’s selective scenario [3] - organizations, persons, locations,
dates and values.
Furthermore, we present three research avenues aimed at extracting insights from
the database created and improving its usability:
• gauging intensity and quality (founded vs unfounded claims) of corruption cases
in local municipalities, as presented by the portuguese media, following the data
collection of [4];
• enabling case studies by retrieving salient operations/cases from articles’ titles;
• aggregating similar news articles, by experimenting with topic modelling techniques
- LDA [5] and Top2Vec [6]. Neste trabalho propõe-se uma pipeline de dados para a coleta e análise de artigos jornalísticos acerca de corrupção e criminalidade conexa presentes nos jornais e revistas Portugueses que colaboraram com este projeto. A nossa metodologia prende-se pela utilização de texto dos media para realizar análises referentes a percepções de corrupção, sendo que até então se tem recorrido principalmente a questionários e índices de especialistas [1]. Em concreto, recorremos à API Mediacloud [2], através da sua coleção geográfica Portugal -National, e a técnicas de webscraping por forma a construir uma base de dados relacional com 18119 artigos, provenientes de 14 meios de comunicação e referentes ao período: 01/01/2015 - 31/12/2020. Comparámos dois modelos de Reconhecimento de EntidadesMencionadas pré-treinados numa tarefa interna de anotação manual, na qual se escolheu um destes para extrair informação automaticamente dos artigos recolhidos. Nomeadamente, informação correspondente às categorias do cenário selectivo do Segundo HAREM [3] - organizações, pessoas, localizações, datas e valores. Adicionalmente, apresentamos três propostas de investigação desenhadas para a recolha de conhecimento a partir da base de dados criada e simplificação do seu uso: • aferição da frequência e "seriedade"(fundadas vs. infundadas) das notícias de casos de corrupção ao nível local, tal como estas são apresentadas nos media Portugueses, replicando a coleta de dados de [4]; • criação de uma lista de Operações/Processos a partir de títulos da base de dados; • agregação de notícias similares, pela experimentação com modelos de tópicos - LDA [5] e Top2Vec [6]. |
URI: | http://hdl.handle.net/10362/139557 |
Designação: | MASTER IN ANALYSIS AND ENGINEERING OF BIG DATA |
Aparece nas colecções: | FCT: DI - Dissertações de Mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Marques_2022.pdf | 4,28 MB | Adobe PDF | Ver/Abrir |
Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.