End-to-End Pipeline For Analysing Media Coverage of Corruption in Portugal

Marques, Afonso Manuel Cunha

http://hdl.handle.net/10362/139557

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
Marques_2022.pdf		4.18 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Marques, Afonso Manuel Cunha

Orientador(es)

Rodrigues, Rui

Peralta, Susana

Resumo(s)

In this work, we propose a data pipeline for the collection and analysis of news articles on corruption and connected criminality from the Portuguese media outlets collaborating with our project. Our approach resides in utilizing media text to support analyses on perception of corruption, which until now have resorted to public questionnaires and expert scores [1]. Concretely, we make use of the Mediacloud API [2], through its Portugal - National geographical collection, and of webscraping techniques to construct a relational database with 18119 articles from a set of 14 Portuguese news sources over the period: 01/01/2015 - 31/12/2020. Two pre-trained named entity recognition taggers were compared in the scope of an internal manual annotation task, wherein we chose one model to automatically extract information from the articles collected, namely, information corresponding to Second HAREM’s selective scenario [3] - organizations, persons, locations, dates and values. Furthermore, we present three research avenues aimed at extracting insights from the database created and improving its usability: • gauging intensity and quality (founded vs unfounded claims) of corruption cases in local municipalities, as presented by the portuguese media, following the data collection of [4]; • enabling case studies by retrieving salient operations/cases from articles’ titles; • aggregating similar news articles, by experimenting with topic modelling techniques - LDA [5] and Top2Vec [6].

Neste trabalho propõe-se uma pipeline de dados para a coleta e análise de artigos jornalísticos acerca de corrupção e criminalidade conexa presentes nos jornais e revistas Portugueses que colaboraram com este projeto. A nossa metodologia prende-se pela utilização de texto dos media para realizar análises referentes a percepções de corrupção, sendo que até então se tem recorrido principalmente a questionários e índices de especialistas [1]. Em concreto, recorremos à API Mediacloud [2], através da sua coleção geográfica Portugal -National, e a técnicas de webscraping por forma a construir uma base de dados relacional com 18119 artigos, provenientes de 14 meios de comunicação e referentes ao período: 01/01/2015 - 31/12/2020. Comparámos dois modelos de Reconhecimento de EntidadesMencionadas pré-treinados numa tarefa interna de anotação manual, na qual se escolheu um destes para extrair informação automaticamente dos artigos recolhidos. Nomeadamente, informação correspondente às categorias do cenário selectivo do Segundo HAREM [3] - organizações, pessoas, localizações, datas e valores. Adicionalmente, apresentamos três propostas de investigação desenhadas para a recolha de conhecimento a partir da base de dados criada e simplificação do seu uso: • aferição da frequência e "seriedade"(fundadas vs. infundadas) das notícias de casos de corrupção ao nível local, tal como estas são apresentadas nos media Portugueses, replicando a coleta de dados de [4]; • criação de uma lista de Operações/Processos a partir de títulos da base de dados; • agregação de notícias similares, pela experimentação com modelos de tópicos - LDA [5] e Top2Vec [6].

Palavras-chave

Corruption Media Big Data Local Governance

URI

http://hdl.handle.net/10362/139557

Projetos de investigação

Local Governance: Taxation, Accountability, Performance

Projeto de investigaçãoVer mais

Coleções

FCT: DI - Dissertações de Mestrado

Ver registo completo