Utilize este identificador para referenciar este registo: http://hdl.handle.net/10362/139557
Título: End-to-End Pipeline For Analysing Media Coverage of Corruption in Portugal
Autor: Marques, Afonso Manuel Cunha
Orientador: Rodrigues, Rui
Peralta, Susana
Palavras-chave: Corruption
Media
Big Data
Local Governance
Data de Defesa: Fev-2022
Resumo: In this work, we propose a data pipeline for the collection and analysis of news articles on corruption and connected criminality from the Portuguese media outlets collaborating with our project. Our approach resides in utilizing media text to support analyses on perception of corruption, which until now have resorted to public questionnaires and expert scores [1]. Concretely, we make use of the Mediacloud API [2], through its Portugal - National geographical collection, and of webscraping techniques to construct a relational database with 18119 articles from a set of 14 Portuguese news sources over the period: 01/01/2015 - 31/12/2020. Two pre-trained named entity recognition taggers were compared in the scope of an internal manual annotation task, wherein we chose one model to automatically extract information from the articles collected, namely, information corresponding to Second HAREM’s selective scenario [3] - organizations, persons, locations, dates and values. Furthermore, we present three research avenues aimed at extracting insights from the database created and improving its usability: • gauging intensity and quality (founded vs unfounded claims) of corruption cases in local municipalities, as presented by the portuguese media, following the data collection of [4]; • enabling case studies by retrieving salient operations/cases from articles’ titles; • aggregating similar news articles, by experimenting with topic modelling techniques - LDA [5] and Top2Vec [6].
Neste trabalho propõe-se uma pipeline de dados para a coleta e análise de artigos jornalísticos acerca de corrupção e criminalidade conexa presentes nos jornais e revistas Portugueses que colaboraram com este projeto. A nossa metodologia prende-se pela utilização de texto dos media para realizar análises referentes a percepções de corrupção, sendo que até então se tem recorrido principalmente a questionários e índices de especialistas [1]. Em concreto, recorremos à API Mediacloud [2], através da sua coleção geográfica Portugal -National, e a técnicas de webscraping por forma a construir uma base de dados relacional com 18119 artigos, provenientes de 14 meios de comunicação e referentes ao período: 01/01/2015 - 31/12/2020. Comparámos dois modelos de Reconhecimento de EntidadesMencionadas pré-treinados numa tarefa interna de anotação manual, na qual se escolheu um destes para extrair informação automaticamente dos artigos recolhidos. Nomeadamente, informação correspondente às categorias do cenário selectivo do Segundo HAREM [3] - organizações, pessoas, localizações, datas e valores. Adicionalmente, apresentamos três propostas de investigação desenhadas para a recolha de conhecimento a partir da base de dados criada e simplificação do seu uso: • aferição da frequência e "seriedade"(fundadas vs. infundadas) das notícias de casos de corrupção ao nível local, tal como estas são apresentadas nos media Portugueses, replicando a coleta de dados de [4]; • criação de uma lista de Operações/Processos a partir de títulos da base de dados; • agregação de notícias similares, pela experimentação com modelos de tópicos - LDA [5] e Top2Vec [6].
URI: http://hdl.handle.net/10362/139557
Designação: MASTER IN ANALYSIS AND ENGINEERING OF BIG DATA
Aparece nas colecções:FCT: DI - Dissertações de Mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
Marques_2022.pdf4,28 MBAdobe PDFVer/Abrir


FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpace
Formato BibTex MendeleyEndnote 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.