Deteção automática de combinações improváveis de variáveis categóricas no contexto dos acidentes de trabalho

Ferreira, Rodolfo Simões

Utilize este identificador para referenciar este registo: http://hdl.handle.net/10362/71034

Título:	Deteção automática de combinações improváveis de variáveis categóricas no contexto dos acidentes de trabalho
Autor:	Ferreira, Rodolfo Simões
Orientador:	Silva, Joaquim Jacinto, Maria Celeste
Palavras-chave:	declarações de acidentes variáveis categóricas Data Mining combinações improváveis
Data de Defesa:	Dez-2018
Resumo:	As estatísticas retiradas dos acidentes de trabalho são de grande importância, pois é com base nelas que é gerada nova legislação, políticas de prevenção e campanhas de sensibilização contra acidentes de trabalho. Tendo em conta a importância destes dados, é fundamental procurar garantir que a informação declarada em cada acidente não contenha erros provenientes de declarações descuidadas geradoras de combinações improváveis ou impossíveis entre o conteúdo das diferentes variáveis categóricas que constituem cada declaração. Pretende-se pois assegurar que os dados estatísticos resultantes desse processo sejam fiáveis. Assim, com base num histórico de declarações corretas já existentes, foi possível construir um modelo de validação de futuras declarações de acidentes. O Desafio em termos informáticos surgiu na medida em que cada acidente é descrito por 22 variáveis categóricas em que cada uma pode assumir vários valores discretos possíveis, o que implica uma explosão combinatória de diferentes padrões de acidentes. Esta explosão exigiu a escolha de abordagens de Data Mining adequadas de modo a que a completude e a qualidade do modelo de validação não ficassem comprometidas. A título de exemplo, se cada uma das 22 variáveis admitir 10 possíveis valores, o número de combinações possíveis é dado por 1022, o que configura uma complexidade que é partilhada nesse aspeto com os ambientes onde são tratados grandes volumes de informação. Nesta dissertação foi desenvolvida uma abordagem Data Mining que, com base na deteção de combinações improváveis ou impossíveis entre o conteúdo das diferentes variáveis categóricas que constituem cada declaração, permite a classificação de futuras declarações numa de três classes: “válidas”, “inválidas” ou “suspeitas”. Foram atingidos valores de accuracy na ordem dos 85% . Esta dissertação está ancorada numa proposta de projeto, ainda em avaliação pela FCT. O GEP, que é parceiro na proposta de projeto, incluirá a abordagem desenvolvida nesta dissertação, como módulo de validação da qualidade das declarações de acidentes de trabalho.
URI:	http://hdl.handle.net/10362/71034
Designação:	Mestre em Engenharia Informática
Aparece nas colecções:	FCT: DI - Dissertações de Mestrado

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
Ferreira_2018.pdf		1,47 MB	Adobe PDF	Ver/Abrir

Mostrar registo em formato completo Dê a sua opinião sobre este registo.