Utilize este identificador para referenciar este registo:
http://hdl.handle.net/10362/71034
Título: | Deteção automática de combinações improváveis de variáveis categóricas no contexto dos acidentes de trabalho |
Autor: | Ferreira, Rodolfo Simões |
Orientador: | Silva, Joaquim Jacinto, Maria Celeste |
Palavras-chave: | declarações de acidentes variáveis categóricas Data Mining combinações improváveis |
Data de Defesa: | Dez-2018 |
Resumo: | As estatísticas retiradas dos acidentes de trabalho são de grande importância, pois é com base nelas que é gerada nova legislação, políticas de prevenção e campanhas de sensibilização contra acidentes de trabalho. Tendo em conta a importância destes dados, é fundamental procurar garantir que a informação declarada em cada acidente não contenha erros provenientes de declarações descuidadas geradoras de combinações improváveis ou impossíveis entre o conteúdo das diferentes variáveis categóricas que constituem cada declaração. Pretende-se pois assegurar que os dados estatísticos resultantes desse processo sejam fiáveis. Assim, com base num histórico de declarações corretas já existentes, foi possível construir um modelo de validação de futuras declarações de acidentes. O Desafio em termos informáticos surgiu na medida em que cada acidente é descrito por 22 variáveis categóricas em que cada uma pode assumir vários valores discretos possíveis, o que implica uma explosão combinatória de diferentes padrões de acidentes. Esta explosão exigiu a escolha de abordagens de Data Mining adequadas de modo a que a completude e a qualidade do modelo de validação não ficassem comprometidas. A título de exemplo, se cada uma das 22 variáveis admitir 10 possíveis valores, o número de combinações possíveis é dado por 1022, o que configura uma complexidade que é partilhada nesse aspeto com os ambientes onde são tratados grandes volumes de informação. Nesta dissertação foi desenvolvida uma abordagem Data Mining que, com base na deteção de combinações improváveis ou impossíveis entre o conteúdo das diferentes variáveis categóricas que constituem cada declaração, permite a classificação de futuras declarações numa de três classes: “válidas”, “inválidas” ou “suspeitas”. Foram atingidos valores de accuracy na ordem dos 85% . Esta dissertação está ancorada numa proposta de projeto, ainda em avaliação pela FCT. O GEP, que é parceiro na proposta de projeto, incluirá a abordagem desenvolvida nesta dissertação, como módulo de validação da qualidade das declarações de acidentes de trabalho. |
URI: | http://hdl.handle.net/10362/71034 |
Designação: | Mestre em Engenharia Informática |
Aparece nas colecções: | FCT: DI - Dissertações de Mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Ferreira_2018.pdf | 1,47 MB | Adobe PDF | Ver/Abrir |
Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.