DSpace UNL

RUN >
Instituto Superior de Estatística e Gestão de Informação (ISEGI) >
ISEGI - Dissertações de Mestrado em Estatística e Gestão da Informação >

Please use this identifier to cite or link to this item: http://hdl.handle.net/10362/8293

Título: Cálculo do limite superior para a capacidade discriminante de modelos preditivos baseados na informação disponível – variáveis dependentes dicotómicas
Autor: Melo, André Pestana Sampaio e
Orientador: Bação, Fernando José Ferreira Lucas
Lobo, Victor José de Almeida e Sousa
Palavras-chave: Classificador Probabilista AP
Capacidade discriminante
Curva ROC
AUC
U Mann-Whitney
Regressão Logística
Redes Neuronais
Classificador MAP de Bayes
Capacidade preditiva
Capacidade de generalização
Issue Date: 6-Jun-2011
Relatório da Série N.º: Mestrado em Estatística e Gestão de Informação;TEGI0286
Resumo: Quando se avalia o poder discriminante de um determinado modelo (com variável dependente dicotómica) recorrendo à curva ROC, é usual representar-se no mesmo gráfico o “Modelo perfeito” e o “Modelo aleatório” enquanto limites teóricos (superior e inferior) à capacidade discriminante. O presente trabalho propõe o cálculo de um limite superior complementar, derivado dos dados e conceptualmente distinto do obtido via o “Modelo perfeito”. Este novo limite designar-se-á “Capacidade discriminante dos dados” utilizados no desenvolvimento do(s) modelo(s) e encontra-se associado ao modelo Classificador Probabilista AP (Probabilistic a Posteriori Classifier). A utilidade desta abordagem passa por permitir, numa vertente mais prática, a estimação a priori (antes do trabalho exaustivo de modelação propriamente dito) da qualidade potencial dos dados para endereçar o problema de previsão em questão, bem como ajudar na rápida triagem das variáveis mais promissoras a incluir no futuro modelo preditivo a desenvolver. Numa vertente mais teórica, esta abordagem possibilita uma avaliação e uma comparação da capacidade efectiva que diferentes modelos preditivos apresentam na captura da capacidade discriminante encerrada nos dados. Complementa-se os resultados teóricos com ilustrações empíricas obtidas a partir do ajustamento de duas metodologias distintas - Regressão Logística e Redes Neuronais – a dados de um ficheiro contendo informação sobre o comportamento creditício de 46,000 Clientes. Os resultados práticos tornam ainda evidente como se relaciona o “novo” limite com o tema do overfitting.
Descrição: Dissertação apresentada como requisito parcial para obtenção do grau de Mestre em Estatística e Gestão de Informação.
URI: http://hdl.handle.net/10362/8293
Appears in Collections:ISEGI - Dissertações de Mestrado em Estatística e Gestão da Informação

Files in This Item:

File Description SizeFormat
TEGI0286.pdf3,88 MBAdobe PDFView/Open
Statistics
FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

Universidade Nova de Lisboa  - Feedback
Estamos no RCAAP Governo Português separator Ministério da Educação e Ciência   Fundação para a Ciência e a Tecnologia

Financiado por:

POS_C UE