DSpace UNL

RUN >
Instituto Superior de Estatística e Gestão de Informação (ISEGI) >
ISEGI - Dissertações de Mestrado em Estatística e Gestão da Informação >

Please use this identifier to cite or link to this item: http://hdl.handle.net/10362/8293

Title: Cálculo do limite superior para a capacidade discriminante de modelos preditivos baseados na informação disponível – variáveis dependentes dicotómicas
Authors: Melo, André Pestana Sampaio e
Advisor: Bação, Fernando José Ferreira Lucas
Lobo, Victor José de Almeida e Sousa
Keywords: Classificador Probabilista AP
Capacidade discriminante
Curva ROC
AUC
U Mann-Whitney
Regressão Logística
Redes Neuronais
Classificador MAP de Bayes
Capacidade preditiva
Capacidade de generalização
Issue Date: 6-Jun-2011
Series/Report no.: Mestrado em Estatística e Gestão de Informação;TEGI0286
Abstract: Quando se avalia o poder discriminante de um determinado modelo (com variável dependente dicotómica) recorrendo à curva ROC, é usual representar-se no mesmo gráfico o “Modelo perfeito” e o “Modelo aleatório” enquanto limites teóricos (superior e inferior) à capacidade discriminante. O presente trabalho propõe o cálculo de um limite superior complementar, derivado dos dados e conceptualmente distinto do obtido via o “Modelo perfeito”. Este novo limite designar-se-á “Capacidade discriminante dos dados” utilizados no desenvolvimento do(s) modelo(s) e encontra-se associado ao modelo Classificador Probabilista AP (Probabilistic a Posteriori Classifier). A utilidade desta abordagem passa por permitir, numa vertente mais prática, a estimação a priori (antes do trabalho exaustivo de modelação propriamente dito) da qualidade potencial dos dados para endereçar o problema de previsão em questão, bem como ajudar na rápida triagem das variáveis mais promissoras a incluir no futuro modelo preditivo a desenvolver. Numa vertente mais teórica, esta abordagem possibilita uma avaliação e uma comparação da capacidade efectiva que diferentes modelos preditivos apresentam na captura da capacidade discriminante encerrada nos dados. Complementa-se os resultados teóricos com ilustrações empíricas obtidas a partir do ajustamento de duas metodologias distintas - Regressão Logística e Redes Neuronais – a dados de um ficheiro contendo informação sobre o comportamento creditício de 46,000 Clientes. Os resultados práticos tornam ainda evidente como se relaciona o “novo” limite com o tema do overfitting.
Description: Dissertação apresentada como requisito parcial para obtenção do grau de Mestre em Estatística e Gestão de Informação.
URI: http://hdl.handle.net/10362/8293
Appears in Collections:ISEGI - Dissertações de Mestrado em Estatística e Gestão da Informação

Files in This Item:

File Description SizeFormat
TEGI0286.pdf3.88 MBAdobe PDFView/Open
Statistics
View Statistics
FacebookTwitterDeliciousLinkedInDiggGoogle BookmarksMySpaceOrkut
Formato BibTex mendeley Endnote Logotipo do DeGóis 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

Universidade Nova de Lisboa  - Statistics  - Feedback
Estamos no RCAAP Governo Português separator Ministério da Educação e Ciência   Fundação para a Ciência e a Tecnologia

Financiado por:

POS_C UE