Logo do repositório
 
A carregar...
Miniatura
Publicação

Sports analytics: maximizing precision in predicting MLB base hits

Utilize este identificador para referenciar este registo.
Nome:Descrição:Tamanho:Formato: 
TGI0325.pdf1.91 MBAdobe PDF Ver/Abrir

Resumo(s)

Nos últimos anos o mundo do desporto alcançou níveis de crescimento nunca antes visto e, este evento, fomentou a necessidade para o crescimento no uso de ferramentas que tragam vantagens para as organizações e os respetivos stakeholders. Como resultado tem se registado um rápido crescimento no uso da análise de dados para vários tópicos relacionados com o desporto que consequentemente origina melhores e rápido julgamentos para os tomadores de decisão. Nesta linha de pensamento, o principal objetivo deste projeto é contruir um modelo preditivo capaz de prever as probabilidades de um jogador da MLB obter um “base hit” num dia com o propósito de ganhar o jogo Beat the Streak e, ao mesmo tempo, providenciar informações valiosas à equipa técnica. A arquitetura que serviu de diretriz a este projeto foi o CRIPS-DM, o qual foi aplicado a uma base de dados construída especificamente para este projeto com dados publicamente acessíveis. Para alcançar os referidos objetivos, foram usados o Excel com meio para recolher e estruturar a base de dados e o Python para os restantes processos com um enfase na biblioteca SKlearn. Os elementos que separam as construções dos modelos finais foram o balanceamento da base de dados, outliers, redução da dimensionalidade, seleção das variáveis e os algoritmos – Logistic Regression, Multi-layer Perceptron, Random Forest e Stochastic Gradient Descent. Os resultados obtidos foram positivos sendo o modelo com a melhor performance um Multi-layer Perceptron que obteve 85% de escolhas certas no set de teste. Este resultado alcançou uma melhoria de 5 pontos percentuais sobre o melhor modelo encontrado durante a pesquisa bibliográfica. Os resultados em questão foram positivos, mas existe margem para melhorar os modelos desenvolvidos ou a criação de outros modelos porque com os resultados obtidos ainda é difícil ganhar o jogo Beat the Streak, o que deixa em aberto a possibilidade para a criação de novos modelos.
As the world of sports expanded to never seen levels, so did the necessity for tools which provided material advantages for organizations and other stakeholders. This resulted in an increase on the use of data and analytics for a multitude of sports related topics, which led to more precise and quicker judgements for decision makers related to sports. In this line of though, the main objective of this paper is to build a predictive model capable of predicting what are the odds of a baseball player getting a base hit on a given day, with the intention of both winning the game Beat the Streak and to provide valuable information for the coaching staff. CRISP-DM was the architecture chosen as the main guideline to apply on the dataset, entirely built for this paper, using publicly available data. To achieve these objectives, Excel was used for data collection purposes and Python for the remaining steps with a big emphasis on the SKlearn library. Several models were tested and the main constrains that separate them from each other are balancing, outliers, dimensionality reduction, variable selection and the type of algorithm – Logistic Regression, Multi-layer Perceptron, Random Forest and Stochastic Gradient Descent. The results obtained were positive, in which one of the Multi-layer Perceptron achieved an 85% correct pick ratio on the test set, which is an improvement of 5 percentage points over the best model found during the literature review. Nevertheless, there is undoubtedly room for improvements in the final models and for other models with similar intentions, since the results achieved do not provide a good change of Beating the Streak.

Descrição

Dissertation presented as the partial requirement for obtaining a Master's degree in Information Management, specialization in Knowledge Management and Business Intelligence

Palavras-chave

Machine Learning Data Mining Análise Predictiva Modelos de Classificação Baseball MLB

Contexto Educativo

Citação

Projetos de investigação

Unidades organizacionais

Fascículo