Logo do repositório
 
A carregar...
Miniatura
Publicação

Telecom Churn Prediction: An approach Towards Big Data

Utilize este identificador para referenciar este registo.
Nome:Descrição:Tamanho:Formato: 
Coelho_2022.pdf5.54 MBAdobe PDF Ver/Abrir

Resumo(s)

Churn prediction is a crucial subject in telecom companies. Acquiring a new customer is more expensive than retaining a customer. Identifying such customers requires the address of multiple challenges. The first is caused by telecom datasets. These tend to be high-dimensional and at the same time very sparse, bringing multicollinearity and overfitting issues. Another challenge concerns variable data types. There are static variables and dynamic variables over time. The nature of the use case creates another adversity. The goal is to predict who is leaving the service, but, in any successful company, there are much more clients staying than leaving. This creates what an unbalanced dataset, where the binary target variable has an unbalanced distribution between its’ classes. In this work, a pipeline is proposed targeting the telecom industry. This pipeline aims to address the churn problem, i.e., to identify the clients that have a high propensity to leave the service. The pipeline is designed to deal with the multiple challenges identified and to be adaptable to other telecom datasets. This pipeline is composed of multiple steps, the first step was to restructure data, this was done by realigning all clients by its last month, in an active state, stored in the system. The multiple observations per client were compressed into one using statistics like median and standard deviation, after that feature selection method was applied but multiple options were considered and evaluated at the end of this document. Models were then used to predict variable. These models were adapted to handle unbalance challenge. This work demonstrated the ability to achieve reasonable results using a restructuring proccess and compressing statistics. This work also demonstrated the ability to achieve reasonable good results using a feature selection algorithm.
A previsão de churn é crucial nas empresas de telecomunicações. Adquirir um novo cliente é mais dispendioso do que reter um cliente. A identificação de tais clientes requer a abordagem de múltiplos desafios. O primeiro deve-se aos dataset de telecomunicações. Estes tendem a ter uma dimensionalidade elevada sendo, no entanto, esparsos. Isto traz problemas de multicolinearidade e de churn. Outro desafio diz respeito aos tipos de dados. Os dados presentes nestes dataset por norma ou são estáticos ou dinâmicos ao longo do tempo. A natureza do estudo caso em si cria outra adversidade. O objectivo é prever clientes que vão deixar o serviço, mas, em qualquer empresa bem sucedida, existem consideravel- mente mais clientes que ficam do que os que desistem. Isto queria um desequilíbrio na variável objectiva, tendo esta uma distribuição desequilibrada entre classes. Neste trabalho, é proposto uma pipeline à luz da indústria telecom. Esta pipeline visa identificar clientes que com uma elevada propensão para desistir de um determinado serviço. A pipeline foi concebida para lidar com os desafios apresentados e sendo adaptável a outros datasets de telecomincações. O primeiro passo da pipeline foi reestruturar os dados. Realinhou-se todos os dados dos clientes pelo o seu último mês activo existenete no sistema. As múltiplas observações por cliente foram comprimidas numa só usando estatísticas como a mediana e o desvio padrão. Depois, foram aplicados metodos de selecção de variáveis, no entanto foram consideradas e avaliados múltiplos cenários no final deste documento. Por fim a variável objetivo foi modelada usando os múltiplos scenários sendo que modelos usados foram adaptados para lidar com o desequilíbrio da variável objetivo. Este trabalho demonstrou resultados razoáveis ao utilizar um processo de reestruturação e estatísticas de compressão. No mesmo trabalho foram de alcançados bons resultados razoáveis, filtrando algumas variáveis usando um algoritmo de seleção de variáveis.

Descrição

Palavras-chave

Churn Classification Modeling Machine learning Telecom

Contexto Educativo

Citação

Projetos de investigação

Unidades organizacionais

Fascículo

Editora

Licença CC