Skip to content
Snippets Groups Projects
Select Git revision
  • f76fd5c561d6bcafa26a5b3bc9108fe64b5c3977
  • main default protected
  • improvement_risk_prediction_of_heart_disease
  • improvement_increase_customer_satisfaction
  • improvement_predicting_mental_illness_for_health_insurance
  • improvement_predicting_Hotelcancellation
  • improvement_free_ranging2
  • improvement_Forecast_Of_Required_Vehicles_In_the_City
  • improvement_Predicting_mental_illness
  • bugfix_SuccessPrediction_Startups
  • improvement_make_einheitlich
  • bugfix_Maintenance_IOTsystems
  • improvement_Tags_nach_oben_Hannes
  • improvement_onlineretail2
  • improvement_free_ranging_cattle
  • improvement_onlineretail
  • improvement_sentiment_fluggeselschaft
  • improvement_Forecast_Of_Required_Vehicles_City_Center
  • improvement_mark_spot
  • improvement_Predicting_mental_illness_for_health_insurance
  • improvement_Analysis_of_the_movement_and_activity_of_free-ranging_cattle
21 results

Customer Churn Prediction

  • Clone with SSH
  • Clone with HTTPS
  • Code owners
    Assign users and groups as approvers for specific file changes. Learn more.
    Name Last commit Last update
    ..
    README.md
    notebook.ipynb

    Customer Churn Prediction

    see German Version below

    Open Notebook In Google Colab

    Business Understandig

    Corporation: na
    Industry: Telecommunication
    Area of Application: Churn Prediction
    Business Objective: The estimation of the probability and whether a customer will churn or switch to a competitor and the recognition of which features lead to churn.
    Description: Customer churn is a central problem for many subscription-based product or service offerings. This results from the fact that in these areas the costs of retaining an existing customer are far lower than the costs of acquiring entirely new customers. With this use case, the churn of a customer can be predicted so that appropriate measures can be taken at an early stage.
    Solution: na

    Data Unterstanding

    Data Frame: Telco-Customer-Churn
    Source: Kaggle, „Telco Customer Churn“, 2019. https://www.kaggle.com/blastchar/telco-customer-churn
    Data Creator: telecommunications company (Data set is maintained by IBM)
    Date of Publication: 2019
    Data Type: CSV
    Description of Data Frame: The rows of the data set each represent one customer. The columns describe the characteristics or attributes of the customers. With the help of this data, an attempt is made to classify whether a customer leaves the company or not. For this purpose, the historical data contains the target variable "Churn", which provides information on whether a customer has left. The attributes are divided into three numerical features and 18 categorical features.
    Number of Features: 21
    Number of Targets: 1
    Data Type per Feature:

    Data Types Churn

    Data Type per Target: object
    Number of Observations: 7043
    Location parameter:
    Distribution parameter:
    Correlation Analysis: The attributes "tenure" and "TotalCharges" show a high correlation of 0.8.

    Data Preparation

    Dimensionality Reduction: Attributes that do not add value or are not significant removed
    Outlier:
    Missing Data:
    Unbalanced Data:
    Data Conversion: Coding of the categorical features
    Distribution Function: Similarity with an exponential distribution for the attribute "TotalCharges" recognizable.

    Feature Scaling: StandardScaler
    Multicollinearity:

    Multicollinearity

    Modelling and Evaluation

    Algorithms: Logistic regression
    Hyperparameter: Threshold 0,3 in the second round
    Output: supervised learning, classification
    Data Split: 80% train data, 20% test data
    Model Description: This problem case is a binary classification problem. A classical solution method for this type of problem is the so-called logistic regression. With the help of this, it is estimated with which probability of success P an event Y depends on the independent variables x1, ..., xk. Where the concrete values y = 0 for "not migrated" and y = 1 for "migrated" and x1, ..., xk for the individual attributes of the customers. Mathematically, the logistic function is used for this purpose:

    Formula

    The formula shows the logistic function with the logit z. The logit is a regression model with the regression coefficient ßk, the error value ε and the independent variables xk. The logit in combination with the logistic regression guarantees that according to the classification problem only function values between exactly 1 and 0 can be achieved. If the calculated result is greater than or equal to 0.5, then the predicted class is 1, if it is smaller than 0.5, the predicted class is 0. The closer the value is to 1, the higher the is the probability that the predicted result will occur. With a value of 0.8, the probability of class 1 occurring is exactly 80%, the occurrence of class 0 corresponds to the counter-event with a probability of of 20%. In terms of the application case, this means that a customer with specific given characteristics churns at 80% and the attribute Churn has to be assigned a predicted value of 1 must be assigned.

    Evaluation Metrics Round1: Accuracy= 0.80, Recall= 0.53, precision= 0.68, AUC= 0.84
    Evaluation Metrics Round2: Accuracy= 0.76, Recall= 0.73, precision= 0.53

    Additional Information:

    Deployment

    Service:
    Target Group: Company with customer relationship (Telecommunication and other services)
    Benefits: Prediction of possible customer churn in order to initiate the necessary measures to prevent customer churn.
    Integration:

    Customer Churn Prediction (Deutschsprachige Version)

    Geschäftsverständnis

    Konzern: na
    Industrie: Telekommunikation
    Anwendungsbereich: Customer Relationship Management
    Unternehmensziel: Die Abschätzung der Wahrscheinlichkeit, ob ein Kunde abwandert oder zu einem Mitbewerber wechselt, und die Erkennung, welche Merkmale zur Abwanderung führen.
    Beschreibung: Kundenabwanderung ist ein zentrales Problem für viele abonnementbasierte Produkt- oder Dienstleistungsangebote. Dies resultiert aus der Tatsache, dass in diesen Bereichen die Kosten für die Bindung eines bestehenden Kunden weitaus geringer sind als die Kosten für die Gewinnung völlig neuer Kunden. Mit diesem Anwendungsfall kann die Abwanderung eines Kunden vorhergesagt werden, so dass frühzeitig entsprechende Maßnahmen ergriffen werden können.
    Lösung: na

    Datenverständnis

    Datenrahmen: Telco-Customer-Churn
    Quelle: Kaggle, „Telco Customer Churn“, 2019. https://www.kaggle.com/blastchar/telco-customer-churn
    Datenersteller: Ein Telekommunikationsunternehmen (Der Datensatz wird von IBM verwaltet)
    Veröffentlichungsdatum: 2019
    Datentyp: CSV
    Beschreibung des Datenrahmens: Die Zeilen des Datensatzes stellen jeweils einen Kunden dar. Die Spalten beschreiben die Merkmale oder Eigenschaften der Kunden. Mit Hilfe dieser Daten wird versucht zu klassifizieren, ob ein Kunde das Unternehmen verlässt oder nicht. Zu diesem Zweck enthalten die historischen Daten die Zielvariable "Churn", die Auskunft darüber gibt, ob ein Kunde abgewandert ist. Die Attribute sind in drei numerische Merkmale und 18 kategoriale Merkmale unterteilt.
    Anzahl der Attribute: 21
    Anzahl der Zielvariablen: 1
    Datentyp pro Attribut:

    Data Types Churn

    Datentyp pro Zielvariable: object
    Anzahl der Beobachtungen: 7043
    Standortparameter:
    Verteilungsparameter:
    Korrelationsanalyse: Die Attribute "tenure" und "TotalCharges" weisen eine hohe Korrelation von 0,8 auf.

    Datenaufbereitung

    Dimensionsreduktion: Attribute, die keinen Mehrwert bieten oder nicht signifikant sind, werden entfernt.
    Ausreißer:
    Fehlende Daten:
    Unausgeglichene Daten:
    Datenkonvertierung: Kodierung der kategorialen Merkmale.
    Verteilungsfunktion: Ähnlichkeit mit einer Exponentialverteilung für das Attribut "TotalCharges" erkennbar.

    Funktionsskalierung:
    Multikollinearität:

    Multicollinearity

    Modellierung und Auswertung

    Algorithmen: Logistische Regression
    Hyperparameter: Threshold von 0,3 in der zweiten Runde
    Ausgabe: Überwachtes Lernen, Klassifikation
    Datenaufteilung: 80% Trainingsdaten, 20% Testdaten
    Modellbeschreibung: Bei diesem Problemfall handelt es sich um ein binäres Klassifikationsproblem. Ein klassisches Lösungsverfahren für diese Art von Problemen ist die sogenannte logistische Regression. Mit Hilfe dieser wird geschätzt, mit welcher Erfolgswahrscheinlichkeit P ein Ereignis Y von den unabhängigen Variablen x1, ..., xk abhängt. Dabei stehen die konkreten Werte y = 0 für "nicht abgewandert" und y = 1 für "abgewandert" und x1, ..., xk für die einzelnen Merkmale der Kunden. Mathematisch wird hierfür die logistische Funktion verwendet:

    Formula

    Die Formel zeigt die logistische Funktion mit dem Logit z. Der Logit ist ein Regressionsmodell mit dem Regressionskoeffizienten ßk, dem Fehlerwert ε und den unabhängigen Variablen xk. Der Logit in Kombination mit der logistischen Regression gewährleistet, dass je nach Klassifikationsproblem nur Funktionswerte zwischen genau 1 und 0 erreicht werden können. Ist das berechnete Ergebnis größer oder gleich 0,5, so ist die vorhergesagte Klasse 1, ist es kleiner als 0,5, so ist die vorhergesagte Klasse 0. Je näher der Wert an 1 liegt, desto höher ist die Wahrscheinlichkeit, dass das vorhergesagte Ergebnis eintritt. Bei einem Wert von 0,8 beträgt die Wahrscheinlichkeit des Eintretens der Klasse 1 genau 80%, das Eintreten der Klasse 0 entspricht dem Gegenereignis mit einer Wahrscheinlichkeit von 20%. Bezogen auf den Anwendungsfall bedeutet dies, dass ein Kunde mit bestimmten vorgegebenen Merkmalen zu 80% abwandert und dem Attribut Abwanderung ein Vorhersagewert von 1 zugewiesen werden muss.

    Bewertungsmetriken Runde1: Accuracy= 0.80, Recall= 0.53, precision= 0.68, AUC= 0.84
    Bewertungsmetriken Runde2: Accuracy= 0.76, Recall= 0.73, precision= 0.53

    Weitere Informationen:

    Bereitstellung

    Service:
    Zielgruppe: Unternehmen mit Kundenbindung (Telekommunikation oder andere Services die angeboten werden)
    Leistungen: Vorhersage einer möglichen Kundenabwanderung, um frühzeitig Maßnahmen einzuleiten, die die Abwanderung verhindern können.
    Integration: