English Version
Business Understanding
Corporation: Kickstarter
Industry: project success prediction
Area of application: Evaluation
Business Objective: With the help of AI, the given projects can be analyzed and the success or failure can be predicted
Description: Crowdfunding makes it possible to finance products/services by external individuals. Kickstarter offers exactly this possibility and finances itself with a percentage of the successfully funded sum of the projects.
The following question needs to be answered: Is it possible to determine which projects are successfully funded?
Data Understanding
Data Frame: success
Source: https://www.kaggle.com/kemical/kickstarter-projects?select=ks-projects-201801.csv
Data Creator: Kickstarter
Date of Publication: 2018
Data Type: CSV
Description of Data Frame: Data set with different characteristics, which describe a project. Among them e.g. ID, goal of the project, duration of the project, category etc.
Number of features: 15
number of targets: 1
Data type per feature: object
Data Preparation
Dimensionality Reduction: Attributes that do not add value or are not significant are removed
Outlier:
Missing Data:
Unbalanced Data:
Data Conversion: Coding the categorical features
Distribution Function: StandardScaler
Modelling and Evaluation
Algorithms: decision tree, random forest, logistische Regression
Hyperparameter:
Output: supervised learning, classification
Data Split: 80% train data, 20% test data
Model Description: All 3 models used provided meaningful probabilities by using the test data to classify a project as successful with almost 90% probability and as a failure with around 95% probability. The false positive probability is then conversely 10% for projects incorrectly classified as successful and 5% for projects incorrectly classified as failed.
Evaluation Metrics Decision Tree: Accuracy= 0.93, Recall= 0.87, precision= 0.9
Evaluation Metrics random forest: Accuracy= 0.93, Recall= 0.88, precision= 0.9
Evaluation Metrics logistic regression: Accuracy= 0.93, Recall= 0.88, precision= 0.9
Deployment
Service:
Target Group:
Benefits:
Integration:
German Version
Geschäftsverständnis
Konzern: Online-Marktplatz
Industrie: Immobilienbranche
Anwendungsbereich: Bewertung con Unterkünften
Unternehmensziel: Mithilfe von KI können die gegebenen Projekte analysiert und der Erfolg bzw. Misserfolg vorhergesagt werden
Beschreibung: Durch Crowdfunding ist es möglich, Produkte/Service durch externe Einzelpersonen zu finanzieren. Kickstarter bietet genau diese Möglichkeit an und finanziert sich mit einem Prozentsatz der erfolgreich finanzierten Summe der Projekte.
Folgende Fragestellung gilt es zu beantworten: Lässt sich feststellen, welche Projekte erfolgreich finanziert werden?
Lösung: na
Datenverständnis
Datenrahmen: Erfolg
Quelle: https://www.kaggle.com/kemical/kickstarter-projects?select=ks-projects-201801.csv
Datenersteller: Kickstarter
Veröffentlichungsdatum: 2018
Datentyp: CSV
Beschreibung des Datenrahmens: Datensatz mit unterschiedlichen Merkmalen, welche ein Projekt beschreiben. Darunter bspw. ID, Ziel des Projektes, Dauer des Projektes, Kategorie etc.
Anzahl der Attribute: 15
Anzahl der Zielvariablen: 1
Datentyp pro Attribut:
Datentyp pro Zielvariable: object
Anzahl der Beobachtungen:
Standortparameter:
Verteilungsparameter:
Korrelationsanalyse:
Datenaufbereitung
Dimensionsreduktion: Attribute, die keinen Mehrwert bieten oder nicht signifikant sind, werden entfernt.
Ausreißer:
Fehlende Daten:
Unausgeglichene Daten:
Datenkonvertierung: Kodierung der kategorialen Merkmale.
Verteilungsfunktion: StandardScaler
Funktionsskalierung:
Multikollinearität:
Modellierung und Auswertung
Algorithmen: decision tree, random forest, logistische Regression
Hyperparameter:
Ausgabe: supervised learning, classification
Datenaufteilung: 80% Trainingsdaten, 205 Testdaten
Modellbeschreibung: Alle 3 verwendeten Modelle lieferten aussagekräftige Wahrscheinlichkeiten, indem sie mit den Testdaten mit fast 90% Wahrscheinlichkeit ein Projekt als erfolgreich und mit um die 95% Wahrscheinlichkeit als fehlgeschlagen klassifiziert haben. Die false positive Wahrscheinlichkeit ist dann im Umkehrschluss für fälschlicherweise als erfolgreich klassifizierte Projekte 10% und für fälschlicherweise als fehlgeschlagene Projekte 5%.
Bewertungsmetriken Decision Tree: Accuracy= 0.93, Recall= 0.87, precision= 0.9
Bewertungsmetriken random forest: Accuracy= 0.93, Recall= 0.88, precision= 0.9
Bewertungsmetriken logistic regression: Accuracy= 0.93, Recall= 0.88, precision= 0.9
Weitere Informationen:
Bereitstellung
Service:
Zielgruppe:
Leistungen:
Integration: