KI_LAB
machine-learning-services

Repository



English Version


Business Understanding
Corporation: Kickstarter

Industry: project success prediction

Area of application: Evaluation

Business Objective: With the help of AI, the given projects can be analyzed and the success or failure can be predicted

Description: Crowdfunding makes it possible to finance products/services by external individuals. Kickstarter offers exactly this possibility and finances itself with a percentage of the successfully funded sum of the projects.
The following question needs to be answered: Is it possible to determine which projects are successfully funded?

Data Understanding
Data Frame: success

Source: https://www.kaggle.com/kemical/kickstarter-projects?select=ks-projects-201801.csv

Data Creator: Kickstarter

Date of Publication: 2018

Data Type: CSV

Description of Data Frame: Data set with different characteristics, which describe a project. Among them e.g. ID, goal of the project, duration of the project, category etc.

Number of features: 15

number of targets: 1

Data type per feature: object

Data Preparation
Dimensionality Reduction: Attributes that do not add value or are not significant are removed

Outlier:

Missing Data:

Unbalanced Data:

Data Conversion: Coding the categorical features

Distribution Function: StandardScaler

Modelling and Evaluation
Algorithms: decision tree, random forest, logistische Regression

Hyperparameter:

Output: supervised learning, classification

Data Split: 80% train data, 20% test data

Model Description: All 3 models used provided meaningful probabilities by using the test data to classify a project as successful with almost 90% probability and as a failure with around 95% probability. The false positive probability is then conversely 10% for projects incorrectly classified as successful and 5% for projects incorrectly classified as failed.

Evaluation Metrics Decision Tree: Accuracy= 0.93, Recall= 0.87, precision= 0.9

Evaluation Metrics random forest: Accuracy= 0.93, Recall= 0.88, precision= 0.9

Evaluation Metrics logistic regression: Accuracy= 0.93, Recall= 0.88, precision= 0.9

Deployment
Service:

Target Group:

Benefits:

Integration:

German Version

Geschäftsverständnis
Konzern: Online-Marktplatz

Industrie: Immobilienbranche

Anwendungsbereich: Bewertung con Unterkünften

Unternehmensziel: Mithilfe von KI können die gegebenen Projekte analysiert und der Erfolg bzw. Misserfolg vorhergesagt werden

Beschreibung: Durch Crowdfunding ist es möglich, Produkte/Service durch externe Einzelpersonen zu finanzieren. Kickstarter bietet genau diese Möglichkeit an und finanziert sich mit einem Prozentsatz der erfolgreich finanzierten Summe der Projekte.
Folgende Fragestellung gilt es zu beantworten: Lässt sich feststellen, welche Projekte erfolgreich finanziert werden?

Lösung: na

Datenverständnis
Datenrahmen: Erfolg

Quelle: https://www.kaggle.com/kemical/kickstarter-projects?select=ks-projects-201801.csv

Datenersteller: Kickstarter

Veröffentlichungsdatum: 2018

Datentyp: CSV

Beschreibung des Datenrahmens: Datensatz mit unterschiedlichen Merkmalen, welche ein Projekt beschreiben. Darunter bspw. ID, Ziel des Projektes, Dauer des Projektes, Kategorie etc.

Anzahl der Attribute: 15

Anzahl der Zielvariablen: 1

Datentyp pro Attribut:

Datentyp pro Zielvariable: object
Anzahl der Beobachtungen:

Standortparameter:

Verteilungsparameter:

Korrelationsanalyse:

Datenaufbereitung
Dimensionsreduktion: Attribute, die keinen Mehrwert bieten oder nicht signifikant sind, werden entfernt.

Ausreißer:

Fehlende Daten:

Unausgeglichene Daten:

Datenkonvertierung: Kodierung der kategorialen Merkmale.

Verteilungsfunktion: StandardScaler

Funktionsskalierung:

Multikollinearität:

Modellierung und Auswertung
Algorithmen: decision tree, random forest, logistische Regression

Hyperparameter:

Ausgabe: supervised learning, classification

Datenaufteilung: 80% Trainingsdaten, 205 Testdaten

Modellbeschreibung: Alle 3 verwendeten Modelle lieferten aussagekräftige Wahrscheinlichkeiten, indem sie mit den Testdaten mit fast 90% Wahrscheinlichkeit ein Projekt als erfolgreich und mit um die 95% Wahrscheinlichkeit als fehlgeschlagen klassifiziert haben. Die false positive Wahrscheinlichkeit ist dann im Umkehrschluss für fälschlicherweise als erfolgreich klassifizierte Projekte 10% und für fälschlicherweise als fehlgeschlagene Projekte 5%.

Bewertungsmetriken Decision Tree: Accuracy= 0.93, Recall= 0.87, precision= 0.9

Bewertungsmetriken random forest: Accuracy= 0.93, Recall= 0.88, precision= 0.9

Bewertungsmetriken logistic regression: Accuracy= 0.93, Recall= 0.88, precision= 0.9
Weitere Informationen:

Bereitstellung
Service:

Zielgruppe:

Leistungen:

Integration: