diff --git a/Success Predicition/Prediction of Successful or Failed Startups/notebook.ipynb b/Success Predicition/Prediction of Successful or Failed Startups/notebook.ipynb index a83aed2e7c0be15201e887923d2225c06277b801..b09ec02f2d91c93940a5584b363cff8b23e61989 100644 --- a/Success Predicition/Prediction of Successful or Failed Startups/notebook.ipynb +++ b/Success Predicition/Prediction of Successful or Failed Startups/notebook.ipynb @@ -2,26 +2,78 @@ "cells": [ { "cell_type": "markdown", - "metadata": {}, + "metadata": { + "editable": true, + "include": true, + "paragraph": "business", + "slideshow": { + "slide_type": "" + }, + "tags": [] + }, "source": [ - "# 1. Business Understanding\n", - "\n", - "Much of the research on business success focuses on the success of companies and SMEs. In this context, the health of a company in a competitive business environment is highly associated with its profitability and level of solvency. Butler and Fitzgerald associate business success with the firm's competitive performance against its peers. Lussier and Pfeifer consider companies successful if they have generated at least the industry average profit over the past 3 years. Gatev et al., on the other hand, define success as continuing to operate without having debts to creditors and shareholders" + "# 1. Business Understanding" ] }, { "cell_type": "markdown", - "metadata": {}, + "metadata": { + "editable": true, + "include": true, + "paragraph": "business", + "slideshow": { + "slide_type": "" + }, + "tags": [ + "business" + ] + }, "source": [ - "# 2. Data and Data Understanding\n", - "\n", - "The System, like most machine learning systems, starts with the data. This data set is provided by Crunchbase as an open source database in the form of 11 contiguous CSV files. Which is why the first step of data preparation is a merge into one CSV file, following which redundant and erroneous data as well as outliers are removed and a representative dataset is created.The dataset used in this case study contains details on various aspects of startups such as the year founded, funding received, current operating status and many other similar aspects.\n", - "The merged dataset contain industry trends, investment insights and individual company information. There are 48 columns and 922 rows. The target variable is status, if a startup is acquired by another organization, means that the startup is successful. In the existing dataset we can also find 3 different data types like inter, object and float." + "Der Erfolg eines Satrups ist besonders für Investoren ein wichtiger Punkt. Problematisch ist hierbei nur das man den Erfolg des Starups nicht garantieren kann. Es wäre also sehr hilfreich, wenn es eine Vorhersage über den Erfolg oder Misserfolg von Startups geben würde. Somit würde das Risiko, welches Investoren haben minimiert werden. Dabei stellt sich die Frage, wie der Erfolg eines Startups definiert wird. In dieser Demo gilt ein Startup als Erfolgreich, wenn es von einer anderen Organisation übernommen wird." ] }, { "cell_type": "markdown", - "metadata": {}, + "metadata": { + "editable": true, + "include": true, + "paragraph": "daten", + "slideshow": { + "slide_type": "" + }, + "tags": [] + }, + "source": [ + "# 2. Data and Data Understanding" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "editable": true, + "include": true, + "paragraph": "daten", + "slideshow": { + "slide_type": "" + }, + "tags": [ + "daten" + ] + }, + "source": [ + "In diesem Use Case wird ein Datensatz von Crunchbase als Open-Source-Datenbank in Form von 11 zusammenhängenden CSV-Dateien bereitgestellt. Der Datensatz enthält Details zu verschiedenen Aspekten von Startups wie Gründungsjahr, erhaltene Finanzierung, aktueller Betriebsstatus und viele andere ähnliche Aspekte. Verschiedene Schritte zur Datenvorbereitung werden umgesetzt. \n", + "Der zusammengeführte Datensatz enthält Branchentrends, Erkenntnisse über Investitionen und Informationen über einzelne Unternehmen. Es gibt 48 Spalten und 922 Zeilen. Wird ein Startup von einer anderen Organisation übernommen, bedeutet dies, dass das Startup erfolgreich ist. In dem vorhandenen Datensatz finden wir auch 3 verschiedene Datentypen wie inter, object und float." + ] + }, + { + "cell_type": "markdown", + "metadata": { + "editable": true, + "slideshow": { + "slide_type": "" + }, + "tags": [] + }, "source": [ "## 2.1 Import of Relevant Modules" ] @@ -730,6 +782,7 @@ { "cell_type": "markdown", "metadata": { + "editable": true, "papermill": { "duration": 0.047629, "end_time": "2021-01-12T23:10:02.321400", @@ -737,6 +790,9 @@ "start_time": "2021-01-12T23:10:02.273771", "status": "completed" }, + "slideshow": { + "slide_type": "" + }, "tags": [] }, "source": [ @@ -869,23 +925,38 @@ { "cell_type": "markdown", "metadata": { - "papermill": { - "duration": 0.048506, - "end_time": "2021-01-12T23:10:02.748773", - "exception": false, - "start_time": "2021-01-12T23:10:02.700267", - "status": "completed" + "editable": true, + "slideshow": { + "slide_type": "" }, "tags": [] }, "source": [ - "# 3. Data Preparation" + "# 3. Datavorbereitung" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "editable": true, + "include": true, + "paragraph": "datenvorbereitung", + "slideshow": { + "slide_type": "" + }, + "tags": [ + "datenvorbereitung" + ] + }, + "source": [ + "Zunächst werden alle Ausreißer Punkte, welche durch IQR-Tests erkannt werden, mit fehlenden Punkten ergänzt. Danach wird nach Nullwerten gesucht, welche danach entfernt werden. Ebenfalls werden alle Attribute des Datensatzes die keinen Mehrwert bieten oder nicht signifikant sind entfernt." ] }, { "cell_type": "code", "execution_count": 54, "metadata": { + "editable": true, "execution": { "iopub.execute_input": "2021-01-12T23:10:02.871026Z", "iopub.status.busy": "2021-01-12T23:10:02.859761Z", @@ -899,6 +970,9 @@ "start_time": "2021-01-12T23:10:02.798337", "status": "completed" }, + "slideshow": { + "slide_type": "" + }, "tags": [] }, "outputs": [ @@ -1261,6 +1335,7 @@ { "cell_type": "markdown", "metadata": { + "editable": true, "papermill": { "duration": 0.059593, "end_time": "2021-01-12T23:10:07.641205", @@ -1268,16 +1343,52 @@ "start_time": "2021-01-12T23:10:07.581612", "status": "completed" }, + "slideshow": { + "slide_type": "" + }, "tags": [] }, "source": [ "# 4. Modelling and Evaluation\n" ] }, + { + "cell_type": "markdown", + "metadata": { + "editable": true, + "include": true, + "paragraph": "datenmodell", + "slideshow": { + "slide_type": "" + }, + "tags": [] + }, + "source": [ + "### 4.1 Datenmodell" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "editable": true, + "include": true, + "paragraph": "datenmodell", + "slideshow": { + "slide_type": "" + }, + "tags": [ + "datenmodell" + ] + }, + "source": [ + "Es werden vier unterschiedliche Modelle verwendet, welche aus SVC, RandomForest, ExtraTrees und der GradientBoosting-Klassifikatoren bestehen." + ] + }, { "cell_type": "code", "execution_count": 61, "metadata": { + "editable": true, "execution": { "iopub.execute_input": "2021-01-12T23:10:07.773768Z", "iopub.status.busy": "2021-01-12T23:10:07.773017Z", @@ -1291,6 +1402,9 @@ "start_time": "2021-01-12T23:10:07.702027", "status": "completed" }, + "slideshow": { + "slide_type": "" + }, "tags": [] }, "outputs": [ @@ -6805,6 +6919,7 @@ "cell_type": "code", "execution_count": 85, "metadata": { + "editable": true, "execution": { "iopub.execute_input": "2021-01-12T23:46:51.112463Z", "iopub.status.busy": "2021-01-12T23:46:51.111795Z", @@ -6818,6 +6933,9 @@ "start_time": "2021-01-12T23:46:50.981244", "status": "completed" }, + "slideshow": { + "slide_type": "" + }, "tags": [] }, "outputs": [ @@ -6842,19 +6960,44 @@ { "cell_type": "markdown", "metadata": { - "papermill": { - "duration": 0.173915, - "end_time": "2021-01-12T23:46:51.653577", - "exception": false, - "start_time": "2021-01-12T23:46:51.479662", - "status": "completed" + "editable": true, + "slideshow": { + "slide_type": "" }, "tags": [] }, "source": [ - "# Ensemble modeling\n", - "\n", - "## Combining models" + "### 4.2 Evaluation" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "editable": true, + "include": true, + "paragraph": "evaluation", + "slideshow": { + "slide_type": "" + }, + "tags": [ + "evaluation" + ] + }, + "source": [ + "Für die Bewertung der Qualität einer Klassifikation werden die Metriken voting score (wählen) und stacking score (stapeln) genutzt. Das finale Datenmodell erreicht einen voting score von 0,77 und einen stacking score von 0,78. Somit ist deutlich zu sehen, dass das Stapeln die besten Ergebnisse bei der Klassifizierung liefert. Es kann also durch diesen Service für Investoren und StartUps vorhergesagt werden, ob die Unternehmen erfolgreich sind oder scheitern." + ] + }, + { + "cell_type": "markdown", + "metadata": { + "editable": true, + "slideshow": { + "slide_type": "" + }, + "tags": [] + }, + "source": [ + "### Combining models" ] }, { @@ -6899,6 +7042,7 @@ { "cell_type": "markdown", "metadata": { + "editable": true, "papermill": { "duration": 0.125058, "end_time": "2021-01-12T23:46:54.886106", @@ -6906,6 +7050,9 @@ "start_time": "2021-01-12T23:46:54.761048", "status": "completed" }, + "slideshow": { + "slide_type": "" + }, "tags": [] }, "source": [ @@ -6958,6 +7105,7 @@ { "cell_type": "markdown", "metadata": { + "editable": true, "papermill": { "duration": 0.119358, "end_time": "2021-01-12T23:47:36.422525", @@ -6965,14 +7113,64 @@ "start_time": "2021-01-12T23:47:36.303167", "status": "completed" }, + "slideshow": { + "slide_type": "" + }, "tags": [] }, "source": [ "Es ist deutlich zu sehen, dass das Stapeln die besten Ergebnisse bei der Klassifizierung liefert" ] + }, + { + "cell_type": "markdown", + "metadata": { + "editable": true, + "slideshow": { + "slide_type": "" + }, + "tags": [] + }, + "source": [ + "# 5. Umsetzng " + ] + }, + { + "cell_type": "markdown", + "metadata": { + "editable": true, + "include": true, + "paragraph": "umsetzung", + "slideshow": { + "slide_type": "" + }, + "tags": [ + "umsetzung" + ] + }, + "source": [ + "Die Umsetzung bzw. Einbindung des Datenmodells bietet sich in CRM-Systemen an. Durch diesen Service kann für Investoren und StartUps vorhergesagt werden, ob die Unternehmen erfolgreich sind oder scheitern.\n" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": { + "editable": true, + "slideshow": { + "slide_type": "" + }, + "tags": [] + }, + "outputs": [], + "source": [] } ], "metadata": { + "branche": "Finanzwirtschaft", + "category": "Success Prediction", + "dataSource": "https://gitlab.reutlingen-university.de/ki_lab/machine-learning-services/-/blob/main/Success%20Predicition/Prediction%20of%20Successful%20or%20Failed%20Startups/dataset.csv?ref_type=heads", + "funktion": "Markforschung", "kernelspec": { "display_name": "Python 3 (ipykernel)", "language": "python", @@ -6988,19 +7186,12 @@ "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", - "version": "3.11.5" + "version": "3.10.4" }, - "papermill": { - "duration": 2269.629449, - "end_time": "2021-01-12T23:47:36.653147", - "environment_variables": {}, - "exception": null, - "input_path": "__notebook__.ipynb", - "output_path": "__notebook__.ipynb", - "parameters": {}, - "start_time": "2021-01-12T23:09:47.023698", - "version": "2.1.0" - } + "repoLink": "https://gitlab.reutlingen-university.de/ki_lab/machine-learning-services/-/blob/main/Success%20Predicition/Prediction%20of%20Successful%20or%20Failed%20Startups/notebook.ipynb?ref_type=heads", + "skipNotebookInDeployment": false, + "teaser": "Der Erfolg eines Startups ist besonders für Investoren ein wichtiger Punkt. Problematisch ist hierbei nur das man den Erfolg des Startups nicht garantieren kann. Dazu wird in diesem Use Case ein Datensatz von Crunchbase als Open-Source-Datenbank in Form von 11 zusammenhängenden CSV-Dateien bereitgestellt. Der Datensatz enthält Details zu verschiedenen Aspekten von Startups wie Gründungsjahr, erhaltene Finanzierung, aktueller Betriebsstatus und viele andere ähnliche Aspekte. Verschiedene Schritte zur Datenvorbereitung werden umgesetzt. Es werden vier unterschiedliche Modelle verwendet, welche aus SVC, RandomForest, ExtraTrees und der GradientBoosting-Klassifikatoren bestehen. Das finale Datenmodell erreicht einen voting score von 0,77 und einen stacking score von 0,78. Somit kann durch diesen Service für Investoren und StartUps vorhergesagt werden, ob die Unternehmen erfolgreich sind oder scheitern.", + "title": "Vorhersage für den Erfolg oder Misserfolges eines Startups" }, "nbformat": 4, "nbformat_minor": 4