Formatted all crm notebooks

cdaa0f34 · Andi Buzer · 12672c32 · cdaa0f34 · cdaa0f34 · cdaa0f34
Commit cdaa0f34 authored May 14, 2024 by Andi Buzer
--- a/CRM/Customer Churn Prediction/notebook.ipynb
+++ b/CRM/Customer Churn Prediction/notebook.ipynb
--- a/CRM/Customer Satisfaction Airlines/notebook.ipynb
+++ b/CRM/Customer Satisfaction Airlines/notebook.ipynb
--- a/CRM/Increase customer satisfaction/notebook.ipynb
+++ b/CRM/Increase customer satisfaction/notebook.ipynb
@@ -3,29 +3,45 @@
  {
   "attachments": {},
   "cell_type": "markdown",
-            "metadata": {},
+   "metadata": {
+    "editable": true,
+    "include": true,
+    "paragraph": "BusinessUnderstanding",
+    "slideshow": {
+     "slide_type": ""
+    },
+    "tags": []
+   },
   "source": [
    "# 1. Business Understanding\n",
    "\n",
-                "Aufgrund der gro\u00dfen Auswahl, die Netflix zu bieten hat, ist es f\u00fcr die Nutzer schwierig, geeignete Filme f\u00fcr sich zu finden. Die Suche in der Bibliothek nimmt viel Zeit in Anspruch und schafft ein schlechtes Nutzererlebnis, was wiederum zu h\u00f6heren Abbruchquoten f\u00fchrt.\n",
+    "Aufgrund der großen Auswahl, die Netflix zu bieten hat, ist es für die Nutzer schwierig, geeignete Filme für sich zu finden. Die Suche in der Bibliothek nimmt viel Zeit in Anspruch und schafft ein schlechtes Nutzererlebnis, was wiederum zu höheren Abbruchquoten führt.\n",
-                "Um die Abbruchquoten zu senken, muss gepr\u00fcft werden, ob die Kundenzufriedenheit durch die Anwendung von maschinellem Lernen in Bezug auf Filmempfehlungen erh\u00f6ht werden kann.\n",
+    "Um die Abbruchquoten zu senken, muss geprüft werden, ob die Kundenzufriedenheit durch die Anwendung von maschinellem Lernen in Bezug auf Filmempfehlungen erhöht werden kann.\n",
    "\n",
    "\n",
-                "Der Datensatz enth\u00e4lt Filmdaten aus dem tmdb Dataset.\n",
+    "Der Datensatz enthält Filmdaten aus dem tmdb Dataset.\n",
-                "Finden Sie heraus, welche Faktoren auf der Grundlage der Daten \u00fcber die Beliebtheit oder Bewertung der Filme ergriffen werden k\u00f6nnen, um Strategien f\u00fcr das Unternehmen zu entwickeln.\n",
+    "Finden Sie heraus, welche Faktoren auf der Grundlage der Daten über die Beliebtheit oder Bewertung der Filme ergriffen werden können, um Strategien für das Unternehmen zu entwickeln.\n",
-                "Basierend auf dem obigen Gesch\u00e4ftsproblem definieren wir die abh\u00e4ngige Variable (y)\n",
+    "Basierend auf dem obigen Geschäftsproblem definieren wir die abhängige Variable (y)\n",
    "\n",
-                "Problem 1: y = Popularit\u00e4t / Voting-Durchschnitt (Regressionsproblem)"
+    "Problem 1: y = Popularität / Voting-Durchschnitt (Regressionsproblem)"
   ]
  },
  {
   "attachments": {},
   "cell_type": "markdown",
-            "metadata": {},
+   "metadata": {
+    "editable": true,
+    "include": true,
+    "paragraph": "DataUnderstanding",
+    "slideshow": {
+     "slide_type": ""
+    },
+    "tags": []
+   },
   "source": [
-                "# 2. Daten und Datenverst\u00e4ndnis\n",
+    "# 2. Daten und Datenverständnis\n",
    "\n",
-                "Aus dem Datensatz ist ersichtlich, dass sowohl Zahlen als auch kategoriale Werte enthalten sind. Jede Kategorie bezieht sich auf den entsprechenden Film in der Zeile. So enth\u00e4lt beispielsweise die Spalte \"Crew\" mehrere Mitwirkende wie Autoren, Filmeditor usw., w\u00e4hrend \"Cast\" die Schauspieler enth\u00e4lt, die in den jeweiligen Filmen mitspielen. Au\u00dferdem hat jeder Film eine eindeutige ID, z. B. movie_id/id, die identisch ist und es erm\u00f6glicht, beide Datens\u00e4tze zu kombinieren. Alle Daten sind sehr verst\u00e4ndlich und selbsterkl\u00e4rend, und der Inhalt ist auf kaggle.com ausdr\u00fccklich beschrieben."
+    "Aus dem Datensatz ist ersichtlich, dass sowohl Zahlen als auch kategoriale Werte enthalten sind. Jede Kategorie bezieht sich auf den entsprechenden Film in der Zeile. So enthält beispielsweise die Spalte \"Crew\" mehrere Mitwirkende wie Autoren, Filmeditor usw., während \"Cast\" die Schauspieler enthält, die in den jeweiligen Filmen mitspielen. Außerdem hat jeder Film eine eindeutige ID, z. B. movie_id/id, die identisch ist und es ermöglicht, beide Datensätze zu kombinieren. Alle Daten sind sehr verständlich und selbsterklärend, und der Inhalt ist auf kaggle.com ausdrücklich beschrieben."
   ]
  },
  {
@@ -58,7 +74,7 @@
    "sns.set()\n",
    "\n",
    "\n",
-                "# statsmodels ben\u00f6tigt diese Funktion (chisqprob) von skipy f\u00fcr Berichte\n",
+    "# statsmodels benötigt diese Funktion (chisqprob) von skipy für Berichte\n",
    "from scipy import stats\n",
    "stats.chisqprob = lambda chisq, df: stats.chi2.sf(chisq, df)"
   ]
@@ -103,7 +119,7 @@
   "cell_type": "markdown",
   "metadata": {},
   "source": [
-                "### Datenverst\u00e4ndnis"
+    "### Datenverständnis"
   ]
  },
  {
@@ -213,7 +229,7 @@
       "      <td>[{\"id\": 470, \"name\": \"spy\"}, {\"id\": 818, \"name...</td>\n",
       "      <td>en</td>\n",
       "      <td>Spectre</td>\n",
-                            "      <td>A cryptic message from Bond\u2019s past sends him o...</td>\n",
+       "      <td>A cryptic message from Bond’s past sends him o...</td>\n",
       "      <td>107.376788</td>\n",
       "      <td>[{\"name\": \"Columbia Pictures\", \"id\": 5}, {\"nam...</td>\n",
       "      <td>...</td>\n",
@@ -278,7 +294,7 @@
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
-                            "<p>5 rows \u00d7 23 columns</p>\n",
+       "<p>5 rows × 23 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
@@ -313,7 +329,7 @@
       "                                            overview  popularity  \\\n",
       "0  In the 22nd century, a paraplegic Marine is di...  150.437577   \n",
       "1  Captain Barbossa, long believed to be dead, ha...  139.082615   \n",
-                            "2  A cryptic message from Bond\u2019s past sends him o...  107.376788   \n",
+       "2  A cryptic message from Bond’s past sends him o...  107.376788   \n",
       "3  Following the death of District Attorney Harve...  112.312950   \n",
       "4  John Carter is a war-weary, former military ca...   43.926995   \n",
       "\n",
@@ -687,7 +703,7 @@
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
-                            "<p>11 rows \u00d7 23 columns</p>\n",
+       "<p>11 rows × 23 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
@@ -866,7 +882,7 @@
   "cell_type": "markdown",
   "metadata": {},
   "source": [
-                "###  Auf Nullwerte pr\u00fcfen"
+    "###  Auf Nullwerte prüfen"
   ]
  },
  {
@@ -969,7 +985,7 @@
   "cell_type": "markdown",
   "metadata": {},
   "source": [
-                "### Auf Duplikate pr\u00fcfen"
+    "### Auf Duplikate prüfen"
   ]
  },
  {
@@ -1024,7 +1040,7 @@
       "  <tbody>\n",
       "  </tbody>\n",
       "</table>\n",
-                            "<p>0 rows \u00d7 23 columns</p>\n",
+       "<p>0 rows × 23 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
@@ -1049,7 +1065,7 @@
   "cell_type": "markdown",
   "metadata": {},
   "source": [
-                "## 2.4 Test auf Multikollinearit\u00e4t"
+    "## 2.4 Test auf Multikollinearität"
   ]
  },
  {
@@ -1057,7 +1073,7 @@
   "cell_type": "markdown",
   "metadata": {},
   "source": [
-                "Keine nicht-signifikanten Variablen mehr. Das endg\u00fcltige Modell wird erstellt."
+    "Keine nicht-signifikanten Variablen mehr. Das endgültige Modell wird erstellt."
   ]
  },
  {
@@ -1292,7 +1308,15 @@
  {
   "attachments": {},
   "cell_type": "markdown",
-            "metadata": {},
+   "metadata": {
+    "editable": true,
+    "include": true,
+    "paragraph": "DataPreparation",
+    "slideshow": {
+     "slide_type": ""
+    },
+    "tags": []
+   },
   "source": [
    "# 3. Datenaufbereitung"
   ]
@@ -1671,7 +1695,7 @@
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
-                            "<p>1262 rows \u00d7 8 columns</p>\n",
+       "<p>1262 rows × 8 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
@@ -1833,7 +1857,15 @@
  {
   "attachments": {},
   "cell_type": "markdown",
-            "metadata": {},
+   "metadata": {
+    "editable": true,
+    "include": true,
+    "paragraph": "Modeling",
+    "slideshow": {
+     "slide_type": ""
+    },
+    "tags": []
+   },
   "source": [
    "# 4. Modellierung und Evaluation"
   ]
@@ -3276,7 +3308,7 @@
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
-                            "<p>5 rows \u00d7 1337 columns</p>\n",
+       "<p>5 rows × 1337 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
@@ -3514,8 +3546,9 @@
  }
 ],
 "metadata": {
+  "category": "CRM",
  "kernelspec": {
-            "display_name": "Python 3",
+   "display_name": "Python 3 (ipykernel)",
   "language": "python",
   "name": "python3"
  },
@@ -3529,10 +3562,10 @@
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
-            "version": "3.8.5"
+   "version": "3.12.3"
  },
-        "title": "Increase customer satisfaction",
+  "skipNotebookInDeployment": false,
-        "category": "CRM"
+  "title": "Increase customer satisfaction"
 },
 "nbformat": 4,
 "nbformat_minor": 4


--- a/CRM/Sentiment analysis on amazon alexa reviews/notebook.ipynb
+++ b/CRM/Sentiment analysis on amazon alexa reviews/notebook.ipynb
@@ -3,7 +3,13 @@
  {
   "cell_type": "code",
   "execution_count": 56,
-            "metadata": {},
+   "metadata": {
+    "editable": true,
+    "slideshow": {
+     "slide_type": ""
+    },
+    "tags": []
+   },
   "outputs": [],
   "source": [
    "import warnings\n",
@@ -64,7 +70,7 @@
    "# For central installation, set this to C:\\nltk_data (Windows), /usr/local/share/nltk_data (Mac), or /usr/share/nltk_data (Unix). \n",
    "# Next, select the packages or collections you want to download.\n",
    "# If you did not install the data to one of the above central locations, you will need to set the NLTK_DATA environment variable \n",
-                "# to specify the location of the data. (On a Windows machine, right click on \u201cMy Computer\u201d then \n",
+    "# to specify the location of the data. (On a Windows machine, right click on “My Computer” then \n",
    "# select Properties > Advanced > Environment Variables > User Variables > New...)\n",
    "# Test that the data has been installed as follows. (This assumes you downloaded the Brown Corpus):\n",
    "\n",
@@ -387,12 +393,12 @@
    }
   ],
   "source": [
-                "# Es wird \u00fcberpr\u00fcft, ob es \"null data\" gibt oder nicht --> es geht hervor, dass es keine \"null data\" gibt\n",
+    "# Es wird überprüft, ob es \"null data\" gibt oder nicht --> es geht hervor, dass es keine \"null data\" gibt\n",
    "\n",
    "alexa.isnull().any().any()\n",
    "\n",
    "\n",
-                "# ## Beschreibung der Daten entsprechend der L\u00e4nge der Bewertungen"
+    "# ## Beschreibung der Daten entsprechend der Länge der Bewertungen"
   ]
  },
  {
@@ -908,7 +914,7 @@
    }
   ],
   "source": [
-                "#Es wird eine L\u00e4ngenkolonne zur Analyse der L\u00e4nge der Bewertungen hinzugef\u00fcgt\n",
+    "#Es wird eine Längenkolonne zur Analyse der Länge der Bewertungen hinzugefügt\n",
    "\n",
    "alexa['length'] = alexa['verified_reviews'].apply(len)\n",
    "alexa.groupby('length').describe().sample(20)"
@@ -922,7 +928,7 @@
    {
     "data": {
      "text/plain": [
-                            "Text(0.5, 1.0, 'Verteilung nach L\u00e4nge')"
+       "Text(0.5, 1.0, 'Verteilung nach Länge')"
      ]
     },
     "execution_count": 65,
@@ -941,11 +947,11 @@
    }
   ],
   "source": [
-                "#veranschaulicht die Verteilung nach L\u00e4nge\n",
+    "#veranschaulicht die Verteilung nach Länge\n",
    "\n",
    "plt.figure(figsize=(8,5))\n",
    "alexa.length.plot(color = 'lightblue',kind=\"box\")\n",
-                "plt.title(\"Verteilung nach L\u00e4nge\")"
+    "plt.title(\"Verteilung nach Länge\")"
   ]
  },
  {
@@ -956,7 +962,7 @@
    {
     "data": {
      "text/plain": [
-                            "Text(0.5, 1.0, 'Durschnittliche Wortl\u00e4nge von positiven und negativen Bewertungen')"
+       "Text(0.5, 1.0, 'Durschnittliche Wortlänge von positiven und negativen Bewertungen')"
      ]
     },
     "execution_count": 66,
@@ -975,11 +981,11 @@
    }
   ],
   "source": [
-                "#veranschaulicht die Durschnittliche Wortl\u00e4nge von positiven und negativen Bewertungen \n",
+    "#veranschaulicht die Durschnittliche Wortlänge von positiven und negativen Bewertungen \n",
    "\n",
    "colors = ['teal', 'cadetblue']\n",
    "alexa.groupby(\"feedback\").length.mean().plot(color = colors, kind=\"bar\")\n",
-                "plt.title(\"Durschnittliche Wortl\u00e4nge von positiven und negativen Bewertungen\")"
+    "plt.title(\"Durschnittliche Wortlänge von positiven und negativen Bewertungen\")"
   ]
  },
  {
@@ -1000,7 +1006,7 @@
   ],
   "source": [
    "alexa['length'].value_counts().plot.hist(color = 'lightblue', figsize = (15, 5), bins = 50)\n",
-                "plt.title('Verteilung der L\u00e4nge der Bewertungen')\n",
+    "plt.title('Verteilung der Länge der Bewertungen')\n",
    "plt.xlabel('lengths')\n",
    "plt.ylabel('count')\n",
    "plt.show()"
@@ -1023,7 +1029,7 @@
    }
   ],
   "source": [
-                "#zeigt ein paar Beispiele von verschiedenen Bewertungen mit verschiedenen L\u00e4ngen\n",
+    "#zeigt ein paar Beispiele von verschiedenen Bewertungen mit verschiedenen Längen\n",
    "\n",
    "alexa[alexa['length'] == 13]['verified_reviews'].iloc[0]"
   ]
@@ -1289,7 +1295,7 @@
    }
   ],
   "source": [
-                "#zeigt die Verteilung der Sterne-Bewertungen an --> es geht hervor, dass am h\u00e4ufigsten 5 Sterne vergeben werden\n",
+    "#zeigt die Verteilung der Sterne-Bewertungen an --> es geht hervor, dass am häufigsten 5 Sterne vergeben werden\n",
    "\n",
    "alexa.groupby('rating').describe()"
   ]
@@ -1409,7 +1415,7 @@
    "plt.title(\"Prozentuale Verteilung nach Anzahl der Sterne\")\n",
    "\n",
    "\n",
-                "# ## Rating vs. L\u00e4nge\n",
+    "# ## Rating vs. Länge\n",
    "# \n",
    "# "
   ]
@@ -1422,7 +1428,7 @@
    {
     "data": {
      "text/plain": [
-                            "Text(0.5, 1.0, 'Rating vs. L\u00e4nge')"
+       "Text(0.5, 1.0, 'Rating vs. Länge')"
      ]
     },
     "execution_count": 77,
@@ -1441,11 +1447,11 @@
    }
   ],
   "source": [
-                "#veranschaulicht die Verteilung der Bewertungen nach Sternevergabe und L\u00e4nge\n",
+    "#veranschaulicht die Verteilung der Bewertungen nach Sternevergabe und Länge\n",
    "\n",
    "colors = ['lightskyblue', 'teal', 'darkgrey', 'cadetblue', 'powderblue']\n",
    "alexa.groupby(\"rating\").length.mean().plot(color= colors,kind=\"bar\")\n",
-                "plt.title(\"Rating vs. L\u00e4nge\")\n",
+    "plt.title(\"Rating vs. Länge\")\n",
    "\n",
    "\n",
    "# ## Variation vs. Rating "
@@ -1476,7 +1482,7 @@
    "plt.show()\n",
    "\n",
    "\n",
-                "# ## Variation vs. L\u00e4nge "
+    "# ## Variation vs. Länge "
   ]
  },
  {
@@ -1502,7 +1508,7 @@
    "plt.show()\n",
    "\n",
    "\n",
-                "# ## Feedback vs. L\u00e4nge\n",
+    "# ## Feedback vs. Länge\n",
    "# "
   ]
  },
@@ -1529,7 +1535,7 @@
    "plt.rcParams['figure.figsize'] = (12, 7)\n",
    "\n",
    "sns.stripplot(alexa['feedback'], alexa['length'], palette = 'ocean')\n",
-                "plt.title(\"Feedback vs. L\u00e4nge\")\n",
+    "plt.title(\"Feedback vs. Länge\")\n",
    "plt.show()"
   ]
  },
@@ -1600,7 +1606,7 @@
    }
   ],
   "source": [
-                "# CountVectorizer zeigt die am h\u00e4ufigsten verwendeten W\u00f6rter\n",
+    "# CountVectorizer zeigt die am häufigsten verwendeten Wörter\n",
    "\n",
    "cv = CountVectorizer(stop_words = 'english')\n",
    "words = cv.fit_transform(alexa.verified_reviews)\n",
@@ -1612,7 +1618,7 @@
    "\n",
    "color = plt.cm.ocean(np.linspace(0, 1, 20))\n",
    "frequency.head(20).plot(x='word', y='freq', kind='bar', figsize=(15, 6), color=color)\n",
-                "plt.title(\"Die meist verwendeten W\u00f6rter - Top 20\")\n",
+    "plt.title(\"Die meist verwendeten Wörter - Top 20\")\n",
    "plt.show()"
   ]
  },
@@ -1633,7 +1639,7 @@
    }
   ],
   "source": [
-                "#Visualisiert die meist verwendeten W\u00f6rter\n",
+    "#Visualisiert die meist verwendeten Wörter\n",
    "\n",
    "wordcloud = WordCloud(background_color = 'lightcyan', width = 2000, height = 2000).generate_from_frequencies(dict(words_freq))\n",
    "\n",
@@ -1641,7 +1647,7 @@
    "plt.figure(figsize=(10, 10))\n",
    "plt.axis('off')\n",
    "plt.imshow(wordcloud)\n",
-                "plt.title(\"Verwendete W\u00f6rter\", fontsize = 20)\n",
+    "plt.title(\"Verwendete Wörter\", fontsize = 20)\n",
    "plt.show()"
   ]
  },
@@ -1817,7 +1823,7 @@
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
-                            "<p>3150 rows \u00d7 6 columns</p>\n",
+       "<p>3150 rows × 6 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
@@ -4624,11 +4630,12 @@
  }
 ],
 "metadata": {
+  "category": "CRM",
  "interpreter": {
   "hash": "d8ad938b111551bd971540a987a9651c3040c84fd74b784460cb61a1a48b653c"
  },
  "kernelspec": {
-            "display_name": "Python 3.8.9 64-bit ('venv': venv)",
+   "display_name": "Python 3 (ipykernel)",
   "language": "python",
   "name": "python3"
  },
@@ -4642,12 +4649,10 @@
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
-            "version": "3.8.9"
+   "version": "3.12.3"
  },
-        "orig_nbformat": 4,
+  "title": "Sentiment analysis on amazon alexa reviews"
-        "title": "Sentiment analysis on amazon alexa reviews",
-        "category": "CRM"
 },
 "nbformat": 4,
-    "nbformat_minor": 2
+ "nbformat_minor": 4
 }