diff --git a/Neu/Sentiment/notebook.ipynb b/Neu/Sentiment/notebook.ipynb index 46ce449911d4c256508f7cfd9e7ebdd881389b2e..52940e9b69560ad6c4bea815d34762eba256d0d3 100644 --- a/Neu/Sentiment/notebook.ipynb +++ b/Neu/Sentiment/notebook.ipynb @@ -7,6 +7,198 @@ "# Twitter Sentiment Analysis for Tweets directed to airlines" ] }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Title" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "editable": true, + "include": true, + "paragraph": "BusinessUnderstanding", + "slideshow": { + "slidetype": "" + }, + "tags": [ + "Title" + ] + }, + "source": [ + "Stimmungsanalyse der Tweets an Fluggesellschaften" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Teaser" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "editable": true, + "include": true, + "paragraph": "BusinessUnderstanding", + "slideshow": { + "slidetype": "" + }, + "tags": [ + "Teaser" + ] + }, + "source": [ + "In diesem Notebook geht es um die Sentiment-Analyse für Fluggesellschaften durch die Auswertung von Tweets. Diese Analyse liefert wertvolle Erkenntnisse über die Kundenwahrnehmung, ermöglicht eine gezielte Verbesserung des Markenimages und stärkt die Wettbewerbsposition. Mit präzisen Modellen und sorgfältiger Datenanalyse können Unternehmen schnell auf Kundenfeedback reagieren, ihre Servicequalität steigern und die ihre Effizienz steigern. Durch diese Technologie, wird versucht die Kundenbindung zu erhöhen und neue Standards für die Passagiere der Fluggesellschaften zu setzen." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Business" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "editable": true, + "include": true, + "paragraph": "BusinessUnderstanding", + "slideshow": { + "slidetype": "" + }, + "tags": [ + "Business" + ] + }, + "source": [ + "Die Sentiment-Analyse von Tweets bietet Fluggesellschaften Einblicke in die Wahrnehmung ihrer Dienstleistungen durch die Kunden. Diese Erkenntnisse können genutzt werden, um die Kundenzufriedenheit zu erhöhen, das Markenimage zu verbessern, Wettbewerbsvorteile zu erzielen und die Effizienz des Betriebs zu steigern. Unternehmen die schnell auf diese Tweets reagieren können auf die Wünsche der Kunden umgehend eingehen." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Daten" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "editable": true, + "include": true, + "paragraph": "BusinessUnderstanding", + "slideshow": { + "slidetype": "" + }, + "tags": [ + "Daten" + ] + }, + "source": [ + "Der Datensatz enthält Tweets, die an verschiedene Fluggesellschaften gerichtet sind. Das Ziel dieser Analyse ist es, die Stimmung (positiv, neutral oder negativ) der Tweets basierend auf ihrem Inhalt zu klassifizieren. Die Daten haben drei Zielvariable, positiv, neutral und negativ, die Auskunft darüber geben, wie die Stimmung des Tweets eingestuft wurde. Die Merkmale der Tweets umfassen sowohl numerische Variablen (z.B. Anzahl der Retweets) als auch kategoriale Variablen (z.B. Fluggesellschaft, Grund für negative Stimmung).Durch die Analyse dieser Daten können Fluggesellschaften wertvolle Einblicke in die Kundenzufriedenheit und -wahrnehmung gewinnen. " + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Datenvorbereitung" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "editable": true, + "include": true, + "paragraph": "BusinessUnderstanding", + "slideshow": { + "slidetype": "" + }, + "tags": [ + "Datenvorbereitung" + ] + }, + "source": [ + "Die Datenvorbereitung beginnt mit dem Laden der Tweets aus einer CSV-Datei, wobei nur die Spalten airlines entiment und text ausgewählt werden. Zunächst werden Duplikate entfernt, um sicherzustellen, dass jeder Tweet nur einmal analysiert wird. Nun werden Sonderzeichen entfernt. Der Text wird in Kleinbuchstaben umgewandelt, um die Konsistenz zu gewährleisten. Anschließend werden Stoppwörter entfernt. Jedes Wort wird dann lemmatisiert, was bedeutet, dass es auf seine Grundform reduziert wird, um verschiedene Flexionsformen eines Wortes zu vereinheitlichen. Der bereinigte Text wird dann in numerische Merkmale umgewandelt. Schließlich werden die Daten in Trainings- und Testsets aufgeteilt, um die Modelle trainieren und evaluieren zu können. Der Trainingsdatensatz wird verwendet, um die Modelle zu trainieren, während der Testdatensatz zur Bewertung der Modellleistung dient. Diese sorgfältige Datenvorbereitung stellt sicher, dass die Tweets in einer Form vorliegen, die für die Sentiment-Analyse optimal geeignet ist." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Datenmodell" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "editable": true, + "include": true, + "paragraph": "BusinessUnderstanding", + "slideshow": { + "slidetype": "" + }, + "tags": [ + "Datenmodell" + ] + }, + "source": [ + "Es wurden verschiedene Datenmodelle verwendet darunter Naive Bayes, Logistic Regression, Support Vector Machine (SVM) und Decision Tree, etc. Die Modelle wurden sowohl mit TF-IDF-Vektorisierung als auch mit CountVectorizer angewendet." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Evaluation" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "editable": true, + "include": true, + "paragraph": "BusinessUnderstanding", + "slideshow": { + "slidetype": "" + }, + "tags": [ + "Evaluation" + ] + }, + "source": [ + "Die Ergebnisse der verschiedenen Modelle zur Klassifizierung von Airline-Sentiments zeigen eine Anzahl verschiedener Ergebnisse je nach gewähltem Algorithmus und Vektorisierungsverfahren. Bei der Lemmatisierung der Textdaten erzielten die Modelle mit CountVectorizer tendenziell bessere Ergebnisse als mit TF-IDF-Vektorisierung. Insgesamt variieren die Leistungen der Modelle je nach Kombination von Algorithmus und Vektorisierungsverfahren. Logistic Regression und SVM mit CountVectorizer zeigten die konsistent besten Ergebnisse in Bezug auf Genauigkeit und F1-Score, während Naive Bayes und Decision Trees nicht so gut abgeschnitten haben jedoch eine Alternative darstellen. Die Wahl zwischen TF-IDF und CountVectorizer hängt von den spezifischen Merkmalen der Daten und den Leistungszielen ab." + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Umsetzung" + ] + }, + { + "cell_type": "markdown", + "metadata": { + "editable": true, + "include": true, + "paragraph": "BusinessUnderstanding", + "slideshow": { + "slidetype": "" + }, + "tags": [ + "Umsetzung" + ] + }, + "source": [ + "Die Sentiment-Analyse könnte in ein Crm-System eingebunden werden um schnelles Feedback der Kunden an die Firma zu regenerieren. Darüber können sehr schnell Anpassungen vorgenommen werden und die Kundenzufriedenheit gesteigert werden. " + ] + }, { "cell_type": "markdown", "metadata": {}, @@ -3534,9 +3726,12 @@ "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", - "version": "3.11.5" - } + "version": "3.7.4" + }, + "tags": [ + "Teaser" + ] }, "nbformat": 4, - "nbformat_minor": 2 + "nbformat_minor": 4 }