diff --git a/Rating/Accommodation rating/notebook.ipynb b/Rating/Accommodation rating/notebook.ipynb index e89b062f384902d468cff9c668fe227db306d1c5..95f0a58f7505707b35d2e84ba511fad499ec97b9 100644 --- a/Rating/Accommodation rating/notebook.ipynb +++ b/Rating/Accommodation rating/notebook.ipynb @@ -6,23 +6,23 @@ "source": [ "# 1. Business Understanding\n", "\n", - "Hosts can set a price for accommodations. However, hosts often do not know the value for the accommodation they provide themselves. It would be helpful if Airbnb Inc. could calculate and suggest a price for accommodations that is in line with the market. The possibility of automated price calculation is examined in more detail in this case study. It is analyzed whether the provision of intelligent pricing on the part of Airbnb Inc. is possible. In the analysis, the features of an accommodation are analyzed and it is determined which features have an influence on the price of an accommodation. In this way, it should be possible to make as good a price prediction as possible for accommodations that are posted in the future." + "Gastgeber können einen Preis für die Unterkunft festlegen. Allerdings wissen die Gastgeber oft nicht, welchen Wert die von ihnen angebotene Unterkunft hat. Es wäre hilfreich, wenn Airbnb Inc. einen marktgerechten Preis für Unterkünfte berechnen und vorschlagen könnte. Die Möglichkeit einer automatischen Preisberechnung wird in dieser Fallstudie näher untersucht. Es wird analysiert, ob die Bereitstellung einer intelligenten Preisgestaltung seitens Airbnb Inc. möglich ist. In der Analyse werden die Merkmale einer Unterkunft analysiert und es wird ermittelt, welche Merkmale einen Einfluss auf den Preis einer Unterkunft haben. Auf diese Weise soll eine möglichst gute Preisvorhersage für Unterkünfte, die in der Zukunft gebucht werden, getroffen werden können." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "# 2. Data and Data Understanding\n", + "# 2. Data Understanding\n", "\n", - "The Data Understanding section is divided into an all-encompassing review of the data set, followed by an exploratory data analysis that focuses on relevant features. The features are evaluated in terms of their viability and feature selection takes place. The Airbnb-Berlin dataset consists of 16 columns and 22552 rows. The 16 columns contain the features. The data types of the features are seven Integers, five Objects (of which four are Strings and one is Date), and four Floats. " + "Der Abschnitt Datenverständnis gliedert sich in einen umfassenden Überblick über den Datensatz, gefolgt von einer explorativen Datenanalyse, die sich auf relevante Merkmale konzentriert. Die Merkmale werden auf ihre Tauglichkeit hin bewertet und es erfolgt eine Merkmalsauswahl. Der Airbnb-Berlin-Datensatz besteht aus 16 Spalten und 22552 Zeilen. Die 16 Spalten enthalten die Merkmale. Die Datentypen der Merkmale sind sieben Integer, fünf Objects (davon vier Strings und ein Date) und vier Floats. " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "## 2.1 Import the required modules" + "## 2.1 Bibliotheken importieren" ] }, { @@ -62,7 +62,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "## 2.2 Read data" + "## 2.2 Daten auslesen" ] }, { @@ -392,7 +392,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "## 2.3 Descriptive Analytics" + "## 2.3 Deskriptive Analyse" ] }, { @@ -735,9 +735,9 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### Exploratory data analysis\n", + "### Explorative Datenanalyse\n", "\n", - "In this chapter, analyses and visualizations of the available data are made." + "In diesem Kapitel werden Analysen und Visualisierungen der verfügbaren Daten vorgenommen." ] }, { @@ -810,7 +810,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### Viewing: Numeric features and date" + "### Viewing: Numerische Merkmale und Datum" ] }, { @@ -1007,7 +1007,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### Consideration: Categorical variables" + "### Consideration: Kategorische Variablen" ] }, { @@ -1023,7 +1023,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "#### Viewing: neighbourhood_group and price" + "#### Viewing: neighbourhood_group und Preis" ] }, { @@ -1315,7 +1315,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### Viewing: neighbourhood and price" + "### Viewing: Viertel und Preis" ] }, { @@ -1410,7 +1410,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### Viewing: room_type and neughborhood_group" + "### Viewing: room_type und neughborhood_group" ] }, { @@ -1631,16 +1631,16 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "## 2.4 Data Cleaning\n", + "## 2.4 Datenbereinigung\n", "\n", - "The first read errors should be corrected here, before the actual data preparation." + "Hier sollten die ersten Lesefehler korrigiert werden, bevor die eigentliche Datenaufbereitung erfolgt." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "### Missing Values" + "### Fehlende Werte" ] }, { @@ -2012,7 +2012,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### check duplicates" + "### Duplikate prüfen" ] }, { @@ -2052,7 +2052,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### Wrong values" + "### Falsche Werte" ] }, { @@ -2535,7 +2535,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### Implementation: Iterative feature selection" + "### Implementierung: Iterative Merkmalsauswahl" ] }, { @@ -2815,7 +2815,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### Outlier " + "### Ausreißer " ] }, { @@ -2832,7 +2832,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "#### price" + "#### Preis" ] }, { @@ -3427,7 +3427,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "## 3.1 Reset the index" + "## 3.1 Index zurücksetzen" ] }, { @@ -3784,14 +3784,14 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "## 3.2 Checking OLS Assumptions" + "## 3.2 Überprüfung der OLS-Annahmen" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "### 3.2.1 Assumption linearity" + "### 3.2.1 Annahme der Linearität" ] }, { @@ -4138,7 +4138,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### 3.2.2 Assumption \"No multicollinearity\"" + "### 3.2.2 Annahme \"Keine Multikollinearität\"" ] }, { @@ -4415,7 +4415,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "## 3.3 create dummy variables" + "## 3.3 Dummy-Variablen erstellen" ] }, { @@ -5058,16 +5058,16 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "# 4. Modeling and Evaluation\n", + "# 4. Modellierung und Evaluation\n", "\n", - "Residuals provide information on how accurately the dependent variable can be estimated in a regression. They indicate how far the predicted value agrees with the actual value. The smaller the residual the better." + "Residuen geben Auskunft darüber, wie genau die abhängige Variable in einer Regression geschätzt werden kann. Sie geben an, wie weit der vorhergesagte Wert mit dem tatsächlichen Wert übereinstimmt. Je kleiner die Residuen sind, desto besser." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "## 4.1 Multiple Linear Regression" + "## 4.1 Multiple lineare Regression" ] }, { @@ -5084,7 +5084,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### Feature Skaling" + "### Feature Skalierung" ] }, { @@ -5102,7 +5102,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### Train Test Split (= prevents Overfitting) " + "### Train Test Split (= präsentiert Overfitting) " ] }, { @@ -5118,7 +5118,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### Production of Regression" + "### Produktion von Regression" ] }, { @@ -5474,7 +5474,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "#### R^2 value" + "#### R^2 wert" ] }, { @@ -5512,7 +5512,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "#### Mean Absolute Error" + "#### Mittlerer absoluter Fehler" ] }, { @@ -5547,7 +5547,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "#### Mean Squared Error" + "#### Mittlerer quadratischer Fehler" ] }, { @@ -5582,7 +5582,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "#### Predictions, Targets, Residuals, Difference% " + "#### Vorhersagen, Zielvorgaben, Residuen, Differenz% " ] }, { @@ -6223,7 +6223,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "#### fact values vs. prediction plotted" + "#### Faktenwerte vs. Vorhersage aufgezeichnet" ] }, { @@ -6443,7 +6443,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### Train Test Split (= prevents Overfitting) " + "### Train Test Split (= präsentiert Overfitting) " ] }, { @@ -6459,7 +6459,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### Production of Regression" + "### Produktion von Regression" ] }, { @@ -6597,7 +6597,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "#### Mean Absolute Error" + "#### Mittlerer absoluter Fehler" ] }, { @@ -6632,7 +6632,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "#### Mean Squared Error" + "#### Mittlerer quadratischer Fehler" ] }, { @@ -7268,7 +7268,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "## 4.3 Neural network with Keras" + "## 4.3 Neural network mit Keras" ] }, { @@ -7303,7 +7303,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### Feature Scaling" + "### Feature Skalierung" ] }, { @@ -7321,7 +7321,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### Train Test Split (= prevents Overfitting)" + "### Train Test Split (= verhindert Overfitting)" ] }, { @@ -7337,7 +7337,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### production of models" + "### Produktion der models" ] }, { diff --git a/Rating/Digital Valuation of Real Estate/notebook.ipynb b/Rating/Digital Valuation of Real Estate/notebook.ipynb index 45d04e0998f2a7e7d6d3d3fd8a767fcf08431cd7..85a169d0d68678324eeb01198817d78ff878b406 100644 --- a/Rating/Digital Valuation of Real Estate/notebook.ipynb +++ b/Rating/Digital Valuation of Real Estate/notebook.ipynb @@ -7,23 +7,23 @@ "# 1. Business Understanding\n", "\n", "\n", - "Previously, the brokerage office had first had to acquire the landlords as customers and then have their rental properties evaluated by an appraiser. Subsequently, an exposé was created with the personal expertise of the brokers regarding the Stuttgart rental situation. Finally, suitable customers had to be found for the rental property. Now Dehner Immobilien GmbH wants to expand, but not to open a new office with additional brokers in every city. So the process step of valuation and customer acquisition is to be digitized. Therefore, the valuation of real estate will now be done via artificial intelligence. Here, a prospective customer can conveniently have a real estate property appraised without the need for an appraiser or an agent to visit the property on site. The subsequent creation of the exposés for the Germany-wide properties will also be carried out centrally from the headquarters in Stuttgart based on the valuation results. The central question is: How can optimal rental prices be predicted by ML in the context of real estate valuation?" + "Zuvor musste das Maklerbüro die Vermieter erst als Kunden gewinnen und deren Mietobjekte von einem Gutachter bewerten lassen. Anschließend wurde mit der persönlichen Expertise der Makler ein Exposé über die Stuttgarter Mietsituation erstellt. Schließlich mussten geeignete Kunden für die Mietobjekte gefunden werden. Nun will die Dehner Immobilien GmbH expandieren, aber nicht in jeder Stadt ein neues Büro mit zusätzlichen Maklern eröffnen. Deshalb soll der Prozessschritt der Bewertung und Kundenakquise digitalisiert werden. Deshalb soll die Bewertung von Immobilien nun über künstliche Intelligenz erfolgen. Hier kann ein Interessent bequem eine Immobilie bewerten lassen, ohne dass ein Gutachter oder ein Makler das Objekt vor Ort besichtigen muss. Die anschließende Erstellung der Exposés für die deutschlandweiten Objekte erfolgt ebenfalls zentral von der Zentrale in Stuttgart aus auf Basis der Bewertungsergebnisse. Die zentrale Frage lautet: Wie lassen sich mit ML im Rahmen der Immobilienbewertung optimale Mietpreise vorhersagen?" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "# 2. Data and Data Understanding\n", + "# 2. Data Understanding\n", "\n", - "The data was taken from Immoscout24, the largest real estate platform in Germany. Immoscout24 lists both rental and purchase properties. However, the data on which this paper is based only contains listings for rental properties. The dataset contains the most important properties. The dataset contains a total of 268,850 individual data, each with 49 variables. The 49 properties mapped here reflect the descriptive capabilities of Immobilienscout24. However, not all variables are suitable for use as predictors in multiple linear regression. Only data that have a direct correlation or impact on the rental price and can thus depict a pattern are suitable for this purpose. This excludes, for example, the type of heating or the internet connection strength. Therefore, the set of variables in the data preparation must be reduced to the properties relevant for the price prediction." + "Die Daten stammen von Immoscout24, der größten Immobilienplattform in Deutschland. Immoscout24 listet sowohl Miet- als auch Kaufobjekte. Die Daten, die dieser Arbeit zugrunde liegen, enthalten jedoch nur Angebote für Mietobjekte. Der Datensatz enthält die wichtigsten Objekte. Der Datensatz enthält insgesamt 268.850 Einzeldaten mit jeweils 49 Variablen. Die 49 hier abgebildeten Objekte spiegeln die Beschreibungsmöglichkeiten von Immobilienscout24 wider. Allerdings eignen sich nicht alle Variablen als Prädiktoren für eine multiple lineare Regression. Nur Daten, die einen direkten Zusammenhang oder Einfluss auf den Mietpreis haben und somit ein Muster abbilden können, sind dafür geeignet. Dies schließt zum Beispiel die Art der Heizung oder die Stärke der Internetverbindung aus. Daher muss die Menge der Variablen in der Datenaufbereitung auf die für die Preisvorhersage relevanten Eigenschaften reduziert werden." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "## 2.1 Import of Relevant Modules" + "## 2.1 Bibliotheken Importieren" ] }, { @@ -46,7 +46,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "## 2.2 Read Data" + "## 2.2 Auslesen der Daten" ] }, { @@ -334,7 +334,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "## 2.3 Explore the Data" + "## 2.3 Datenerkundung" ] }, { @@ -413,7 +413,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "## 2.4 Explore Descriptive Statistics" + "## 2.4 Deskriptive Statistik erkunden" ] }, { @@ -901,8 +901,8 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "## 2.5 Data Cleaning\n", - "Elimination of Data which does not fit for a price prediction model" + "## 2.5 Datenbereinigung\n", + "Eliminierung von Daten, die sich nicht für ein Preisvorhersagemodell eignen" ] }, { @@ -1343,7 +1343,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Elimination of some more data which does not fit in this model" + "Eliminierung einiger weiterer Daten, die nicht in dieses Modell passen" ] }, { @@ -1718,7 +1718,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Elimination of location data; zip code left!" + "Eliminierung der Standortdaten; zip code left!" ] }, { @@ -2029,14 +2029,14 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "## Missing Values" + "## Fehlende Werte" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "Elimination of Null-Values" + "Eliminierung von Null-Werten" ] }, { @@ -2344,14 +2344,14 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "## Double Values" + "## Doppelte Werte" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "Elimination of values which occur twice in the data set" + "Eliminierung von Werten, die zweimal im Datensatz vorkommen" ] }, { @@ -2981,7 +2981,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Examination of the distribtion of the remaining variables" + "Untersuchung der Verteilung der übrigen Variablen" ] }, { @@ -3028,7 +3028,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "## get rid of the Outliers" + "## Ausreißer eliminieren" ] }, { @@ -3245,14 +3245,14 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "## Wrong Values" + "## Falsche Werte" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "Clean the data from incorrect values" + "Bereinigung der Daten von falschen Werten" ] }, { @@ -3588,14 +3588,14 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "## Final Preperation" + "## Letzte Vorbereitungen" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "Check the remaining variables for the distribution of the data" + "Überprüfen Sie die übrigen Variablen auf die Verteilung der Daten" ] }, { @@ -3981,7 +3981,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### convert the boolean data into integer values" + "### die booleschen Daten in ganzzahlige Werte umwandeln" ] }, { @@ -4595,7 +4595,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Eliminate those variables that do not have a significant effect on the target variable." + "Eliminieren Sie diejenigen Variablen, die keinen signifikanten Einfluss auf die Zielvariable haben." ] }, { @@ -4792,16 +4792,16 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "## 3.1 OLS Assumptions" + "## 3.1 OLS-Annahmen" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "from the upper jointplots it can already be deduced that linearity is not guaranteed for all data.\n", + "Aus den oberen Jointplots lässt sich bereits ableiten, dass die Linearität nicht für alle Daten gewährleistet ist.\n", "\n", - "therefore the target variable is transformed via the logarithm to create linearity of the data." + "Daher wird die Zielvariable über den Logarithmus transformiert, um die Linearität der Daten herzustellen." ] }, { @@ -5036,7 +5036,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### Checking the effectiveness of the log transformation" + "### Überprüfung der Wirksamkeit der Log-Transformation" ] }, { @@ -5364,7 +5364,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "## 3.2 Assumption No Multicollinearity" + "## 3.2 Annahme Keine Multikollinearität" ] }, { @@ -5689,7 +5689,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "## 3.3 New Indexation" + "## 3.3 Neue Indexierung" ] }, { @@ -5747,7 +5747,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "## 3.4 Interrelationships of the final variables for modeling" + "## 3.4 Zusammenhänge der endgültigen Variablen für die Modellierung" ] }, { @@ -5788,9 +5788,9 @@ "source": [ "# 4. Modeling\n", "\n", - "## 4.1 Preparation of the modeling\n", + "## 4.1 Vorbereitung der Modellierung\n", "\n", - "Defining the target variables as \"targets\" and the predictors as \"inputs\"" + "Definition der Zielvariablen als \"Targets\" und der Prädiktoren als \"Inputs\"." ] }, { @@ -5807,8 +5807,8 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### Scale the data\n", - "Scale the data set with scikit learn StandardScaler" + "### Skalieren der Daten\n", + "Skalieren Sie den Datensatz mit scikit learn StandardScaler" ] }, { @@ -5828,9 +5828,9 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### Train Test Split\n", + "### Zug Test Split\n", "\n", - "Devide the sample in a train and test set. Define a random sample of 20% as test data with the state 365" + "Unterteilen Sie die Stichprobe in eine Trainings- und eine Testmenge. Definieren Sie eine Zufallsstichprobe von 20% als Testdaten mit dem Status 365" ] }, { @@ -5847,9 +5847,9 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "## 4.2 Create the regresion model\n", + "## 4.2 Erstellen des Regressionsmodells\n", "\n", - "Define the regression with test data and fit the model." + "Definieren Sie die Regression mit Testdaten und passen Sie das Modell an." ] }, { @@ -5878,7 +5878,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### Applying the regression model to the training data" + "### Anwendung des Regressionsmodells auf die Trainingsdaten" ] }, { @@ -5894,8 +5894,8 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### Evaluation of the training data model\n", - "Comparison of the predictions with the actual values (targets)" + "### Auswertung des Trainingsdatenmodells\n", + "Vergleich der Vorhersagen mit den tatsächlichen Werten (Zielen)" ] }, { @@ -5925,7 +5925,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Probability Distribution Function of the deviation of the predicted values" + "Wahrscheinlichkeitsverteilungsfunktion der Abweichung der vorhergesagten Werte" ] }, { @@ -5971,7 +5971,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "R squared as a quality measure of the model" + "R-Quadrat als Qualitätsmaß für das Modell" ] }, { @@ -6016,7 +6016,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Weighting of the predictors" + "Gewichtung der Prädiktoren" ] }, { @@ -6103,7 +6103,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### Applying the regression model to the test data" + "### Anwendung des Regressionsmodells auf die Testdaten" ] }, { @@ -6119,16 +6119,16 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "## 4.3 Evaluation\n", + "## 4.3 Auswertung\n", "\n", - "R squared as a quality measure of the model" + "R-Quadrat als Qualitätsmaß für das Modell" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "Assign a new indexing" + "Eine neue Indizierung zuweisen" ] }, { @@ -6180,7 +6180,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Mapping the predictions of the first 50 test data against the actual values (targets)." + "Zuordnung der Vorhersagen der ersten 50 Testdaten zu den tatsächlichen Werten (Zielvorgaben)." ] }, { @@ -6223,7 +6223,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Comparison of the predictions with the actual values (targets)" + "Vergleich der Vorhersagen mit den tatsächlichen Werten (Zielvorgaben)" ] }, { @@ -6253,7 +6253,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Show the predicted rental prices" + "Die voraussichtlichen Mietpreise anzeigen" ] }, { @@ -6333,7 +6333,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Contrast the predicted values with the real values" + "Vergleichen Sie die vorhergesagten Werte mit den tatsächlichen Werten" ] }, { @@ -6419,7 +6419,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Calculation of the absolute residuals" + "Berechnung der absoluten Restwerte" ] }, { @@ -6511,7 +6511,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Calculation of the relative residuals" + "Berechnung der relativen Residuen" ] }, { @@ -6609,7 +6609,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Descriptive statistics of predicted values, real values, their absolute residuals and ralative differences" + "Deskriptive Statistik der vorhergesagten Werte, der tatsächlichen Werte, ihrer absoluten Residuen und der relativen Differenzen" ] }, { diff --git a/Rating/What Quality does the Red wine have/notebook.ipynb b/Rating/What Quality does the Red wine have/notebook.ipynb index 6ab6010da3d06f0d89bd169f90fc1f525f7c4de8..ee7ee318d3bdb3a1dbb8e02c9d50b4fb559e9762 100644 --- a/Rating/What Quality does the Red wine have/notebook.ipynb +++ b/Rating/What Quality does the Red wine have/notebook.ipynb @@ -12,27 +12,27 @@ "metadata": {}, "source": [ "# 1. Business Understanding\n", - "A winery wants to make sure it always produces high Quality and tasty wine.\n", - "They employ professional wine tasters to test all new batches of wine.\n", - "These Professionals then rate the wine on a scale from 1 to 10.\n", - "But this process is expensive and subjective.\n", - "The wine manufactory would like to use a machine learning model in order to generate predictions about quality.\n", - "The ultimate goal is to develop a model \n", - "that automatically categorizes new wine batches based on its chemical attributes.\n" + "Eine Weinkellerei möchte sicherstellen, dass sie stets qualitativ hochwertigen und schmackhaften Wein produziert.\n", + "Sie beschäftigen professionelle Weinverkoster, die alle neuen Weinpartien testen.\n", + "Diese Fachleute bewerten den Wein dann auf einer Skala von 1 bis 10.\n", + "Dieses Verfahren ist jedoch teuer und subjektiv.\n", + "Die Weinmanufaktur möchte ein maschinelles Lernmodell einsetzen, um Vorhersagen über die Qualität zu treffen.\n", + "Das ultimative Ziel ist die Entwicklung eines Modells \n", + "zu entwickeln, das neue Weinpartien anhand ihrer chemischen Eigenschaften automatisch kategorisiert.\n" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "# 2. Data and Data Understanding " + "# 2. Data Understanding " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "## 2.1. Import of Relevant Modules" + "## 2.1. Bibliotheken Importieren" ] }, { @@ -66,7 +66,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "## 2.2. Read Data " + "## 2.2. Daten Auslesen" ] }, { @@ -89,13 +89,13 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### Data description\n", - "The dataset named \"Wine Quality Data Set\" has been extracted from the UCI website \n", - "and gives us real data for our wine manufactory. The data \n", - "were collected in 2009 and come from Northern Portugal. The data set has \n", - "entries for red and white wines. The dataset of the \n", - "red wines thus has 12 columns and 1600 entries. The columns are \n", - "named after the ingredients and the quality of a red wine in table 1. \n", + "### Datenbeschreibung\n", + "Der Datensatz mit dem Namen \"Wine Quality Data Set\" wurde der UCI-Website entnommen \n", + "entnommen und liefert uns reale Daten für unsere Weinmanufaktur. Die Daten \n", + "wurden im Jahr 2009 erhoben und stammen aus Nordportugal. Der Datensatz enthält \n", + "Einträge für Rot- und Weißweine. Der Datensatz für die \n", + "Rotweine hat also 12 Spalten und 1600 Einträge. Die Spalten sind \n", + "nach den Inhaltsstoffen und der Qualität eines Rotweins in Tabelle 1 benannt. \n", "\n", "| Feature | Data Type|\n", "|-----|------|\n", @@ -112,11 +112,11 @@ "|alcohol | float64 |\n", "|quality | int64 |\n", "\n", - "A red wine consists of water, alcohol and extracts. The exact \n", - "mixture of these 3 essential ingredients can make a red wine a real \n", - "a true pleasure. In my opinion, a good red wine contains \n", - "a high alcohol and sugar content. Whether my opinion about a good wine is true \n", - "is true, we can take a closer look in the next chapter.\n" + "Ein Rotwein besteht aus Wasser, Alkohol und Extrakten. Die genaue \n", + "Mischung dieser 3 wesentlichen Bestandteile kann einen Rotwein zu einem echten \n", + "ein wahrer Genuss. Meiner Meinung nach enthält ein guter Rotwein \n", + "einen hohen Alkohol- und Zuckergehalt. Ob meine Meinung über einen guten Wein richtig ist \n", + "wahr ist, können wir im nächsten Kapitel näher betrachten.\n" ] }, { @@ -364,14 +364,14 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "The data set has 1599 entries. The columns 'free sulfur dioxide' and 'total sulfur dioxide' have very high maximum values. In addition, we see that our target variable has the smallest value of 3 and the largest value of 8. Here we must consider whether the target variable must be divided into good and bad." + "Der Datensatz enthält 1599 Einträge. Die Spalten \"freies Schwefeldioxid\" und \"Gesamtschwefeldioxid\" haben sehr hohe Maximalwerte. Außerdem sehen wir, dass unsere Zielvariable den kleinsten Wert von 3 und den größten Wert von 8 hat. Hier müssen wir überlegen, ob die Zielvariable in gut und schlecht unterteilt werden muss." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "## 2.4 Data Cleaning" + "## 2.4 Datenbereinigung" ] }, { @@ -680,7 +680,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "There are duplicates in the dataset. But in this case we don't want to remove these, as they are actually different wine batches, that just happen to have the same chemical characteristics and the same quality. It wouldn't be bad, if the model specializes on the more common wines" + "Es gibt Duplikate in dem Datensatz. Aber in diesem Fall wollen wir diese nicht entfernen, da es sich eigentlich um verschiedene Weinpartien handelt, die zufällig die gleichen chemischen Eigenschaften und die gleiche Qualität haben. Es wäre nicht schlecht, wenn sich das Modell auf die häufigeren Weine spezialisieren würde" ] }, { @@ -737,7 +737,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "## 3.1 Remove Outliers" + "## 3.1 Ausreißer entfernen" ] }, { @@ -787,14 +787,14 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "With the histograms of all columns, we can now see at a glance how their values are distributed. It is noticeable that some features do not show a normal distribution and therefore have outliers in their values." + "Anhand der Histogramme aller Spalten können wir nun auf einen Blick sehen, wie deren Werte verteilt sind. Es fällt auf, dass einige Merkmale keine Normalverteilung aufweisen und daher Ausreißer in ihren Werten haben." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "Fixed Acidity" + "Fester Säuregehalt" ] }, { @@ -833,7 +833,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "The graph looks normally distributed, which is why the values remain in the first step" + "Das Diagramm sieht normalverteilt aus, deshalb bleiben die Werte im ersten Schritt" ] }, { @@ -1044,7 +1044,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Residual Sugar shows a lot of outliers in relation to the target variable. A part of the outliers is now removed to create a more accurate data picture." + "Residual Sugar zeigt viele Ausreißer in Bezug auf die Zielvariable. Ein Teil der Ausreißer wird nun entfernt, um ein genaueres Datenbild zu erhalten." ] }, { @@ -1138,7 +1138,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "There are still outliers to be seen, however these can still be changed after a first run of the model" + "Es sind noch Ausreißer zu sehen, die aber nach einem ersten Durchlauf des Modells noch verändert werden können" ] }, { @@ -1688,23 +1688,23 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "the greater the alcohol content in the wine, the better the wine is rated by the professionals" + "je höher der Alkoholgehalt des Weins ist, desto besser wird er von den Fachleuten bewertet" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "All features were cleaned up in the first step and can now be used for the model. \n", - "he target variable Quality will be split into good 1 and bad 0.\n", - "This changes the Problem from a Regression task to a (binary) categorization task" + "Alle Merkmale wurden im ersten Schritt bereinigt und können nun für das Modell verwendet werden. \n", + "ie Zielvariable Qualität wird in gut 1 und schlecht 0 aufgeteilt.\n", + "Dies ändert das Problem von einer Regressionsaufgabe zu einer (binären) Kategorisierungsaufgabe" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "## Transform the Targetvariable 'Quality' to binary Classification" + "## Umwandlung der Zielvariablen 'Qualität' in eine binäre Klassifikation" ] }, { @@ -2117,7 +2117,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "With the method quality_range() we have splitted the values of the column 'quality'. All values less than and equal to 5 got the value 0 (, indicating worse then average quality). All values 6 and greater got the value 1 (indicating above average quality)." + "Mit der Methode quality_range() haben wir die Werte der Spalte \"quality\" aufgeteilt. Alle Werte kleiner und gleich 5 erhielten den Wert 0 (, was auf eine schlechtere als durchschnittliche Qualität hinweist). Alle Werte von 6 und größer erhielten den Wert 1 (für überdurchschnittliche Qualität)." ] }, { @@ -2157,7 +2157,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "The Target variable is balanced" + "Die Zielvariable ist ausgeglichen" ] }, { @@ -2429,7 +2429,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "fixed acidity is dropped, as it highly correlates with pH" + "der feste Säuregehalt entfällt, da er stark mit dem pH-Wert korreliert" ] }, { @@ -2470,7 +2470,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "## 3.4. Create Test and Training Data " + "## 3.4. Test- und Trainingsdaten erstellen " ] }, { @@ -2486,14 +2486,14 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "# 4. Modelling and Evaluation" + "# 4. Modellierung und Bewertung" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "## 4.1. Scale and transform Data" + "## 4.1. Daten skalieren und transformieren" ] }, { @@ -2541,7 +2541,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "### Evaluation" + "### Evaluierung" ] }, { @@ -2775,7 +2775,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "## 3.3 Ein linear Regression" + "## 3. Lineare Regression" ] }, { @@ -3359,10 +3359,10 @@ "metadata": {}, "source": [ "## Deployment\n", - "To use this trained ML model, an API has to be created. \n", - "The goal is, that you can access the ML model with an API request over the internet. (Or your intranet) \n", - "The code for the deployment can be found here. https://github.com/Dustin-dusTir/ml-services-api \n", - "maybe there is still a live version of the api and the Frontend running." + "Um dieses trainierte ML-Modell zu nutzen, muss eine API erstellt werden. \n", + "Das Ziel ist, dass Sie mit einer API-Anfrage über das Internet auf das ML-Modell zugreifen können. (Oder Ihr Intranet) \n", + "Der Code für den Einsatz ist hier zu finden. https://github.com/Dustin-dusTir/ml-services-api \n", + "eventuell läuft dort noch eine Live-Version der API und des Frontends." ] }, { @@ -3370,11 +3370,11 @@ "id": "daa5810d", "metadata": {}, "source": [ - "When creating an API for a ML model, we dont want to train a new model everytime we want to deploy or redeploy the API Server.\n", - "thats why we need to export the ml model and save it.\n", + "Wenn wir eine API für ein ML-Modell erstellen, wollen wir nicht jedes Mal ein neues Modell trainieren, wenn wir den API-Server bereitstellen oder neu bereitstellen wollen.\n", + "Deshalb müssen wir das ML-Modell exportieren und speichern.\n", "\n", - "For this specific model wwe use the tensorflow functionallity to export the tensorflow model.\n", - "And we use the pickle module to save the data scaler to disk as well." + "Für dieses spezielle Modell verwenden wir die Tensorflow-Funktionalität, um das Tensorflow-Modell zu exportieren.\n", + "Und wir verwenden das Pickle-Modul, um den Datenskalierer auch auf der Festplatte zu speichern." ] }, {