@@ -46,7 +46,7 @@ Der Datensatz umfasst 20.343 Einträge und enthält verschiedene Informationen z
...
@@ -46,7 +46,7 @@ Der Datensatz umfasst 20.343 Einträge und enthält verschiedene Informationen z
Diese Spalten bieten eine breite Palette von Informationen über die charakteristischen Merkmale, Bewertungen und Eigenschaften der aufgeführten Brettspiele im Datensatz. Die Daten können für Analysen und Erkenntnisse im Bereich der Brettspielindustrie sowie für die Beurteilung von Präferenzen und Trends unter den Spielern verwendet werden.
Diese Spalten bieten eine breite Palette von Informationen über die charakteristischen Merkmale, Bewertungen und Eigenschaften der aufgeführten Brettspiele im Datensatz. Die Daten können für Analysen und Erkenntnisse im Bereich der Brettspielindustrie sowie für die Beurteilung von Präferenzen und Trends unter den Spielern verwendet werden.
### Hypothesen
### Hypothesen
Wir formulieren zwei Hypothesen, die wir im "Datenanalyse"-Abschnitt testen werden.
Wir haben zwei Hypothesen formuliert, die wir im "Datenanalyse"-Abschnitt testen werden.
**Hypothese 1:** Spiele mit höheren Complexity Score haben niedriger anzahl von Owned Users.
**Hypothese 1:** Spiele mit höheren Complexity Score haben niedriger anzahl von Owned Users.
...
@@ -63,7 +63,7 @@ des Datenfiles kommen verschiedene Einlese-Befehle zur Anwendung. Es können u.a
...
@@ -63,7 +63,7 @@ des Datenfiles kommen verschiedene Einlese-Befehle zur Anwendung. Es können u.a
(.txt, .dat), Datenfiles (.csv) und Excel-Files eingelesen werden.
(.txt, .dat), Datenfiles (.csv) und Excel-Files eingelesen werden.
#### XLSX-Dateien in R importieren
#### XLSX-Dateien in R importieren
In diesem Tutorial benutzen wir eine .xlsx Datei, die wir einlesen müssen. XLSX-Dateien lassen sich aus Excel heraus speichern und sind heutzutage weit verbreitet. Wir lesen hier die Datei "bgg_dataset.xlsx" mit dem Befehl read_excel in den Dataframe data_xlsx ein.
In diesem Tutorial benutzen wir eine .xlsx Datei, die wir einlesen müssen. XLSX-Dateien lassen sich aus Excel heraus speichern und sind heutzutage weit verbreitet.
Für diese Aufgabe bietet sich das readxl-Paket an, das am einfachsten mit den folgenden Befehlen installiert und geladen wird:
Für diese Aufgabe bietet sich das readxl-Paket an, das am einfachsten mit den folgenden Befehlen installiert und geladen wird:
...
@@ -72,15 +72,15 @@ install.packages("readxl")
...
@@ -72,15 +72,15 @@ install.packages("readxl")
library (readxl)
library (readxl)
```
```
Wie du sehen kannst, ist der Package schonmal installiert und wird verwendet, deswegen lässt R nicht zu, dass es wieder installiert wird.
Der Package ist schonmal installiert und wird verwendet, deswegen lässt R nicht zu, dass es wieder installiert wird.
Leider funktioniert diese Funktion in diesem Dokument nicht, aber keine Sorge, wir haben Sie im Hintergrund genauso wie hier benutzt.
Aufgrund der Arbeitsverzeichnis funktioniert leider diese Funktion in diesem Dokument nicht, aber keine Sorge, wir haben sie im Hintergrund genauso wie hier benutzt.
Wir können jetzt unsere Daten benutzen:
Wir können jetzt unsere Daten benutzen:
...
@@ -88,14 +88,14 @@ Wir können jetzt unsere Daten benutzen:
...
@@ -88,14 +88,14 @@ Wir können jetzt unsere Daten benutzen:
gameData
gameData
```
```
Nur eine Spalte aus dem Datensatz lässt sich wie folgt lesen:
Wir werden aber häufig nicht mit dem gesamten Datensatz arbeiten, sondern nur mit einigen Spalten. Nur eine Spalte aus dem Datensatz lässt sich wie folgt lesen:
```{r read-column, exercise=TRUE}
```{r read-column, exercise=TRUE}
gameData$`Year Published`
gameData$`Year Published`
```
```
#### Zeit zum üben!
#### Zeit zum üben!
Schreiben Sie den Code, um die Spalte `Mechanics`zu lesen:
Schreiben Sie den Code, um die Spalte `Mechanics`zu lesen:
```{r read-mechanics-column, exercise=TRUE}
```{r read-mechanics-column, exercise=TRUE}
...
@@ -105,7 +105,7 @@ gameData$`Mechanics`
...
@@ -105,7 +105,7 @@ gameData$`Mechanics`
```
```
Wie Sie weitere Dateientypen einlesen und benutzen kannst, finden Sie in diesem [Tutorial von Björn Walther](https://bjoernwalther.com/daten-in-r-importieren/).
*Wie Sie weitere Dateientypen einlesen und benutzen kannst, finden Sie in diesem [Tutorial von Björn Walther](https://bjoernwalther.com/daten-in-r-importieren/)*
### Leerstellen beheben
### Leerstellen beheben
...
@@ -129,7 +129,7 @@ In unserem Dataset scheint alles gut zu sein, deswegen haben wir keine Änderung
...
@@ -129,7 +129,7 @@ In unserem Dataset scheint alles gut zu sein, deswegen haben wir keine Änderung
### Inkonsistenzen beheben
### Inkonsistenzen beheben
Das Beheben von Leerstellen in R Studio erfordert spezifische Schritte, die je nach Art der Daten und der Art der Probleme variieren können.
In einem Datensatz beziehen sich Inkonsistenzen auf Unstimmigkeiten, Widersprüche oder Fehler, die in den Daten vorhanden sind und möglicherweise die Qualität der Daten beeinträchtigen. Die unterstehende Befehle helfen uns, diese zu Inkonsistenzen zu beheben.
Dieser Befehl ersetzt fehlende Werte durch der Median der vorhandenen Werten in der Spalte.
Dieser Befehl ersetzt fehlende Werte durch der Median der vorhandenen Werten in der Spalte. Was der Median ist, finden Sie in dem nächsten Abschnitt über Datenanalyse.
#### Entfernen von Duplikaten
#### Entfernen von Duplikaten
Dieser Befehl entfernt Duplikaten basierend auf allen Spalten.
Wir haben aber in unserem Datensatz keine Duplikaten. \
Zum Veranschaulichen, benutzen wir ein Vector.
```{r remove-duplicates, exercise=TRUE}
```{r remove-duplicates, exercise=TRUE}
gameData <- unique(gameData)
vector <- c(1, 2, 3, 3, 5, 2, 1, 7, 10, 5)
vector <- unique(vector)
vector
```
```
Dieser Befehl entfernt Duplikaten basierend auf allen Spalten.
So werden die Duplikate aus dem Datensatz entfernt.
Wir haben aber in unserem Datensatz keine Duplikaten.
Dieser Befehl entfernt Sonderzeichen in der Spalte "Mechanics".
Dieser Befehl entfernt Sonderzeichen in der Spalte "Mechanics". In diesem Fall sind Characters, die nicht eine Buchstabe oder Ziffer sind, entfernt worden (auch die Kommas).
#### Notice
Diese Beispiele sind allgemeiner Natur, und Sie sollten sie an Ihre spezifischen Daten und Probleme anpassen. Inkonsistenzen und Leerstellen können in verschiedenen Formen auftreten, und es ist wichtig, die geeigneten Methoden für Ihre speziellen Daten anzuwenden. Beachten Sie auch, dass Datenbereinigung oft datenabhängig ist, und eine gründliche Analyse der Daten ist vor der Bereinigung ratsam.
Diese Beispiele sind allgemeiner Natur, und Sie sollten sie an Ihre spezifischen Daten und Probleme anpassen. Inkonsistenzen und Leerstellen können in verschiedenen Formen auftreten, und es ist wichtig, die geeigneten Methoden für Ihre speziellen Daten anzuwenden. Beachten Sie auch, dass Datenbereinigung oft datenabhängig ist, und eine gründliche Analyse der Daten ist vor der Bereinigung ratsam.