-
Lino Cortese authoredLino Cortese authored
title: "Data Science Tutorial"
output: learnr::tutorial
runtime: shiny_prerendered
library(learnr)
library(readxl)
library("ggplot2")
options(scipen = 10)
gameData <- read_excel("bgg_dataset.xlsx", sheet = "Sheet")
knitr::opts_chunk$set(echo = FALSE)
Datenbasis
Datenherkunft
In diesem Praktikum verwenden wir das Dataset "Board Games Analysis
Link zum Notebook auf Kaggle: https://www.kaggle.com/code/karnikakapoor/board-games-analysis
Link zum Datensatz auf Kaggle: https://www.kaggle.com/code/karnikakapoor/board-games-analysis/input
Inhalt
Der Originale Datensatz umfasst 20.343 Einträge und enthält verschiedene Informationen zu Brettspielen. Allerdings wurde der Datensatz für diese Übung auf 500 Einträge gekürzt. Hier sind die Spalten und ihre jeweiligen Inhalte:
ID: Eine eindeutige Identifikationsnummer für jedes Brettspiel im Datensatz.(Integer)
Name: Der Name des Brettspiels.(String)
Year: Das Jahr, in dem das Brettspiel veröffentlicht wurde.(Integer)
Published: Informationen über die Veröffentlichung des Spiels.(Integer)
Min Players: Die minimale Anzahl von Spielern, die das Spiel spielen können.(Integer)
Max Players: Die maximale Anzahl von Spielern, die das Spiel unterstützt.(Integer)
Play Time: Die durchschnittliche Spielzeit des Brettspiels.(Integer)
Min Age: Die empfohlene minimale Altersgruppe für Spieler des Spiels.(Integer)
Users Rated: Die Anzahl der Benutzer, die das Spiel bewertet haben.(Double)
Rating Average: Der durchschnittliche Bewertungswert des Spiels durch Benutzer.(Double)
BGG Rank: Die Rangposition des Spiels auf BoardGameGeek.(Integer)
Complexity Average: Der durchschnittliche Schwierigkeitsgrad des Spiels.(Double)
Owned Users: Die Anzahl der Benutzer, die das Spiel besitzen.(Integer)
Mechanics: Informationen über die Spielmechanismen, die im Brettspiel verwendet werden.(String)
Domains: Die Domänen oder Kategorien, zu denen das Brettspiel gehört.(String)\
Diese Spalten bieten eine breite Palette von Informationen über die charakteristischen Merkmale, Bewertungen und Eigenschaften der aufgeführten Brettspiele im Datensatz. Die Daten können für Analysen und Erkenntnisse im Bereich der Brettspielindustrie sowie für die Beurteilung von Präferenzen und Trends unter den Spielern verwendet werden.
Hypothesen
Wir haben zwei Hypothesen formuliert, die wir im "Datenanalyse"-Abschnitt testen werden.
Hypothese 1: Die durchschnittliche Spielzeit betraegt 30 minuten.
Hypothese 2: Pro Spiel haben 15000 leute eine Bewertung gegeben.
Datenaufbereitung
Einlesen von Daten
Um Datensätze mit R zu analysieren, müssen diese zuerst eingelesen werden. Je nach Struktur des Datenfiles kommen verschiedene Einlese-Befehle zur Anwendung. Es können u.a. Textfiles (.txt, .dat), Datenfiles (.csv) und Excel-Files eingelesen werden.
XLSX-Dateien in R importieren
In diesem Tutorial benutzen wir eine .xlsx Datei, die wir einlesen müssen. XLSX-Dateien lassen sich aus Excel heraus speichern und sind heutzutage weit verbreitet.
Für diese Aufgabe bietet sich das readxl-Paket an, das am einfachsten mit den folgenden Befehlen installiert und geladen wird: