DCProject.Rmd

title: "Tutorial Data Science"
author: |
  |Projektgruppe 01
  |Martin Hustoles
  |Marcel Kehrberg
  |Kevin Kirsten
date: "Abgabedatum: 03.07.2023"
output:
  learnr::tutorial:
    toc: true
    toc_depth: 1
    theme: cerulean

runtime: shiny_prerendered
library(learnr)
library(readxl)
library(knitr)
library(dplyr)


current_dir = getwd()
data <- read_excel(file.path(current_dir, "Datensatz.xlsx"))
daten_csv <- read.csv2("daten.csv", na="NA")

daten_csv <- read.csv2("C:/Dokumente/daten.csv", na="NA")

daten_csv <- read.csv2(file.choose(), na="NA")

na="NA" Dadruch werden fehlende Werte spezifiziert damit R diese nicht für Berechnungen verwendet

dec="," Dadurch wird das Trennzeichen für Dezimalzahlen festgelegt zum einlesen

sep=";" Dadurch wird das Trennzeichen das die Werte in einer Zeile Seperiert festgelegt zum einlesen
install.packages("readxl")

libary (readxl)
na="NA"
question("Jetzt bist du dran! Angenommen du möchtest eine .CSV Datei einlesen die im selben Arbeitsverzeichnis liegt, in der Dezimalzahlen mit einem . getrennt werden und fehlende Werte mit NA ausgefüllt werden sollen. Wie gehst du vor?",
  answer('daten_csv <- read.csv("daten.csv")'),
  answer('daten_csv <- read.csv2(file.choose(), na = "NA")'),
  answer('daten_csv <- read.csv("daten.csv", na = "NA")', correct = TRUE),
  answer('daten_csv <- read.csv2("daten.csv", na = "NA")')
)
gesaueberte_daten <- na.omit(daten)
colSums()

rowSums()

colMeans()

rowMeans()
narmtest <- read.csv("narmtest.csv", na="NA")
narmtest
rowSums(narmtest, na.rm = TRUE,)
kable(head(data,10))
question("Jetzt bist du dran! Wie müssten wir den Befehl umändern, um nur mit der Anzahl der Deutschen Männlichen und Weiblichen Studend:innen weiterzuarbeiten?",
  answer("selected_data <- data[3:2,])"),
  answer("selected_data <- data[5:9,]"),
  answer("selected_data <- data[ ,8:9]", correct = TRUE),
  answer("selected_data <- data[ ,1:2]")
)
#echo = FALSE, da dieses Statement ansonst ausgegeben wird. Das würde naehmlich keinen Sinn machen, da das Quiz genau dieses Statement abfragen soll
selected_data <- data[ ,8:9]
kable(head(selected_data, 10))
data_male <- as.numeric(unlist(selected_data[-1 ,1]))
data_female <- as.numeric(unlist(selected_data[-1 ,2]))
print(data_male)
print(paste("Mittelwert male: ", mean(data_male), "Mittelwert female: ", mean(data_female)))
print(paste("Median male: ", median(data_male), "Median female: ", median(data_female)))
print(paste("Varianz male: ", var(data_male), "Varianz female: ", var(data_female)))
print(paste("Std. Abweichung male: ", sd(data_male), "Std. Abweichung female: ", sd(data_female)))
old_ws <- as.numeric(data[2,7])
new_ws <- as.numeric(data[25,7])

faktor <- 2
old_ws_double <- old_ws * faktor

print(paste("Stimmt es, dass die Anzahl an ausländischen Student:innen sich seid dem WS 2000 mindestens verdoppelt hat: ", new_ws >= old_ws_double))
daten <- data.frame(
  Jahr = c(1998:2021),
  Frauen = c(as.numeric(unlist(data[2:25 ,9]))),
  Männer = c(as.numeric(unlist(data[2:25 ,8])))
)

kable(daten$Frauen)

daten$Frauen_Anteil <- daten$Frauen / (daten$Frauen + daten$Männer) * 100
daten$Männer_Anteil <- daten$Männer / (daten$Frauen + daten$Männer) * 100

trend_f <- lm(Frauen_Anteil ~ Jahr, data = daten)
trend_m <- lm(Männer_Anteil ~ Jahr, data = daten)

print(coef(trend_f))
print(coef(trend_m))

plot(daten$Jahr, daten$Frauen_Anteil, xlab = "Jahr", ylab = "% Anteil Frauen", main = "Trend der Frauenanteile")

abline(trend_f, col = "red")
plot(daten$Jahr, daten$Männer_Anteil, xlab = "Jahr", ylab = "% Anteil Männer", main = "Trend der Männeranteile")

abline(trend_m, col = "blue")