diff --git a/DCProject.Rmd b/DCProject.Rmd index c48d5698afa503a6111590f551f0c1e7f80f1ea7..1164d79460e12ba5c1a27f8a27744b3f841abcec 100644 --- a/DCProject.Rmd +++ b/DCProject.Rmd @@ -184,16 +184,92 @@ Es können verschieden Datenvormate eingelesen werden z.B CSV, XLSX ## Datenanalyse -Hier ist uner tatsächlicher Datensatz: +*Information: Die hier dargestellten Tabellen beinhalten zur Veranschaulichung jeweils nur die ersten 10 Zeilen. Unser Datensatz besteht aus 24 Zeilen.* + +Hier ist uner tatsächlicher Datensatz aus der Excel-Datei: ```{r} -print(data) +kable(head(data, 10)) ``` ### Eigenschaften der Daten +Nun können wir Eigenschaften wie Mittelwert, Meidan, Varianz und die Standartabweichung berechnen. +Dazu nutzen wir die 8. und 9. Spalte. Diese enthalten die gesamte Anzahl der Männlichen und Weiblichen Student:innen der +Jahre: + +```{r} +selected_data <- data[ ,8:9] +kable(head(selected_data, 10)) +``` + +Wir teilen die Daten in männlich und weiblich. Zusätzlich werden die Spalten etwas konvertiert: +```{r} +data_male <- as.numeric(unlist(selected_data[-1 ,1])) +data_female <- as.numeric(unlist(selected_data[-1 ,2])) +``` + +Und Berechnen: +```{r} +print(paste("Median male: ", median(data_male), "Median female: ", median(data_female))) +print(paste("Varianz male: ", var(data_male), "Varianz female: ", var(data_female))) +print(paste("Std. Abweichung male: ", sd(data_male), "Std. Abweichung female: ", sd(data_female))) +``` + ### Hypothesentest +In der Datenbasis haben wir 2 Hypothesen aufgestellt: + +* Die Anzahl der Ausländischen Studenten in Deutschland hat sich seit dem WS 00/01 verdoppelt. +* Der %-Anteil an studierenden Frauen (insgesamt) gegenüber studierenden Männern (insgesamt) hat sich seit dem WS 98/99 stetig erhöht. + +Für die erste Hypothese müssen wir ledeglich die Summe der Ausländischen Student:innen vom Wintersemester 2000 mit dem aktuellstem Wintersemester vergleichen und schauen, ob der Wert vom Aktuellen Semester größer oder gleich doppelt so groß ist wie vom altem Wintersemester: + +```{r} +old_ws <- as.numeric(data[2,7]) +new_ws <- as.numeric(data[25,7]) + +faktor <- 2 +old_ws_double <- old_ws * faktor + +print(paste("Stimmt es, dass die Anzahl an ausländischen Student:innen sich seid dem WS 2000 mindestens verdoppelt hat: ", new_ws >= old_ws_double)) +``` + +Für die 2. Hypothese können wir die Lineare Regression und die Koeffizienz berechnen. + +```{r} +daten <- data.frame( + Jahr = c(1998:2021), + Frauen = c(as.numeric(unlist(data[-1 ,9]))), + Männer = c(as.numeric(unlist(data[-1 ,8]))) +) + +daten$Frauen_Anteil <- daten$Frauen / (daten$Frauen + daten$Männer) * 100 +daten$Männer_Anteil <- daten$Männer / (daten$Frauen + daten$Männer) * 100 + +trend_f <- lm(Frauen_Anteil ~ Jahr, data = daten) +trend_m <- lm(Männer_Anteil ~ Jahr, data = daten) + +print(coef(trend_f)) +print(coef(trend_m)) + +``` ## Ergebnispräsentation +In der Datenanalyse haben wir bei der 2. Hypothese geschaut, ob die Anzahl an Frauen im vergleich zu Männern stetig erhöt hat. Hierzu eine Visualisierung: +```{r} +plot(daten$Jahr, daten$Frauen_Anteil, xlab = "Jahr", ylab = "% Anteil Frauen", main = "Trend der Frauenanteile") + +abline(trend_f, col = "red") +``` + +```{r} +plot(daten$Jahr, daten$Männer_Anteil, xlab = "Jahr", ylab = "% Anteil Männer", main = "Trend der Männeranteile") + +abline(trend_m, col = "blue") +``` + +Wie man sieht ist es tatsächlich so, dass der Frauenanteil stetig gestiegen ist, im vergleich zum Männeranteil. + + ## Teaminfos Wer hat was erstellt/implementiert: