Skip to Tutorial Content

Titelseite

Lernziel

Ziel dieses Tutorial ist es, ein interaktives Tool aufzubauen um einen Teil der in der Vorlesung vermittelten Inhalte zu vermitteln und gleichzeitig unsere Datenbasis passend aufzubereiten,zu analysieren und die Ergebnisse zu visualisieren.

Info

Modul: Data Science
Semester: SS23
Dozent: Uwe Kloos
Projektgruppe: 01
Gruppenmitglieder: Martin Hustoles, Marcel Kehrberg, Kevin Kirsten
Abgabedatum: 03.07.2023

Datenbasis

Datentabelle

Semester Deutsche Ausländer Insgesamt
männlich weiblich Insgesamt männlich weiblich Insgesamt männlich weiblich Insgesamt
WS 1998/99 907403 727254 1634657 92321 73673 165994 999724 800927 1800651
WS 1999/00 872178 723246 1595424 95460 79605 175065 967638 802851 1770489
WS 2000/01 870016 741820 1611836 99906 87121 187027 969922 828941 1798863
WS 2001/02 887462 774628 1662090 107831 98410 206241 995293 873038 1868331
WS 2002/03 903218 808567 1711785 117205 109821 227026 1020423 918388 1938811
WS 2003/04 935718 837611 1773329 125826 120310 246136 1061544 957921 2019465
WS 2004/05 901979 814795 1716774 124220 122114 246334 1026199 936909 1963108
WS 2005/06 912696 824712 1737408 124447 123910 248357 1037143 948622 1985765
WS 2006/07 909740 822934 1732674 122923 123446 246369 1032663 946380 1979043
WS 2007/08 898061 809738 1707799 116700 116906 233606 1014761 926644 1941405
WS 2008/09 938552 847612 1786164 119254 119889 239143 1057806 967501 2025307
WS 2009/10 984097 892306 1876403 122353 122422 244775 1106450 1014728 2121178
WS 2010/11 1031086 934176 1965262 126399 125633 252032 1157485 1059809 2217294
WS 2011/12 1122200 993482 2115682 133172 132120 265292 1255372 1125602 2380974
WS 2012/13 1171894 1045314 2217208 142123 140078 282201 1314017 1185392 2499409
WS 2013/14 1218965 1096566 2315531 152675 148675 301350 1371640 1245241 2616881
WS 2014/15 1245029 1132312 2377341 163505 158064 321569 1408534 1290376 2698910
WS 2015/16 1260203 1157291 2417494 173923 166382 340305 1434126 1323673 2757799
WS 2016/17 1269166 1178949 2448115 184459 174436 358895 1453625 1353385 2807010
WS 2017/18 1270098 1200297 2470395 194545 180038 374583 1464643 1380335 2844978
WS 2018/19 1258281 1215276 2473557 207697 186968 394665 1465978 1402244 2868222
WS 2019/20 1246852 1232596 2479448 218015 193586 411601 1464867 1426182 2891049
WS 2020/21 1253399 1274309 2527708 222967 193470 416437 1476366 1467779 2944145
WS 2021/22 1231256 1270095 2501351 235026 205538 440564 1466282 1475633 2941915

Anwendungsdomäne

Bildung.

Es kann eingesehen werden, wie viele Studierende jeweils in den Wintersemestern zwischen 98/99 und 21/22 an Deutschen Hochschulen/Universitäten eingeschrieben waren.

Es wird Unterteilt in Deutsche und Ausländische, sowie Männliche und Weibliche Student/Innen.

Man kann einsehen wie sich die Anzahl der Studierenden in Deutschland, sowie der Anteil an Deutschen/Ausländischen und Männlichen/Weiblichen Studend/Innen entwickelt hat.

Datenerhebung

Primärdaten des Statistischen Bundesamts. Vollerhebung. Zeitreihen.

Link zur Quelle: https://www-genesis.destatis.de/genesis/online?operation=table&code=21311-0001&bypass=true&levelindex=1&levelid=1680177866354#abreadcrumb

Beschreibung des Datensatzes

Merkmal Datentyp Merkmalsausprägung Klassifizierung Skalierung
Semester String Quantitativ Diskret Nominal
Deutsche/männlich Integer Quantitativ Diskret Metrisch
Deutsche/weiblich Integer Quantitativ Diskret Metrisch
Deutsche/Insgesamt Integer Quantitativ Diskret Metrisch
Ausländer/männlich Integer Quantitativ Diskret Metrisch
Ausländer/weiblich Integer Quantitativ Diskret Metrisch
Ausländer/insgesamt Integer Quantitativ Diskret Metrisch
Insgesamt/männlich Integer Quantitativ Diskret Metrisch
Insgesamt/weiblich Integer Quantitativ Diskret Metrisch
Insgesamt Integer Quantitativ Diskret Metrisch

Merkmalsträger: 24

Merkmale: 10

Größe des Datensatzes: 24 Zeilen und 10 Spalten

Hypothesen

  1. Die Anzahl der Ausländischen Studenten in Deutschland hat sich seit dem WS 00/01 verdoppelt.
  2. Der %-Anteil an studierenden Frauen (insgesamt) gegenüber studierenden Männern (insgesamt) hat sich seit dem WS 98/99 stetig erhöht.

Datenaufbereitung

Wie können Daten eingelesen werden

Es können verschieden Datenvormate eingelesen werden z.B CSV, XLSX

  1. Daten aus einer CSV-Datei einlesen

    es gibt zwei Funktionen zum einelesen einer CSV-Datei

    • read.csv wird verwendet wenn Dezimalzahlen mit eine Punkt “.” getrennt werden und Splaten durch ein Komma “,”.
    • read.csv2 wird verwendet wenn Dezimalzahlen durch eine Komma “,” getrennt werden und Spalten durch ein Semikolon “;”.

    In diesem Beispiel wird der dataframe daten.csv erstelt durch die datei mit dem Namen daten.csv zusätzlich werden dan Fehlende Werte na mit na=“NA”

    Wenn die Datei im Arbeitsverzeichnis ist

    daten_csv <- read.csv2("daten.csv", na="NA")
    

    Wenn die Datei auserhalb des Arbeitsverzeichnis ist

    daten_csv <- read.csv2("C:/Dokumente/daten.csv", na="NA")
    

    Wenn man den Pfand erst nach dem ausführen angeben will kann man auch

    daten_csv <- read.csv2(file.choose(), na="NA")
    

    nuzen dort wird nach dem ausführen ein Fenster geöfnet bei dem man die Datei dann im Explorer auswählen kann.

    An die read.csv bzw read.csv2 können noch weitere Parameter Hinzugefügt werden z.B.

    na="NA" Dadruch werden fehlende Werte spezifiziert damit R diese nicht für Berechnungen verwendet
    
    dec="," Dadurch wird das Trennzeichen für Dezimalzahlen festgelegt zum einlesen
    
    sep=";" Dadurch wird das Trennzeichen das die Werte in einer Zeile Seperiert festgelegt zum einlesen
  2. Daten für eine XLSX Datei einlesen

    Hier wird an stelle von read.csv bzw read.csv2 read_exel verwendet

    davor muss aber mit

    install.packages("readxl")
    

    Das benötigte Packert instalirt werden und mit

    libary (readxl)

    das Packet engebunden werden um die read Funktion verwenden zu können

    hier gibt es aber nicht die Argumente wie bei csv auser

    na="NA"

Wie können Inkosistenzen und Leerstellen behoben werden

Datenanalyse

Hier ist uner tatsächlicher Datensatz:

print(data)
## # A tibble: 31 × 10
##    Semester   Deutsche ...3    ...4  Ausländer ...6  ...7  Insgesamt ...9  ...10
##    <chr>      <chr>    <chr>   <chr> <chr>     <chr> <chr> <chr>     <chr> <chr>
##  1 <NA>       männlich weibli… Insg… männlich  weib… Insg… männlich  weib… Insg…
##  2 WS 1998/99 907403   727254  1634… 92321     73673 1659… 999724    8009… 1800…
##  3 WS 1999/00 872178   723246  1595… 95460     79605 1750… 967638    8028… 1770…
##  4 WS 2000/01 870016   741820  1611… 99906     87121 1870… 969922    8289… 1798…
##  5 WS 2001/02 887462   774628  1662… 107831    98410 2062… 995293    8730… 1868…
##  6 WS 2002/03 903218   808567  1711… 117205    1098… 2270… 1020423   9183… 1938…
##  7 WS 2003/04 935718   837611  1773… 125826    1203… 2461… 1061544   9579… 2019…
##  8 WS 2004/05 901979   814795  1716… 124220    1221… 2463… 1026199   9369… 1963…
##  9 WS 2005/06 912696   824712  1737… 124447    1239… 2483… 1037143   9486… 1985…
## 10 WS 2006/07 909740   822934  1732… 122923    1234… 2463… 1032663   9463… 1979…
## # ℹ 21 more rows

Eigenschaften der Daten

Hypothesentest

Ergebnispräsentation

Teaminfos

Wer hat was erstellt/implementiert:

Martin Hustoles: Datenanalyse, Ergebnispräsentation

Marcel Kehrberg: Datenaufbereitung

Kevin Kirsten: Layout, Titelseite, Datenbasis

Tutorial Data Science

|Projektgruppe 01
|Martin Hustoles
|Marcel Kehrberg
|Kevin Kirsten

Abgabedatum: 03.07.2023