Skip to content
Snippets Groups Projects
Commit 84e1f2a9 authored by Marcel's avatar Marcel
Browse files

Datenaufbereitung

parent ec63fb0a
No related branches found
No related tags found
No related merge requests found
Showing
with 278 additions and 1 deletion
......@@ -7,3 +7,6 @@ learnr::run_tutorial("Test1.Rmd")
```{r addition, exercise=TRUE}
rmarkdown::render("Test1.Rmd")
library(learnr)
install.packages(readxl)
install.packages("readxl")
library("readxl")
{
"sortOrder": [
{
"columnIndex": 2,
"ascending": true
}
],
"path": "F:/Dokumente/Schule/Studium/DS/Project"
}
\ No newline at end of file
{
"activeTab": 0
}
\ No newline at end of file
{
"left": {
"splitterpos": 398,
"topwindowstate": "NORMAL",
"panelheight": 959,
"windowheight": 997
},
"right": {
"splitterpos": 598,
"topwindowstate": "NORMAL",
"panelheight": 959,
"windowheight": 997
}
}
\ No newline at end of file
{
"TabSet1": 0,
"TabSet2": 0,
"TabZoom": {}
}
\ No newline at end of file
F:/Dokumente/Schule/Studium/DS/Project/DCProject.html
{"active_set":"","sets":[]}
\ No newline at end of file
{
"id": "07F1A6F7",
"path": "F:/Dokumente/Schule/Studium/DS/Project/DCProject.Rmd",
"project_path": "DCProject.Rmd",
"type": "r_markdown",
"hash": "1068266428",
"contents": "",
"dirty": false,
"created": 1688043194530.0,
"source_on_save": false,
"relative_order": 1,
"properties": {
"source_window_id": "",
"Source": "Source"
},
"folds": "",
"lastKnownWriteTime": 1688043158,
"encoding": "UTF-8",
"collab_server": "",
"source_window": "",
"last_content_update": 1688043158,
"read_only": false,
"read_only_alternatives": []
}
\ No newline at end of file
---
title: "Tutorial Data Science"
author: |
|Projektgruppe 01
|Martin Hustoles
|Marcel Kehrberg
|Kevin Kirsten
date: "Abgabedatum: 03.07.2023"
output:
learnr::tutorial:
toc: true
toc_depth: 1
theme: cerulean
runtime: shiny_prerendered
---
```{r setup, include=FALSE}
library(learnr)
```
## Titelseite
![](https://thedatascientist.com/wp-content/uploads/2019/06/what-is-data-science.jpg){width=800}
### Lernziel
Ziel dieses Tutorial ist es, ein interaktives Tool aufzubauen um einen Teil der in der Vorlesung vermittelten Inhalte zu vermitteln und gleichzeitig unsere Datenbasis passend aufzubereiten,zu analysieren und die Ergebnisse zu visualisieren.
### Info
Modul: Data Science
Semester: SS23
Dozent: Uwe Kloos
Projektgruppe: 01
Gruppenmitglieder: Martin Hustoles, Marcel Kehrberg, Kevin Kirsten
Abgabedatum: 03.07.2023
## Datenbasis
### Datentabelle
### Anwendungsdomäne
Bildung.
Es kann eingesehen werden, wie viele Studierende jeweils in den Wintersemestern zwischen 98/99 und 21/22 an Deutschen Hochschulen/Universitäten eingeschrieben waren.
Es wird Unterteilt in Deutsche und Ausländische, sowie Männliche und Weibliche Student/Innen.
Man kann einsehen wie sich die Anzahl der Studierenden in Deutschland, sowie der Anteil an Deutschen/Ausländischen und Männlichen/Weiblichen Studend/Innen entwickelt hat.
### Datenerhebung
Primärdaten des Statistischen Bundesamts. Vollerhebung. Zeitreihen.
Link zur Quelle: <https://www-genesis.destatis.de/genesis/online?operation=table&code=21311-0001&bypass=true&levelindex=1&levelid=1680177866354#abreadcrumb>
### Beschreibung des Datensatzes
![Beschreibung der Merkmale](merkmale.png)
Merkmalsträger: 24
Merkmale: 10
Größe des Datensatzes: 24 Zeilen und 10 Spalten
### Hypothesen
1. Die Anzahl der Ausländischen Studenten in Deutschland hat sich seit dem WS 00/01 verdoppelt.
2. Der %-Anteil an studierenden Frauen (insgesamt) gegenüber studierenden Männern (insgesamt) hat sich seit dem WS 98/99 stetig erhöht.
## Datenaufbereitung
## Datenanalyse
## Ergebnispräsentation
## Teaminfos
Wer hat was erstellt/implementiert:
Martin Hustoles: Datenanalyse, Ergebnispräsentation
Marcel Kehrberg: Datenaufbereitung
Kevin Kirsten: Layout, Titelseite, Datenbasis
{
"source_window_id": "",
"Source": "Source"
}
\ No newline at end of file
F%3A%2FDokumente%2FSchule%2FStudium%2FDS%2FProject%2FDCProject.Rmd="02261EA9"
......@@ -113,7 +113,74 @@ Größe des Datensatzes: 24 Zeilen und 10 Spalten
2. Der %-Anteil an studierenden Frauen (insgesamt) gegenüber studierenden Männern (insgesamt) hat sich seit dem WS 98/99 stetig erhöht.
## Datenaufbereitung
### Wie können Daten eingelesen werden
Es können verschieden Datenvormate eingelesen werden z.B CSV, XLSX
1. Daten aus einer CSV-Datei einlesen
es gibt zwei Funktionen zum einelesen einer CSV-Datei
- read.csv wird verwendet wenn Dezimalzahlen mit eine Punkt "." getrennt werden und Splaten durch ein Komma ",".
- read.csv2 wird verwendet wenn Dezimalzahlen durch eine Komma "," getrennt werden und Spalten durch ein Semikolon ";".
In diesem Beispiel wird der dataframe daten.csv erstelt durch die datei mit dem Namen daten.csv zusätzlich werden dan Fehlende Werte na mit na="NA"
Wenn die Datei im Arbeitsverzeichnis ist
```
daten_csv <- read.csv2("daten.csv", na="NA")
```
Wenn die Datei auserhalb des Arbeitsverzeichnis ist
```
daten_csv <- read.csv2("C:/Dokumente/daten.csv", na="NA")
```
Wenn man den Pfand erst nach dem ausführen angeben will kann man auch
```
daten_csv <- read.csv2(file.choose(), na="NA")
```
nuzen dort wird nach dem ausführen ein Fenster geöfnet bei dem man die Datei dann im Explorer auswählen kann.
An die read.csv bzw read.csv2 können noch weitere Parameter Hinzugefügt werden z.B.
```
na="NA" Dadruch werden fehlende Werte spezifiziert damit R diese nicht für Berechnungen verwendet
dec="," Dadurch wird das Trennzeichen für Dezimalzahlen festgelegt zum einlesen
sep=";" Dadurch wird das Trennzeichen das die Werte in einer Zeile Seperiert festgelegt zum einlesen
```
2. Daten für eine XLSX Datei einlesen
Hier wird an stelle von read.csv bzw read.csv2 read_exel verwendet
davor muss aber mit
```
install.packages("readxl")
```
Das benötigte Packert instalirt werden und mit
```
libary (readxl)
```
das Packet engebunden werden um die read Funktion verwenden zu können
hier gibt es aber nicht die Argumente wie bei csv auser
```
na="NA"
```
### Wie können Inkosistenzen und Leerstellen behoben werden
## Datenanalyse
......
......@@ -589,6 +589,61 @@ erhöht.</li>
</div>
<div id="section-datenaufbereitung" class="section level2">
<h2>Datenaufbereitung</h2>
<div id="section-wie-können-daten-eingelesen-werden"
class="section level3">
<h3>Wie können Daten eingelesen werden</h3>
<p>Es können verschieden Datenvormate eingelesen werden z.B CSV,
XLSX</p>
<ol style="list-style-type: decimal">
<li><p>Daten aus einer CSV-Datei einlesen</p>
<p>es gibt zwei Funktionen zum einelesen einer CSV-Datei</p>
<ul>
<li>read.csv wird verwendet wenn Dezimalzahlen mit eine Punkt “.”
getrennt werden und Splaten durch ein Komma “,”.</li>
<li>read.csv2 wird verwendet wenn Dezimalzahlen durch eine Komma “,”
getrennt werden und Spalten durch ein Semikolon “;”.</li>
</ul>
<p>In diesem Beispiel wird der dataframe daten.csv erstelt durch die
datei mit dem Namen daten.csv zusätzlich werden dan Fehlende Werte na
mit na=“NA”</p>
<p>Wenn die Datei im Arbeitsverzeichnis ist</p>
<pre><code>daten_csv &lt;- read.csv2(&quot;daten.csv&quot;, na=&quot;NA&quot;)
</code></pre>
<p>Wenn die Datei auserhalb des Arbeitsverzeichnis ist</p>
<pre><code>daten_csv &lt;- read.csv2(&quot;C:/Dokumente/daten.csv&quot;, na=&quot;NA&quot;)
</code></pre>
<p>Wenn man den Pfand erst nach dem ausführen angeben will kann man
auch</p>
<pre><code>daten_csv &lt;- read.csv2(file.choose(), na=&quot;NA&quot;)
</code></pre>
<p>nuzen dort wird nach dem ausführen ein Fenster geöfnet bei dem man
die Datei dann im Explorer auswählen kann.</p>
<p>An die read.csv bzw read.csv2 können noch weitere Parameter
Hinzugefügt werden z.B.</p>
<pre><code>na=&quot;NA&quot; Dadruch werden fehlende Werte spezifiziert damit R diese nicht für Berechnungen verwendet
dec=&quot;,&quot; Dadurch wird das Trennzeichen für Dezimalzahlen festgelegt zum einlesen
sep=&quot;;&quot; Dadurch wird das Trennzeichen das die Werte in einer Zeile Seperiert festgelegt zum einlesen</code></pre></li>
<li><p>Daten für eine XLSX Datei einlesen</p>
<p>Hier wird an stelle von read.csv bzw read.csv2 read_exel
verwendet</p>
<p>davor muss aber mit</p>
<pre><code>install.packages(&quot;readxl&quot;)
</code></pre>
<p>Das benötigte Packert instalirt werden und mit</p>
<pre><code>libary (readxl)</code></pre>
<p>das Packet engebunden werden um die read Funktion verwenden zu
können</p>
<p>hier gibt es aber nicht die Argumente wie bei csv auser</p>
<pre><code>na=&quot;NA&quot;</code></pre></li>
</ol>
</div>
<div
id="section-wie-können-inkosistenzen-und-leerstellen-behoben-werden"
class="section level3">
<h3>Wie können Inkosistenzen und Leerstellen behoben werden</h3>
</div>
</div>
<div id="section-datenanalyse" class="section level2">
<h2>Datenanalyse</h2>
......@@ -660,7 +715,7 @@ session$onSessionEnded(function() {
<!--/html_preserve-->
<!--html_preserve-->
<script type="application/shiny-prerendered" data-context="execution_dependencies">
{"type":"list","attributes":{"names":{"type":"character","attributes":{},"value":["packages"]}},"value":[{"type":"list","attributes":{"names":{"type":"character","attributes":{},"value":["packages","version"]},"class":{"type":"character","attributes":{},"value":["data.frame"]},"row.names":{"type":"integer","attributes":{},"value":[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51]}},"value":[{"type":"character","attributes":{},"value":["backports","base","bslib","cachem","cellranger","checkmate","cli","compiler","datasets","digest","ellipsis","evaluate","fansi","fastmap","fontawesome","glue","graphics","grDevices","htmltools","htmlwidgets","httpuv","jquerylib","jsonlite","knitr","later","learnr","lifecycle","magrittr","methods","mime","pillar","pkgconfig","promises","R6","Rcpp","readxl","rlang","rmarkdown","rprojroot","sass","shiny","stats","tibble","tools","utf8","utils","vctrs","withr","xfun","xtable","yaml"]},{"type":"character","attributes":{},"value":["1.4.1","4.2.3","0.5.0","1.0.8","1.1.0","2.2.0","3.6.1","4.2.3","4.2.3","0.6.31","0.3.2","0.20","1.0.4","1.1.1","0.5.1","1.6.2","4.2.3","4.2.3","0.5.5","1.6.2","1.6.11","0.1.4","1.8.4","1.43","1.3.1","0.11.4","1.0.3","2.0.3","4.2.3","0.12","1.9.0","2.0.3","1.2.0.1","2.5.1","1.0.10","1.4.2","1.1.0","2.22","2.0.3","0.4.6","1.7.4","4.2.3","3.2.1","4.2.3","1.2.3","4.2.3","0.6.1","2.5.0","0.39","1.8-4","2.3.7"]}]}]}
{"type":"list","attributes":{"names":{"type":"character","attributes":{},"value":["packages"]}},"value":[{"type":"list","attributes":{"names":{"type":"character","attributes":{},"value":["packages","version"]},"class":{"type":"character","attributes":{},"value":["data.frame"]},"row.names":{"type":"integer","attributes":{},"value":[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51]}},"value":[{"type":"character","attributes":{},"value":["backports","base","bslib","cachem","cellranger","checkmate","cli","compiler","datasets","digest","ellipsis","evaluate","fansi","fastmap","fontawesome","glue","graphics","grDevices","htmltools","htmlwidgets","httpuv","jquerylib","jsonlite","knitr","later","learnr","lifecycle","magrittr","methods","mime","pillar","pkgconfig","promises","R6","Rcpp","readxl","rlang","rmarkdown","rprojroot","sass","shiny","stats","tibble","tools","utf8","utils","vctrs","withr","xfun","xtable","yaml"]},{"type":"character","attributes":{},"value":["1.4.1","4.3.1","0.5.0","1.0.8","1.1.0","2.2.0","3.6.1","4.3.1","4.3.1","0.6.32","0.3.2","0.21","1.0.4","1.1.1","0.5.1","1.6.2","4.3.1","4.3.1","0.5.5","1.6.2","1.6.11","0.1.4","1.8.5","1.43","1.3.1","0.11.4","1.0.3","2.0.3","4.3.1","0.12","1.9.0","2.0.3","1.2.0.1","2.5.1","1.0.10","1.4.2","1.1.1","2.22","2.0.3","0.4.6","1.7.4","4.3.1","3.2.1","4.3.1","1.2.3","4.3.1","0.6.3","2.5.0","0.39","1.8-4","2.3.7"]}]}]}
</script>
<!--/html_preserve-->
</div>
......
Daten_Einlesen_Bsp.PNG

33.7 KiB

0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment