dplyr-grammar.Rmd

title: "Einführung in dplyr-Grammatik"
subtitle: "Daten bändigen & visualisieren"
author: "B. Philipp Kleer"
date: "11. Oktober 2021"
output:
  slidy_presentation:
      footer: "Copyright: CC BY-SA 4.0, B. Philipp Kleer"
      widescreen: true
      highlight: pygments
      theme: readable
      css: styles/style-slides.css
      df_print: paged
      mathjax: default
      self_contained: false
      incremental: false #True  dann jedes Bullet einzeln
      collapse: true # means the text output will be merged into the R source code block
library("knitr")
library("rmarkdown")
library("tidyverse")

uni <- readRDS("../datasets/uni.rds")

opts_chunk$set(fig.path = 'pics/s6-', # path for calculated figures
               fig.align = 'center',  # alignment of figure (also possible right, left, default)
               fig.show = 'hold', # how to show figures: hold -> direct at the end of code chunk; animate: all plots in an animation
               fig.width = 3,   # figure width
               fig.height = 4,  # figure height
               echo = TRUE,     # Code is printed
               eval = FALSE,    # Code is NOT evaluated
               warning = FALSE, # warnings are NOT displayed
               message = FALSE, # messages are NOT displayed
               size = "tiny",  # latex-size of code chunks
               background = "#E7E7E7", # background color of code chunks
               comment = "", # no hashtags before output
               options(width = 80),
               results = "markdown",
               rows.print = 15
)

htmltools::tagList(
  xaringanExtra::use_clipboard(
    button_text = "<i class=\"fa fa-clipboard\"></i>",
    success_text = "<i class=\"fa fa-check\" style=\"color: #90BE6D\"></i>",
    error_text = "<i class=\"fa fa-times-circle\" style=\"color: #F94144\"></i>"
  ),
  rmarkdown::html_dependency_font_awesome()
)
install.packages("tidyverse")
library("tidyverse")

# alternativ:
# install.packages("dplyr")
# library("dplyr")
uni <- readRDS("../datasets/uni.rds") #oder eigener Pfad, wenn nicht in der Cloud
uni
# ID: laufende Nummer
# mot: Studienmotivation (0 <sehr niedrig> - 10 <sehr hoch>)
# study: Studienfach (1 <Political Science>, 2 <Sociology>, 3 <Educational Science>, 4 <Psychology>)
# city: Studienort (1 <Gießen>, 2 <Marburg>, 3 <Frankfurt>)
# distance: Anfahrtsdauer zur Uni in Minuten
# abi: Abiturnote
# term: Fachsemester
select(uni,   # Datenquelle
       c(mot, # ausgewählte Spalten
         term
         )
       )
slice(uni,    # Datenquelle
      50:55
      )  # ausgewählte Zahlen
filter(uni,  # Datenquelle
       city == "Giessen" # Filtervariable
       )
filter(uni,
       city == "Frankfurt" & study == "Political Science"
       )
arrange(uni,
        abi
        )
arrange(uni,
        desc(abi)
        )
arrange(uni,
        -abi
        )
mutate(uni,
       abiDist = abi - mean(abi,
                             na.rm = TRUE
                            )
       )
case_when(Fallauswahl ~ neuer Codewert)
mutate(uni,
       dum.pum = case_when(city == "Marburg" ~ 1, # "Fallauswahl" ~ "neuer Codewert"
                           city == "Gießen" ~ 0,
                           city == "Frankfurt" ~ 0
                           )
       )
mutate(uni,
       dum.pum.es = case_when(city == "Marburg" & study == "Educational Science" ~ 1
                              )
       )
mutate(uni,
       dum.pum.es = case_when(city == "Marburg" & study == "Educational Science" ~ 1,
                              TRUE ~ 0
                              )
       )
summarize(uni,
          mean(term)
          )
summarize(uni,
          mean(term),
          mean(mot)
          )
summarize_if(uni,
             is.numeric,
             list(mean = mean,
                  sd = sd
                  )
             )
summarize_at(uni,
             vars(mot,
                  abi,
                  term
                  ),
             list(mean = mean,
                  sd = sd
                  )
             )
group_by(uni,
         study
         )
summarize(group_by(uni,
                   study
                   ),
          mean(term)
          )
uni <- uni %>%     # Schritt 1 / Schritt 5/0
  group_by(city) %>%  # Schritt 2
  mutate(abiMean = mean(abi,
                         na.rm = TRUE
                        )
         ) %>% # Schritt 4
  ungroup() #Schritt 5

table(uni$city,
      uni$abiMean)
uni %>%
  group_by(city) %>%
  summarize(mean = mean(abi,
                        na.rm = TRUE
                        )
            )
uni <- uni %>%
  mutate(termg = case_when(term <= 2 ~ "Anfänger:in",
                           term > 2 & term <= 6 ~ "Erfahrene",
                           term > 6 ~ "Langzeit"
                           )
         )
table(uni$termg)
str(uni$termg)
uni <- uni %>%
  group_by(city) %>%
  mutate(abigm = mean(abi)) %>%
  mutate(abid = abi - abigm) %>%
  ungroup()

uni[, c("ID",
        "abi",
        "city",
        "abigm",
        "abid"
        )
    ]
mCityStudy <- uni %>%
  group_by(city,
           study
           ) %>%
  summarize(mean(abi))

mCityStudy