Chapter 10 Data understanding

10.1 Import data

library(tidyverse)
library(tidymodels)

LINK <- "https://raw.githubusercontent.com/kirenz/datasets/master/housing.csv"
housing_df <- read_csv(LINK)

10.2 Data splitting

library(tidymodels)

set.seed(100)

new_split <- initial_split(housing_df, 
                           prop = 3/4, 
                           strata = median_income, 
                           breaks = 5)

new_train <- training(new_split) 
new_test <- testing(new_split)

10.3 Validation set

set.seed(100)

cv_folds <-
 vfold_cv(new_train, 
          v = 5, 
          strata = median_income,
          breaks = 5) 

cv_folds

## #  5-fold cross-validation using stratification 
## # A tibble: 5 x 2
##   splits               id   
##   <list>               <chr>
## 1 <split [12.4K/3.1K]> Fold1
## 2 <split [12.4K/3.1K]> Fold2
## 3 <split [12.4K/3.1K]> Fold3
## 4 <split [12.4K/3.1K]> Fold4
## 5 <split [12.4K/3.1K]> Fold5