-
Notifications
You must be signed in to change notification settings - Fork 3
/
index.Rmd
80 lines (60 loc) · 3.12 KB
/
index.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
---
title: "Préparer ses données avec R et le Tidyverse"
author: "Maël Theulière & Bruno Terseur"
date: '`r format(Sys.time(), "%d %B %Y")`'
site: bookdown::bookdown_site
documentclass: book
bibliography: [book.bib, packages.bib]
biblio-style: apalike
link-citations: yes
description: "Préparation des données avec R et le Tidyverse (module 2)"
---
<style>
body {text-align: justify;}
</style>
```{r setup, include=FALSE}
rm(list=ls())
knitr::opts_chunk$set(echo = TRUE, message=FALSE, error=FALSE, warning=FALSE, fig.width=6, fig.height=6)
library(savoirfR)
```
# Introduction
![](images/cover.jpg)
<font size="2">
*Crédit photographique Sébastien Colas*
</font>
## Le parcours de formation
```{r collecte prez parcours, results='asis', warning=FALSE, echo=FALSE}
# Utilisation du chapitre de présentation du parcours présent dans https://github.com/MTES-MCT/parcours-r
cat(stringi::stri_read_lines("https://raw.githubusercontent.com/MTES-MCT/parcours-r/master/parties_communes/le_parcours_R.Rmd", encoding = "UTF-8"), sep = "\n")
```
## Le groupe de référents R du pôle ministériel
```{r collecte prez ref, warning=FALSE, echo=FALSE, results='asis'}
# Utilisation du chapitre de présentation des référents présent dans https://github.com/MTES-MCT/parcours-r
a <- knitr::knit_child(text = stringi::stri_read_lines("https://raw.githubusercontent.com/MTES-MCT/parcours-r/master/parties_communes/les_referents_R.Rmd", encoding = "UTF-8"), quiet = TRUE)
cat(a, sep = '\n')
```
## Objectifs du module 2
Ce module va vous permettre de découvrir un ensemble de méthodes sous R afin de préparer ses données.
Préparer ses données sous R, cela veut dire :
- Savoir les importer dans un environnement R,
- Mettre ses données dans de bons formats (date, catégorielle) et gérer les données manquantes,
- Rajouter des variables en fonction de variables existantes,
- Regrouper des modalités de variables,
- Joindre des tables entre elles pour obtenir des informations de plusieurs sources,
- Agréger des données,
- Bien définir notre table de travail en fonction des indicateurs à analyser et à leurs dimensions d'analyse.
...
Bref, tout le travail technique préalable entre la collecte de la donnée et sa valorisation proprement dite.
On estime qu'un scientifique de la donnée passe en général ***la moitié de son temps*** à cela.
![](images/cover.png)
Sous R, comme souvent, il y a plusieurs façons d'aborder cette question. Ce module de formation privilegie l'exploration des packages du framework *tidyverse*, qui ont l'avantage d'aborder les différentes phases de préparation des données d'une façon intégrée et cohérente, que ce soit entre elles, ou avec d'autres.
```{r recup dataset depuis savoirfR, message=FALSE, include=FALSE, warning=FALSE}
library(dplyr)
# récupération des jeux de données de savoir faire
datasets_m2 <- read.csv2(system.file("extdata", "list_data_module.csv", package = "savoirfR")) %>%
filter(module == "m2") %>%
pull(file)
dir.create("extdata/")
file.copy(from = system.file("extdata", datasets_m2, package = "savoirfR"),
to = paste0("extdata/", datasets_m2), overwrite = TRUE)
```