Données structurées
Dans ce chapitre, nous allons travailler sur des données en grand nombre mais aussi travailler sur les données personnelles.
1/ Qu'est-ce qu'une donnée ?
On trouve énormément de données sur internet. Une partie de ces données sont publiques, par exemple le site data.gouv.fr recense un grand nombre de données publiques. C'est ce qu'on appelle des Open Data. Ces données sont librement réutilisables. Ces données sont stockées dans des fichiers. On trouve différents formats de fichiers qui permettent de stocker des données : CSV, JSON...
Le format CSV
Les fichiers au format CSV (Comma Separated Value) permettent de stocker les données sous la forme de tableau. Un fichier CSV est un fichier texte. Chaque ligne du texte correspond à une ligne du tableau et les virgules correspondent aux séparations entre les colonnes.
Exemple :
nom, prenom, date_naissance
Durand, Jean-Pierre, 23/05/1985
Dupont, Christophe, 15/12/1967
Terta, Henry, 12/06/1978| nom | prenom | date_naissance |
|---|---|---|
| Durand | Jean-Pierre | 23/05/1985 |
| Dupont | Christophe | 15/12/1967 |
| Terta | Henry | 12/06/1978 |
Dans l’exemple ci-dessus "nom", "prenom" et "date_naissance" sont appelés des descripteurs alors que, par exemple, "Durand", "Dupont" et "Terta" sont les valeurs du descripteur "nom".
Il est possible d’ouvrir un fichier au format csv à l’aide d’un tableur Excel ou OpenOffice Calc.
JSON
Le JSON (JavaScript Object Notation) est un autre format permettant de stocker des données. Il fonctionne avec un système de paire clé/valeur. Un objet est encadré par des accolades. L’équivalent de l’exemple vu avec le CSV donnera :
[
{
"nom": "Durand",
"prenom": "Jean-Pierre",
"date_naissance": "23/05/1985"
},
{
"nom": "Dupont",
"prenom": "Christophe",
"date_naissance": "15/12/1967"
},
{
"nom": "Terta",
"prenom": "Henry",
"date_naissance": "12/06/1978"
}
]Le traitement des données peut être réalisé de diverses manières: recherche, tri, estimation, calcul etc. Pour réaliser ces opérations, des phrases logiques appelées strong>requêtes sont exprimées dans un langage informatique. Le plus utilisé aujourd'hui est le SQL. Une requête est constituée de mots-clés dans un ordre précis.
Exemple :
Imaginons le tableau suivant :
| identifiant | prenom | nom | ville |
|---|---|---|---|
| 1 | Jean-Pierre | Dupond | Paris |
| 2 | Sabrina | Durand | Nantes |
| 3 | Julien | Martin | Lyon |
| 4 | David | Bernard | Marseille |
| 5 | Marie | Leroy | Grenoble |
Si l’ont veut avoir la liste de toutes les villes des clients, il suffit d’effectuer la requête SQL ci-dessous :
SELECT ville from clientDe cette manière on obtient le résultat suivant :
| ville |
|---|
| Paris |
| Nantes |
| Lyon |
| Marseille |
| Grenoble |