Données structurées

Dans ce chapitre, nous allons travailler sur des données en grand nombre mais aussi travailler sur les données personnelles.

1/ Qu'est-ce qu'une donnée ?

On trouve énormément de données sur internet. Une partie de ces données sont publiques, par exemple le site data.gouv.fr recense un grand nombre de données publiques. C'est ce qu'on appelle des Open Data. Ces données sont librement réutilisables. Ces données sont stockées dans des fichiers. On trouve différents formats de fichiers qui permettent de stocker des données : CSV, JSON...

Le format CSV

Les fichiers au format CSV (Comma Separated Value) permettent de stocker les données sous la forme de tableau. Un fichier CSV est un fichier texte. Chaque ligne du texte correspond à une ligne du tableau et les virgules correspondent aux séparations entre les colonnes.

Exemple :

nom, prenom, date_naissance
 
Durand, Jean-Pierre, 23/05/1985
Dupont, Christophe, 15/12/1967
Terta, Henry, 12/06/1978
nomprenomdate_naissance
DurandJean-Pierre23/05/1985
DupontChristophe15/12/1967
TertaHenry12/06/1978

Dans l’exemple ci-dessus "nom", "prenom" et "date_naissance" sont appelés des descripteurs alors que, par exemple, "Durand", "Dupont" et "Terta" sont les valeurs du descripteur "nom".

Il est possible d’ouvrir un fichier au format csv à l’aide d’un tableur Excel ou OpenOffice Calc.

JSON

Le JSON (JavaScript Object Notation) est un autre format permettant de stocker des données. Il fonctionne avec un système de paire clé/valeur. Un objet est encadré par des accolades. L’équivalent de l’exemple vu avec le CSV donnera :

[
    {
        "nom": "Durand",
        "prenom": "Jean-Pierre",
        "date_naissance": "23/05/1985"
    },
 
    {
        "nom": "Dupont",
        "prenom": "Christophe",
        "date_naissance": "15/12/1967"
    },
 
    {
        "nom": "Terta",
        "prenom": "Henry",
        "date_naissance": "12/06/1978"
    }
]

Le traitement des données peut être réalisé de diverses manières: recherche, tri, estimation, calcul etc. Pour réaliser ces opérations, des phrases logiques appelées strong>requêtes sont exprimées dans un langage informatique. Le plus utilisé aujourd'hui est le SQL. Une requête est constituée de mots-clés dans un ordre précis.

Exemple :

Imaginons le tableau suivant :

identifiantprenomnomville
1Jean-PierreDupondParis
2SabrinaDurandNantes
3JulienMartinLyon
4DavidBernardMarseille
5MarieLeroyGrenoble

Si l’ont veut avoir la liste de toutes les villes des clients, il suffit d’effectuer la requête SQL ci-dessous :

SELECT ville from client

De cette manière on obtient le résultat suivant :

ville
Paris
Nantes
Lyon
Marseille
Grenoble

2/ Le Cloud