Math@mine / SNT / Thème 7

Données structurées et leur traitement

Objectifs du thème

Sommaire

  1. 1Données et métadonnées
  2. 2Les tables de données
  3. 3Le format CSV
  4. 4Opérations sur les tables
  5. 5Le format JSON
  6. 6Big Data et enjeux
1

Données et métadonnées

À la fin de cette section · Tu sauras distinguer une donnée d'une métadonnée avec des exemples concrets.
Définition — Donnée Une donnée est une représentation d’une information sous une forme qui permet de la stocker, de la traiter et de la transmettre par un système informatique. Les données peuvent être numériques, textuelles, images, sons, etc.
Définition — Métadonnée Une métadonnée est une donnée qui décrit une autre donnée. Elle fournit des informations de contexte sur la donnée principale sans en être le contenu.
Exemples de métadonnées Pour une photo numérique : la photo elle-même est la donnée. Les métadonnées sont la date de prise de vue, les coordonnées GPS, le modèle d’appareil photo, la résolution, le temps d’exposition.

Pour un e-mail : le contenu est la donnée. Les métadonnées sont l’expéditeur, le destinataire, la date, l’objet, l’adresse IP d’envoi.

Pour un appel téléphonique : la conversation est la donnée. Les métadonnées sont les numéros appelant et appelé, la durée, la localisation des téléphones.
Les métadonnées révèlent beaucoup Les métadonnées semblent anodines, mais leur analyse en masse peut révéler des informations très précises : habitudes de vie, relations sociales, opinions politiques, état de santé… C’est pourquoi les agences de renseignement s’y intéressent autant qu’aux contenus eux-mêmes.

Types de données

TypeDescriptionExemple
EntierNombre sans décimale42, -7
FlottantNombre décimal3.14, -0.5
ChaîneTexte (entre guillemets)"Alice"
BooléenVrai ou fauxtrue / false
DateDate et/ou heure"2024-09-01"
2

Les tables de données

À la fin de cette section · Tu pourras lire une table (lignes = enregistrements, colonnes = attributs).
⚠️ Ne confonds pas ·
• Les colonnes = les attributs (nom, classe, note…) — ce qu'on mesure
• Les lignes = les enregistrements (un élève complet) — les individus
Définition — Table de données Une table de données (ou tableau) est une organisation des données en lignes et colonnes. Chaque colonne correspond à un attribut (ou champ), chaque ligne à un enregistrement (ou entrée). La première ligne contient généralement les noms des attributs.
Exemple — Table d’élèves
nomprenomclassenote_mathsdate_naissance
MartinAlice2GT0114.52008-03-12
DupontBob2GT0111.02007-11-25
BernardClara2GT0217.52008-06-08
PetitDavid2GT028.02008-01-30
Cette table possède 5 attributs et 4 enregistrements.
Propriétés d’une table bien formée
3

Le format CSV

À la fin de cette section · Tu seras capable d'ouvrir et créer un fichier CSV.
Définition — CSV Le format CSV (Comma-Separated Values — valeurs séparées par des virgules) est un format texte simple pour stocker des données tabulaires. Chaque ligne du fichier correspond à une ligne de la table, et les valeurs sont séparées par un délimiteur (virgule, point-virgule ou tabulation).

Le CSV est un format universel : il peut être ouvert par n’importe quel tableur (Excel, LibreOffice), traité par Python, importé dans une base de données…

# Exemple de fichier CSV (élèves.csv) nom,prenom,classe,note_maths,date_naissance Martin,Alice,2GT01,14.5,2008-03-12 Dupont,Bob,2GT01,11.0,2007-11-25 Bernard,Clara,2GT02,17.5,2008-06-08 Petit,David,2GT02,8.0,2008-01-30
Attention au délimiteur En France, le point-virgule (;) est souvent utilisé à la place de la virgule, car la virgule est utilisée comme séparateur décimal (14,5 au lieu de 14.5). Il faut toujours vérifier le délimiteur utilisé avant d’importer un fichier CSV.

Lire un fichier CSV en Python

import csv with open('eleves.csv', newline='', encoding='utf-8') as f: lecteur = csv.DictReader(f) for ligne in lecteur: print(ligne['prenom'], ligne['note_maths']) # Résultat : # Alice 14.5 # Bob 11.0 # …
4

Opérations sur les tables

À la fin de cette section · Tu sauras filtrer, trier et agréger les lignes d'une table.

On peut effectuer plusieurs opérations fondamentales sur les tables de données :

La recherche (sélection)

Définition — Sélection La sélection consiste à extraire les lignes d’une table qui vérifient un critère donné. On obtient une sous-table avec les mêmes attributs mais moins de lignes.
Exemple Sélectionner tous les élèves de la classe 2GT01 dans la table précédente → on obtient les lignes d’Alice et Bob uniquement.
# Sélection en Python : élèves ayant une note > 12 bons_eleves = [ligne for ligne in table if float(ligne['note_maths']) > 12]

Le tri

Définition — Tri Le tri consiste à réordonner les lignes d’une table selon les valeurs d’un ou plusieurs attributs, par ordre croissant ou décroissant.
# Tri en Python : par note décroissante table_triee = sorted(table, key=lambda x: float(x['note_maths']), reverse=True)

La fusion (jointure)

Définition — Fusion La fusion (ou jointure) consiste à combiner deux tables en associant les lignes qui partagent une valeur commune dans un attribut clé. Elle permet d’enrichir une table avec des informations provenant d’une autre.
Exemple Table 1 : élèves (nom, prenom, classe)
Table 2 : classes (classe, professeur_principal, salle)

La fusion sur l’attribut classe produit une nouvelle table avec toutes les informations combinées : nom, prenom, classe, professeur_principal, salle.
# Fusion en Python : associer chaque élève à sa salle for eleve in table_eleves: for classe in table_classes: if eleve['classe'] == classe['classe']: eleve['salle'] = classe['salle']

🧪 Mini-convertisseur CSV → JSON

Tape des données CSV (1ère ligne = en-têtes) et vois l'équivalent JSON :


  
5

Le format JSON

À la fin de cette section · Tu pourras reconnaître la structure JSON et la distinguer du CSV.
Définition — JSON Le JSON (JavaScript Object Notation) est un format texte léger pour représenter des données structurées. Il utilise des paires clé : valeur et peut représenter des objets imbriqués et des listes. C’est le format d’échange de données le plus utilisé sur le Web.
// Exemple de fichier JSON { « eleves »: [ { « nom »: « Martin », « prenom »: « Alice », « classe »: « 2GT01 », « note_maths »: 14.5 }, { « nom »: « Dupont », « prenom »: « Bob », « classe »: « 2GT01 », « note_maths »: 11.0 } ] }

JSON vs CSV

CSVJSON
StructureTabulaire (lignes/colonnes)Hiérarchique (objets imbriqués)
LisibilitéSimplePlus verbeux mais expressif
Types de donnéesTout en texteEntiers, flottants, booléens, listes…
Usage typiqueTableurs, bases de donnéesAPIs Web, configuration, échange entre services
6

Big Data et enjeux

À la fin de cette section · Tu comprendras les enjeux du Big Data et l'importance des données dans l'économie numérique.
Définition — Big Data Le Big Data désigne des volumes de données si importants qu’ils ne peuvent pas être traités par les outils informatiques classiques. On le caractérise par les « 3 V » : Volume (quantité), Vélocité (vitesse de génération) et Variété (diversité des formats).
Quelques ordres de grandeur

Applications du Big Data

Enjeux éthiques et sociaux

Risques du Big Data
Open Data En réponse à la concentration des données, le mouvement Open Data prône la mise à disposition gratuite et libre de certaines données (publiques notamment). En France, le portail data.gouv.fr publie des milliers de jeux de données publics : statistiques, cartographie, santé, transport…
À retenir — Les cinq mots-clés du thème