À la fin de cette section · Tu sauras distinguer une donnée d'une métadonnée avec des exemples concrets.
Définition — Donnée
Une donnée est une représentation d’une information sous une forme qui permet de la stocker, de la traiter et de la transmettre par un système informatique. Les données peuvent être numériques, textuelles, images, sons, etc.
Définition — Métadonnée
Une métadonnée est une donnée qui décrit une autre donnée. Elle fournit des informations de contexte sur la donnée principale sans en être le contenu.
Exemples de métadonnées
Pour une photo numérique : la photo elle-même est la donnée. Les métadonnées sont la date de prise de vue, les coordonnées GPS, le modèle d’appareil photo, la résolution, le temps d’exposition.
Pour un e-mail : le contenu est la donnée. Les métadonnées sont l’expéditeur, le destinataire, la date, l’objet, l’adresse IP d’envoi.
Pour un appel téléphonique : la conversation est la donnée. Les métadonnées sont les numéros appelant et appelé, la durée, la localisation des téléphones.
Les métadonnées révèlent beaucoup
Les métadonnées semblent anodines, mais leur analyse en masse peut révéler des informations très précises : habitudes de vie, relations sociales, opinions politiques, état de santé… C’est pourquoi les agences de renseignement s’y intéressent autant qu’aux contenus eux-mêmes.
Types de données
Type
Description
Exemple
Entier
Nombre sans décimale
42, -7
Flottant
Nombre décimal
3.14, -0.5
Chaîne
Texte (entre guillemets)
"Alice"
Booléen
Vrai ou faux
true / false
Date
Date et/ou heure
"2024-09-01"
2
Les tables de données
À la fin de cette section · Tu pourras lire une table (lignes = enregistrements, colonnes = attributs).
⚠️ Ne confonds pas ·
• Les colonnes = les attributs (nom, classe, note…) — ce qu'on mesure
• Les lignes = les enregistrements (un élève complet) — les individus
Définition — Table de données
Une table de données (ou tableau) est une organisation des données en lignes et colonnes. Chaque colonne correspond à un attribut (ou champ), chaque ligne à un enregistrement (ou entrée). La première ligne contient généralement les noms des attributs.
Exemple — Table d’élèves
nom
prenom
classe
note_maths
date_naissance
Martin
Alice
2GT01
14.5
2008-03-12
Dupont
Bob
2GT01
11.0
2007-11-25
Bernard
Clara
2GT02
17.5
2008-06-08
Petit
David
2GT02
8.0
2008-01-30
Cette table possède 5 attributs et 4 enregistrements.
Propriétés d’une table bien formée
Chaque colonne a un nom unique
Toutes les valeurs d’une colonne sont du même type
Chaque ligne est unique (pas de doublons)
L’ordre des lignes n’a pas d’importance a priori
3
Le format CSV
À la fin de cette section · Tu seras capable d'ouvrir et créer un fichier CSV.
Définition — CSV
Le format CSV (Comma-Separated Values — valeurs séparées par des virgules) est un format texte simple pour stocker des données tabulaires. Chaque ligne du fichier correspond à une ligne de la table, et les valeurs sont séparées par un délimiteur (virgule, point-virgule ou tabulation).
Le CSV est un format universel : il peut être ouvert par n’importe quel tableur (Excel, LibreOffice), traité par Python, importé dans une base de données…
# Exemple de fichier CSV (élèves.csv)
nom,prenom,classe,note_maths,date_naissance
Martin,Alice,2GT01,14.5,2008-03-12
Dupont,Bob,2GT01,11.0,2007-11-25
Bernard,Clara,2GT02,17.5,2008-06-08
Petit,David,2GT02,8.0,2008-01-30
Attention au délimiteur
En France, le point-virgule (;) est souvent utilisé à la place de la virgule, car la virgule est utilisée comme séparateur décimal (14,5 au lieu de 14.5). Il faut toujours vérifier le délimiteur utilisé avant d’importer un fichier CSV.
Lire un fichier CSV en Python
import csv
with open('eleves.csv', newline='', encoding='utf-8') as f:
lecteur = csv.DictReader(f)
for ligne in lecteur:
print(ligne['prenom'], ligne['note_maths'])
# Résultat :# Alice 14.5# Bob 11.0# …
4
Opérations sur les tables
À la fin de cette section · Tu sauras filtrer, trier et agréger les lignes d'une table.
On peut effectuer plusieurs opérations fondamentales sur les tables de données :
La recherche (sélection)
Définition — Sélection
La sélection consiste à extraire les lignes d’une table qui vérifient un critère donné. On obtient une sous-table avec les mêmes attributs mais moins de lignes.
Exemple
Sélectionner tous les élèves de la classe 2GT01 dans la table précédente → on obtient les lignes d’Alice et Bob uniquement.
# Sélection en Python : élèves ayant une note > 12
bons_eleves = [ligne for ligne in table
if float(ligne['note_maths']) > 12]
Le tri
Définition — Tri
Le tri consiste à réordonner les lignes d’une table selon les valeurs d’un ou plusieurs attributs, par ordre croissant ou décroissant.
# Tri en Python : par note décroissante
table_triee = sorted(table,
key=lambda x: float(x['note_maths']),
reverse=True)
La fusion (jointure)
Définition — Fusion
La fusion (ou jointure) consiste à combiner deux tables en associant les lignes qui partagent une valeur commune dans un attribut clé. Elle permet d’enrichir une table avec des informations provenant d’une autre.
La fusion sur l’attribut classe produit une nouvelle table avec toutes les informations combinées : nom, prenom, classe, professeur_principal, salle.
# Fusion en Python : associer chaque élève à sa sallefor eleve in table_eleves:
for classe in table_classes:
if eleve['classe'] == classe['classe']:
eleve['salle'] = classe['salle']
🧪 Mini-convertisseur CSV → JSON
Tape des données CSV (1ère ligne = en-têtes) et vois l'équivalent JSON :
5
Le format JSON
À la fin de cette section · Tu pourras reconnaître la structure JSON et la distinguer du CSV.
Définition — JSON
Le JSON (JavaScript Object Notation) est un format texte léger pour représenter des données structurées. Il utilise des paires clé : valeur et peut représenter des objets imbriqués et des listes. C’est le format d’échange de données le plus utilisé sur le Web.
// Exemple de fichier JSON
{
« eleves »: [
{
« nom »: « Martin »,
« prenom »: « Alice »,
« classe »: « 2GT01 »,
« note_maths »: 14.5
},
{
« nom »: « Dupont »,
« prenom »: « Bob »,
« classe »: « 2GT01 »,
« note_maths »: 11.0
}
]
}
JSON vs CSV
CSV
JSON
Structure
Tabulaire (lignes/colonnes)
Hiérarchique (objets imbriqués)
Lisibilité
Simple
Plus verbeux mais expressif
Types de données
Tout en texte
Entiers, flottants, booléens, listes…
Usage typique
Tableurs, bases de données
APIs Web, configuration, échange entre services
6
Big Data et enjeux
À la fin de cette section · Tu comprendras les enjeux du Big Data et l'importance des données dans l'économie numérique.
Définition — Big Data
Le Big Data désigne des volumes de données si importants qu’ils ne peuvent pas être traités par les outils informatiques classiques. On le caractérise par les « 3 V » : Volume (quantité), Vélocité (vitesse de génération) et Variété (diversité des formats).
Quelques ordres de grandeur
Google traite plus de 8,5 milliards de recherches par jour
Facebook génère 4 pétaoctets (4 millions de Go) de données par jour
Chaque seconde : 6 000 tweets, 1 000 photos Instagram, 1 million de messages WhatsApp
En 2025, l’humanité génère environ 120 zettaoctets de données par an
Applications du Big Data
Médecine : analyse de millions de dossiers médicaux pour détecter des maladies, personnaliser les traitements
Météorologie : modèles climatiques à partir de milliards de mesures
Transport : optimisation du trafic en temps réel (Waze, Google Maps)
Sécurité : détection de fraudes bancaires par analyse de comportements
Enjeux éthiques et sociaux
Risques du Big Data
Surveillance de masse : croisement de bases de données permettant de suivre les individus
Discrimination algorithmique : les algorithmes peuvent reproduire et amplifier des biais humains (refus de crédit, embauche…)
Concentration des données : quelques entreprises (GAFAM) contrôlent des quantités astronomiques de données personnelles
Impact environnemental : les data centers consomment environ 1 à 2% de l’électricité mondiale
Open Data
En réponse à la concentration des données, le mouvement Open Data prône la mise à disposition gratuite et libre de certaines données (publiques notamment). En France, le portail data.gouv.fr publie des milliers de jeux de données publics : statistiques, cartographie, santé, transport…
À retenir — Les cinq mots-clés du thème
Donnée : information représentée de façon numérique
Métadonnée : donnée qui décrit une autre donnée
CSV : format texte tabulaire pour stocker des données structurées
JSON : format d’échange de données structurées hiérarchiques
Big Data : données de très grand volume nécessitant des outils spécialisés