Math@mine / SNT / Thème 7 / Exercices

Exercices — Données structurées

SNT — Thème 7

Exercices — Données structurées et leur traitement

CSV, JSON, tables, tri, sélection et Big Data

Progression :
0 / 6
1

Données et métadonnées

★☆☆ Facile

Pour chaque élément ci-dessous, distinguer la donnée principale et les métadonnées associées.

  1. Une photo envoyée par SMS. Donner trois exemples de métadonnées.
  2. Un message vocal sur WhatsApp. Quelles métadonnées WhatsApp possède-t-il même sans écouter le message ?
  3. Un achat en ligne. Quelles données et métadonnées la banque enregistre-t-elle ?
  4. Pourquoi des services de renseignement ont-ils affirmé que « les métadonnées suffisent » pour surveiller une population ?
Correction
  1. Donnée : le contenu de la photo (pixels). Métadonnées : date et heure de la prise de vue, coordonnées GPS du lieu, modèle de l’appareil photo, résolution.
  2. Sans écouter : numéros de l’émetteur et du destinataire, durée du message, heure d’envoi et de réception, localisation approximative des téléphones, type d’appareil.
  3. Données : montant, description de l’achat. Métadonnées : date/heure, commercant, localisation, type de paiement (CB, virement), adresse IP de connexion.
  4. L’analyse des métadonnées en masse révèle : les relations sociales (qui appelle qui), les habitudes de vie (horaires, lieux fréquentés), les opinions (participation à des réunions), la santé (appels vers des médecins spécialistes). Sans connaître le contenu des conversations, on peut reconstituer une grande partie de la vie d’une personne.
2

Lire et exploiter une table CSV

★☆☆ Facile

On dispose du fichier CSV suivant représentant le palmarès des Jeux Olympiques Paris 2024 (extrait) :

pays,or,argent,bronze,total États-Unis,40,44,42,126 Grande-Bretagne,14,22,29,65 Australie,18,19,16,53 Chine,40,27,24,91 France,16,26,22,64 Japon,20,12,13,45 Pays-Bas,15,7,12,34
  1. Combien d’attributs et d’enregistrements cette table contient-elle ?
  2. Quel est le type de chaque attribut ?
  3. Effectuer une sélection : quels pays ont obtenu au moins 15 médailles d’or ?
  4. Trier la table par nombre total de médailles décroissant. Quel pays arrive en tête ?
  5. Calculer le nombre total de médailles d’or distribuées (somme de la colonne « or »).
Correction
  1. 5 attributs (pays, or, argent, bronze, total) et 7 enregistrements (une ligne par pays).
  2. pays : chaîne de caractères. or, argent, bronze, total : entiers.
  3. Sélection (or ≥ 15) : États-Unis (40), Australie (18), Chine (40), France (16), Japon (20), Pays-Bas (15). → 6 pays.
  4. Tri décroissant par total : États-Unis (126), Chine (91), Grande-Bretagne (65), France (64), Australie (53), Japon (45), Pays-Bas (34). Les États-Unis arrivent en tête.
  5. 40 + 14 + 18 + 40 + 16 + 20 + 15 = 163 médailles d’or au total pour ces 7 pays.
3

QCM — Formats et opérations

★☆☆ Facile

1. Quel est le délimiteur le plus souvent utilisé dans les fichiers CSV en France ?

  • La virgule ,
  • Le point-virgule ;
  • Le deux-points :
  • La barre oblique /

2. Quelle opération consiste à combiner deux tables en associant leurs lignes par un attribut commun ?

  • La sélection
  • Le tri
  • La fusion (jointure)
  • La projection

3. Le JSON est principalement utilisé pour :

  • Stocker des images
  • Écrire des pages web
  • Échanger des données structurées entre applications web
  • Compresser des fichiers
4

Lire et construire du JSON

★★☆ Intermédiaire

On considère le fichier JSON suivant décrivant une bibliothèque :

{ « bibliotheque »: [ { « titre »: « Le Petit Prince », « auteur »: « Antoine de Saint-Exupéry », « annee »: 1943, « disponible »: true, « genres »: [« roman », « conte »] }, { « titre »: « 1984 », « auteur »: « George Orwell », « annee »: 1949, « disponible »: false, « genres »: [« roman », « science-fiction », « dystopie »] }, { « titre »: « Harry Potter à l’école des sorciers », « auteur »: « J.K. Rowling », « annee »: 1997, « disponible »: true, « genres »: [« roman », « fantasy », « jeunesse »] } ] }
  1. Combien de livres ce fichier JSON décrit-il ? Combien d’attributs possède chaque livre ?
  2. Quel est le type de l’attribut disponible ? Et de l’attribut genres ?
  3. Quel(s) livre(s) est/sont actuellement disponible(s) ?
  4. Ajouter un quatrième livre de ton choix en respectant la structure JSON (écrire le JSON correspondant).
  5. Convertir la table CSV de l’exercice 2 en JSON. Écrire les deux premiers enregistrements.
Correction
  1. 3 livres. Chaque livre possède 5 attributs : titre, auteur, annee, disponible, genres.
  2. disponible : booléen (true/false). genres : liste (tableau) de chaînes de caractères.
  3. Livres disponibles : Le Petit Prince et Harry Potter à l’école des sorciers (disponible: true).
  4. Exemple : {"titre": "L'Étranger", "auteur": "Albert Camus", "annee": 1942, "disponible": true, "genres": ["roman"]}
  5. Exemple pour les deux premiers pays : [{"pays": "États-Unis", "or": 40, "argent": 44, "bronze": 42, "total": 126}, {"pays": "Grande-Bretagne", "or": 14, "argent": 22, "bronze": 29, "total": 65}]
5

Opérations sur une table

★★☆ Intermédiaire

On dispose de deux tables :

Table Élèves :

idnomprenomid_classenote_maths
1MartinAliceC115
2DupontBobC19
3BernardClaraC217
4PetitDavidC211
5MoreauEvaC314
6SimonFaridC37

Table Classes :

id_classenom_classeprofesseur
C12GT01M. Dupuis
C22GT02Mme Lambert
C32GT05M. Renard
  1. Effectuer la sélection des élèves ayant une note supérieure ou égale à 12. Donner la table résultante.
  2. Trier la table Élèves par note décroissante. Quel est le classement ?
  3. Effectuer la fusion des deux tables sur l’attribut id_classe. Donner les deux premières lignes de la table résultante.
  4. Après fusion, quelle requête permettrait de trouver tous les élèves de Mme Lambert ayant une note inférieure à 12 ?
Correction
  1. Sélection note ≥ 12 : Alice (15), Clara (17), Eva (14). → 3 élèves.
  2. Tri décroissant : Clara (17), Alice (15), Eva (14), David (11), Bob (9), Farid (7).
  3. Deux premières lignes après fusion : (1, Martin, Alice, C1, 15, 2GT01, M. Dupuis) et (2, Dupont, Bob, C1, 9, 2GT01, M. Dupuis).
  4. Sélectionner dans la table fusionnée les lignes où professeur = « Mme Lambert » ET note_maths < 12. → Résultat : David (11).
6

Big Data et enjeux éthiques

★★★ Difficile

En 2018, le scandale Cambridge Analytica a révélé que les données personnelles de 87 millions d’utilisateurs Facebook avaient été exploitées à des fins politiques, notamment pour influencer l’élection présidentielle américaine de 2016.

  1. Comment ces données ont-elles été collectées sans le consentement direct des utilisateurs ?
  2. Quels types de données (attributs) ont été exploités pour « profiler » les électeurs ?
  3. Expliquer le concept de « micro-ciblage » (micro-targeting) politique. En quoi est-il différent de la publicité traditionnelle ?
  4. Quelles conséquences ce scandale a-t-il eues sur la réglementation des données personnelles ?
  5. Peut-on interdire complètement ce type d’exploitation des données ? Quelles sont les limites techniques et juridiques ?
Correction
  1. Une application tierce (quiz de personnalité) collectait les données non seulement des utilisateurs qui l’installaient, mais aussi de tous leurs amis Facebook — sans que ceux-ci aient donné leur accord. L’API Facebook permettait alors ce type d’accès.
  2. Données exploitées : likes sur des pages politiques/culturelles, localisation, données démographiques (âge, sexe, lieu de résidence), réseau d’amis, comportements de partage, activité en ligne.
  3. Le micro-ciblage consiste à envoyer des messages politiques personnalisés à des segments très précis de la population, en fonction de leur profil psychologique. Contrairement à la publicité de masse (même message pour tous), chaque électeur peut recevoir un message différent, calibré pour toucher ses peurs ou convictions spécifiques — sans que les autres électeurs voient ce message.
  4. Conséquences : renforcement du RGPD en Europe, amendes record contre Facebook (5 milliards \$ aux USA), restrictions sur l’accès des applications tierces aux données d’amis, prise de conscience publique sur les risques des données personnelles.
  5. Interdiction totale impossible car : les données sont souvent collectées légalement (consentement dans les CGU que personne ne lit) ; les données peuvent être traitées dans des pays hors juridiction ; les techniques d’inférence permettent de reconstruire des profils sans données directes. Limites juridiques : difficultés à contrôler les transferts internationaux de données ; définition floue de ce qui constitue une exploitation « politique ».