Trace(s) ouverture des données #UP13

@pierreboudes

Created: 2017-03-29 Wed 12:47

Contexte politique

L'université Paris 13

Une université parisienne pluri-disciplinaire en banlieue

Une dynamique territoriale fragmentée

  • 5 sites : Argenteuil, Bobigny, La Plaine Saint-Denis, Saint-Denis, Villetaneuse
  • 9 composantes, dont 3 IUT

Enjeux politiques et de territoire

  • Fusion, Comue, banlieue… ça secoue !
  • Nécessité de construire un contre-discours, sur la réussite dans nos diplômes, sur notre recherche, sur nos étudiant·e·s, sur notre environnement

Enjeu interne

  • Mieux se connaître, décloisonner, faire écosystème
  • Mieux partager nos buts communs en réseau
  • Sortir du confort d'un relatif isolement pour re-affirmer notre légitimité
  • Nous savons innover et prendre des risques !

Notre stratégie numérique

La Maison des Sciences du Numérique (VP TransNum)

  • Interdisciplinarité, recherche et formations
  • Sciences des données et lieu d'expérimentation
  • VP transformation numérique, Younès Bennani

Architecture des données

  • Architecture des données vs architecture logicielle
  • Il faut ouvrir, sinon c'est juste de la programmation modulaire autour d'un bus de données
  • Les données personnelles nous sont prêtées pour un usage précis, donnant lieu à contreparties, et nous devons les respecter

Ouverture

  • Favoriser la mise en relation entre des projets, des acteurs, pour améliorer le service rendu par l'université
  • Participer à la démarche nationale d'ouverture et l'amplifier
  • Orienter la mutualisation entre universités vers une architecture des données ouverte (via @VpNum, avec @FrPellegrini)
  • Des ressources exceptionnelles à Paris 13 et autour : Sarah Labelle @sl lab, Younès Bennani @Aveyounes, Aldo Gangemi @aldogangemi, la DSI, Paul-Olivier Gibert PO Gibert de Digital & Ethics, et beaucoup d'autres !

Les données

Pourquoi ce jeu de données ?

  • Des données existantes, suffisamment massives pour être intéressantes une fois anonymisées
  • Du côté de la production : la réalisation effective plutôt que l'offre
  • Répondre aux enjeux politiques en osant la sincérité
  • Démarche scientifique (reproductible, vérifiable)
  • Audacieux par la volonté, conservateurs pour la protection

Source Apogée (gestion des scolarités)

  • Année par année, les individus ayant une inscription principale dans une étape de cursus (diplôme ou autre)
  • Ni lieu, ni enquête, ni nationalité
  • Les données personnelles sont remplacées par un nouvel identifiant permettant le suivi pluri-annuel (les traces), qui n'est pas publié

Publication

  • Se prémunir du risque de divulger des données personnelles ou sensibles concernant nos étudiant·e·s
  • Un premier Hachathon a permis de se poser les questions d'anonymat sur les données à publier (nationalités, adresses, âges)
  • Utilisation de la k-anonymisation (k = 5) : chaque n-uplet apparaît au moins k fois dans le jeu
  • Digital & Ethics a ensuite identifié un risque de divulgation d'une information dérivée qui a conduit à l'élimination de la colonne n-ième inscription

Données

  • Données brutes de 213 289 lignes de 2006 à 2015

Toilettage initial

  • On élimine les valeurs rares et on perd 788 lignes
  • Il reste 212 494 lignes concernant 105 747 étudiant·e·s sur 10 ans
Année Brutes Anonymes Perte
2006 20 040 19 995 45
2007 19 914 19 868 46
2008 19 897 19 856 41
2009 21 277 21 253 24
2010 21 022 20 972 50
2011 21 497 21 444 53
2012 22 355 22 292 63
2013 22 223 22 127 96
2014 22 423 22 274 149
2015 22 641 22 413 228

Nécessité d'améliorer la qualité des données

Colonne valeurs rares
LIB-DIPLOME 1
LIBELLE-DISCIPLINE-DIPLOME 27
CODE-SISE-DIPLOME 41
CODE-ETAPE 319
LIBELLE-COURT-ETAPE 299
LIBELLE-LONG-ETAPE 362
NIEME-INSCRIPTION 3

Projections

  • On produit 4 jeux en projetant les données d'origine sur 4 ensembles d'attributs et en k-anonymisant le résultat par oubli de données (moins de 5%)
  • Un jeu sur les étapes de diplômes sans suivi annuel (perte supplémentaire de seulement 130 lignes)
  • Deux jeux autour de l'origine des étudiant·e·s (Bac, continent) d'origine (3,5% et 2% de perte)
  • Un tableau sur les inscriptions dans les étapes, année après année

Traces

Différents parfums

Fichier lignes ratio lignes ratio char
Basev1utf8+simple.csv 213290 1.00 1.00
up13+cursus+bac.csv 41247 5.17 8.76
up13+traces+bac.csv 26151 8.16 12.51
up13+cursus.csv 25948 8.22 19.83
up13+cursus+bac+wt+etape.csv 22624 9.43 15.24
up13+cursus+bac+wt+diplome.csv 20405 10.45 21.04
up13+traces.csv 16450 12.97 29.20
up13+cursus+wt+etape.csv 12992 16.42 42.15
up13+cursus+wt+diplome.csv 11343 18.80 79.99
up13+traces+bac+wt+etape.csv 11033 19.33 26.58
up13+traces+bac+wt+diplome.csv 9105 23.43 40.34
up13+traces+wt+etape.csv 6369 33.49 77.84
up13+traces+wt+diplome.csv 5006 42.61 173.61

Exemple de (projets) de réutilisations

Projet « Garder le contact »

  • On publie, on récolte
  • Uniquement sur une base volontaire
  • [opt] Prénom Nom
  • [need] contact mail
  • [need] formations, séquence années-formations 2010-L1INF; 2012-L2INF; …

Servir les équipes pédagogiques « 1-anon » à la carte

  • Mêmes visualisations, plus précises (k = 1)
  • On publie, on récolte (qui s'occupe de quelle formation ? Reconstruire l'histoire des étapes)

DataViz en bac à sable

Et après ?

  • Politique SI : faire communiquer les logiciels, accepter l'altérité en publiant des données et des interfaces, les codes sources etc.
  • Trace(s) 02 : territoires, le 10 juin
  • En interne : hack ta fac comme à Bordeaux ?
  • Applications permettant un apport de données volontaires (mode de déplacement, devenir après études) et l'enrichissement et la qualité des données
  • 2018 : données de la recherche, Linked Open Data

Pierre Boudes VP SI.