Newsletter - Toulouse DataViz #19 - Spécial Hackaviz 2022
Newsletter - Toulouse DataViz #19 - Spécial Hackaviz 2022

Newsletter - Toulouse DataViz #19 - Spécial Hackaviz 2022

Contenu
Débrieffing Hackaviz 20222
Date
May 5, 2022

Le mot d'introduction

Notre 5ième Hackaviz s'est achevé le 7 Avril avec l'Hackaviz party dans la superbe salle de l'espace de coworking HarryCow à Toulouse. Un grand bravo à toute l'équipe TDV qui, grâce à la retransmission en live, a permis à tous les participants et membres "non toulousains" de suivre l'événement. La video de l'événement est aussi maintenant disponible sur notre site TDV. Pour la première fois, l'Hackaviz ne traitait pas de l'Occitanie mais abordait le sujet plus politique de l'utilisation de l'argent collecté dans le cadre de la copie privée. La publication de ce jeu de données "sensible" est récente et nous avons découvert en chemin qu'elle était l'aboutissement d'un travail acharné fait par Marc Rees rédacteur en chef de Next Inpact. Marc nous a signifié son émotion de voir la valorisation de ses efforts pour rendre publique enfin ces données et les superbes contributions des participants. Cela montre que notre communauté de la dataviz peut aussi apporter sa contribution à l'effort de transparence de la vie publique. Un exemple à suivre pour de futures actions...
Encore bravo à tous les participants.

La vidéo de la cérémonie

Video preview
Encore merci à nos sponsors : VECTOR, CLEVER AGE

Le jury

Nous avons voulu que le jury de cette édition soit paritaire femme - hommes, également constitués de membres de Toulouse Dataviz, et d’extérieurs à notre association. Nous avons également cherché une diversité d’approches,  de parcours professionnels, de regards et de compétences. Ainsi, le jury de cette année est constitué de :
  • Julie Aucque (P2A Data), passionnée de nouvelles technologies et lauréate avec son mari du Hackaviz 2021,
  • Vincent Regouby (TDV) éleveur d’IA qu’il examine avec pertinence et talent, curateur principal du jeu de données,
  • Isabelle Coulomb (Icem7) adepte de belles et pertinentes visualisations pour une diffusion accessible par tous,
  • Vincent Vivanloc (TDV) développeur et lauréat du Mapathon 2021, curateur du jeu de données, de leur mise en forme et en ligne, 
  • Alain Roan (TDV), professionnel de la dataviz, amateur de D3, d’observable et de bons mots,
  • Vanessa Reboul (Elipses), libraire et seule connaisseuse de la copie privée de ce jury,
  • Marthe Viallet Cavalié, data designeuse indépendante, conceptrice d’expositions consacrées à la data visualisation, et
  • Christophe Bontemps (TDV), fana de Jacques Bertin et de dataviz fallacieuses. 
Ce jury éclectique s’est investi dans sa mission d’évaluation de toutes les soumissions (3 rapporteurs par projet) et a très bien fonctionné, délivrant un palmarès 2022 de très grande qualité, original et stimulant pour les éditions futures.
notion image

Le jeu de données et sa préparation

Le jeu de données

Le jeu de données de l’Hackaviz 2022 compile les financements collectés et distribués par les organismes de gestion collective des droits d’auteur (par exemple, la SACEM), au titre de la rémunération pour copie privée. Cette dernière est une taxe de 1 à 4% sur tous supports permettant une reproduction d’une œuvre à titre privé. Elle s’appliquait sur les CD vierges et autres cassettes, rapidement remplacés par les disques durs externes, les tablettes, les smartphones et bientôt sur ces mêmes produits reconditionnés et le stockage sur le cloud.
notion image
Le jeu de données propose trois tables :
  1. les projets soutenus
  1. les organismes collecteurs et
  1. une synthèse de ces projets agrégés par an et par organisme collecteur. Comme chaque année, afin de pouvoir proposer un concours accessible à tous, le dernier fichier est une synthèse du premier jeu de données.
 

La préparation des données

Le nettoyage

La première étape a été le nettoyage des erreurs de saisie sur les bénéficiaires - un même bénéficiaire pouvant être désigné de multiple manière, par exemple, les restos du coeur, les resto. du cœur ou encore les Restaurants du Coeur. Plusieurs méthodes ont été essayées, du remplacement de chaîne de caractères via des expressions régulières, à des méthodes de la normalisation, en passant à des algorithmes de mise en correspondance floue (fuzzy matching). Les paramètres par défaut ne donnant pas de résultats satisfaisants pour notre jeu de données, nous avons créé notre propre ensemble de segmentation et avons déterminé que la métrique de distance de Jaccard donnait le meilleur résultat.

L’enrichissement

Après avoir épluché 17 rapports annuels et sites web, nous avons créé la table des organismes collecteurs contenant le nombre de membres et leur caractérisation (par exemple les écrivains, les graphistes ou les acteurs de théâtre) ainsi que le type de projet soutenu (la SCELF soutient le livre).
Nous avons voulu aussi compléter la table des projets soutenus. Afin de déterminer le type de projet (chanson, pièce de théâtre, spectacle), nous avons effectué une première analyse par mots clés. Cette dernière a été complétée avec une jointure avec les organismes collecteurs. En effet, ces derniers étant spécialisés dans un type d’œuvre, il a été facile de déduire ce type selon l’organisme collecteur.
Le jeu de données n’ayant pas de données géographiques, nous avons essayé de déterminer la localisation des projets par analyse de mots-clés, croisement avec Wikipedia et même des techniques d’apprentissage automatique. Les résultats n’étant pas probants, nous avons choisi de ne pas ajouter cette localisation.
 
notion image

Les tests

Les tests sont importants afin de valider les deux étapes précédentes.
Une synthèse des données sous forme tabulaire via la librairie skimr permet d’avoir un aperçu rapide de la répartition des données. Plusieurs membres de Toulouse Dataviz nous ont aussi aidé à valider ce jeu de données en produisant les premières visualisations du jeu de données dans le but de tester ces données.
Des tests unitaires de jointures pour valider l’homogénéité des noms de colonne ont été écrits. Le test des doublons est malheureusement passé entre les gouttes. Un grand merci à Nicolas R. et aux participants du Hackaviz qui nous ont signalé cette erreur sur le discord.

La documentation

Afin de publier les données pour le concours, nous avons rédigé une description du jeu de données, recherché les définitions nécessaires. La traduction de cette documentation en anglais nous a permis d’ouvrir le concours à l’international.
 
Ce travail de préparation s’est étalé sur plusieurs week-ends et près de 300 lignes de code R. Cela nous a permis d’explorer, avec plus ou moins de succès, des algorithmes de traitement du langage. Les méthodes les plus simples se sont avérées souvent plus efficaces que les méthodes d’apprentissage automatique. Nous avons pu acquérir une petite expérience dans l’automatisation du nettoyage et de l’enrichissement du jeu de données que nous espérons mettre en pratique pour le prochain Hackaviz.
 

Le premier prix

La réalisation de Reunan Bellec est conçue suivant des principes simples, sur le modèle d’une page de journal proposant différentes facettes d’exploration des données, chacune suivant son propre angle d’approche. Le diagramme de Sankey-Minard, ou diagramme alluvial, propose une vision très synthétique de la circulation de l’argent depuis organismes collecteurs vers les différents types d'aide puis vers les différentes œuvres. Une animation permet de voir les différentes aides se répartir et suivre les méandres du Sankey.
Les explications sur la copie privée et les organismes donateurs mènent directement le lecteur vers un nuage de mots, souligné par le milligramme de la copie privée. Ce nuage de mots n’est pas une simple représentation de la fréquence des mots présentant les œuvres, mais sert également, d’explorateur interactif. On se prend assez facilement au jeu, en survolant les termes pour en voir les montants cumulés ainsi que le principal type de manifestations et d’œuvres utilisant chaque terme, même pour les plus petits d’entre eux (cherchez l’étoile par exemple).
Mais le joyau de cette réalisation se situe en bas de page sous la forme de curieux points agencés harmonieusement et attirants le regard. L’exploration dévoile qu’il s’agit d’un réseau. Le réseau des 2000 plus gros financements, reliant les bénéficiaires (petits points) aux organismes collecteurs (gros points). L’exploration révèle les traits colorés des relations et permet au lecteur de comprendre les relations complexes que ce jeu de données révèle. L’ajustement spatial, intelligemment pensé, montre les projets aux multiples financements, les complémentarités entre organismes et les organismes ayant leur propre sphère de projets.  Bien que placé un peu en marge de la page, ce graphique est très fluide, d’une remarquable facture et d’une incroyable efficacité visuelle pour découvrir ce que l’on ne s’attendait pas à voir. Un tour de force très justement récompensé.
notion image
notion image
notion image

Le 2 ième prix

La contribution de l’équipe Vector prend un point de vue ‘impact du COVID’ pour raconter une histoire sous forme de visualisations interactives de très belle facture.
On y apprend notamment que la baisse apparente du montant de la collecte globale 2020 n’est pas due à un ralentissement des montants collectés par chaque organisme mais par la disparition dans les données de quatre d’entre eux qui ont pourtant continués à prélever : données incomplètes en 2020 !! Espérons une correction rapide avant de tirer des conclusions.
Le diagramme des cercles superposés par années permet d’apercevoir la persistance de quelques gros projets sur la durée. Bien ? Mal ? Pas de conclusion, juste des données.
notion image

Le prix spécial

La contribution de Brice Renouf a mérité toute notre attention : c’est une histoire bien amenée et présentée.
notion image
Un bon travail d’analyse a été effectué sur les bénéficiaires : de nombreux filtres mettent en avant l’approche choisie par l’auteur. Il est possible de calculer le montant horaire par type de bénéficiaires, de déterminer le festival ou le groupe qui a bénéficié le plus de fonds. De plus, c’est une des seules visualisations qui a fait l’effort de présenter un filtre par noms d’artistes. Je m’étonne encore des montants récupérés par mon artiste préféré ou ses ayant-droits.
La présentation est sobre et efficace. Le texte est très présent et raconte l’histoire avec une pointe d’humour. Il y a une seule visualisation, celle qui définit les organismes collecteurs. Elle est relativement simple, mais réussit à les présenter de manière intelligible.
Ce prix a été l’objet de débats parmi le jury. C’est une première : nous avons récompensé une dataviz avec le moins de dataviz possible. Mais un pourcentage, est-ce que ce n’est pas déjà une visualisation ? Après tout, ce nombre résume la donnée. Est-ce qu’un camembert aurait amélioré la lisibilité ? Et si parfois, la meilleure des visualisations, c’est de ne pas mettre en mettre du tout ?
Finalement, cette contribution nous a appris des choses en présentant les données de façon singulière et tout en nous amusant. C’est peut-être le principal.

Les autres prix et contributions

Tout est sur notre site web.
━━━━━━━━━━━━━━━━━━ Cette newsletter de Toulouse-dataviz a été rédigée avec l'outil Notion que nous aimons bien. Si vous lisez cette newsletter et que vous n'êtes pas encore inscrit au club, il vous suffit de cliquer ici. Pour se désinscrire demandez ici. Toutes les anciennes newsletters sont consultables ici. Vous pouvez aussi rejoindre nos communautés : Club ou Discord. Merci à nos sponsors qui soutiennent nos activités.