La carte du mot « agriculteur » sur twitter

J’ai fait cette carte du réseau twitter sur le mot « agriculteur ».

Elle a circulé le 19 juin à l’occasion du colloque Afia les « Réseaux Sociaux et l’agriculture » qui s’est tenu à Paris et qui a regroupé une cinquantaine de personnes. Cette carte a fait un petit buzz car elle a été retweeté un bon nombre de fois (en tout cas à mon échelle).

Je vais décrire ici comment je l’ai créé à partir des données de twitter et à l’aide de deux outils : NodeXL et Gephi. Et la commenter!

Carte du mot agriculteur sur twitter

La réalisation de la carte

J’ai réalisé cette cartographie en utilisant plusieurs tutoriels en anglais. Il suffit de chercher un peu sur le net pour trouver de très bon tuto et des vidéos sur youtube, donc je ne vais pas trop détailler la procédure mais surtout commenter mon expérience. La première étape consiste à télécharger les données que l’on souhaite cartographier pour en faire un sociogramme. En l’occurrence je m’intéresse ici aux données de twitter. On pourrait faire le même type de carte avec facebook ou d’autres sources de données. Pour débuter je trouvais twitter plus intéressant et simple d’utilisation.

La première étape consiste à utiliser l’outil NodeXL, qui est un classeur Excel (template) fonctionnant avec Excel 2007, 2010, 2013. Cet outil permet de faire des cartes de réseaux, mais leur rendu étant moins sympa que Gephi, je me servirai uniquement de NodeXl pour charger les données de l’API twitter.

Une fois NodeXl téléchargé et que vous l’avez lancé (il suffit de lancer le fichier NodeXL.xlsx), il faut cliquer sur Importer. La fenêtre d’importation permet de saisir toutes les infos nécessaires à l’importation des données. Si vous souhaitez faire une importation par mot-clé, il vous suffit de le saisir dans la zone de texte prévue. Vous pouvez aussi utiliser les opérateur de recherche de twitter pour combiner des mots. Pour mon importation, j’ai choisi l’option « basic network plus friends », pour importer les nœuds connectés au comptes qui contiennent le mot clé recherché : agriculteur. Le temps de chargement sera long avec cette cette option car il y a plus de nœuds à charger. Il faut ensuite autoriser l’accès à l’API de twitter. pour cela il faut disposer d’un compte twitter et l’utiliser. Une authentification est nécessaire la première fois. La vraie contrainte est la limitation de l’API de twitter qui limite le nombre de requêtes (rate limit). Mais NodeXL gère cela parfaitement. Vous pouvez limiter le nombre de tweets que vous souhaitez obtenir. En cas de dépassement du trafic requêté, NodeXL effectuera des pauses de 15 minutes à chaque requête pour respecter les conditions d’accès de l’API. Il faut savoir que ma requête sur le mot agriculteur a mis plus de 24h… Il faut donc régler son ordinateur pour ne pas qu’il se mette en veille sinon vous devrez tout recommencer…

Une fois que votre requête s’est correctement exécutée vous devez retrouver dans les onglets « Edges » et « Vertices » les données. Il peut être utile de vérifier le nombre de lignes de ces onglets. Pour comprendre votre carte vous aurez à revenir dans ce fichier plus tard pour analyser le contenu des tweets. A ce stade, il suffit de retenir que dans l’onglets « vertices », on va retrouver les comptes twitters impliqués dans la requête (les nœuds), et dans l’onglet « edges », les relations entre les nœuds (follows, mentions, reply to, tweet).

Il est tout à fait possible de créer des sociogrammes avec NodeXL. Mais le rendu étant plus beau dans Gephi, je préfère passer les données dans ce deuxième outil. Pour cela il suffit d’exporter les données au format Graphml (Export/To Graphml file) et de télécharger le logiciel Gephi.

Une fois Gephi lancé, il faut cliquer sur ouvrir, puis sélectionner le fichier graphml enregistré précédement. A l’ouverture de l’assistant d’importation laisser les options par défaut et cliquer sur OK. L’environnement de Gephi comprend 3 onglets (vue d’ensemble, laboratoires des données, prévisualisation). L’essentiel du travail va se faire depuis l’onglet « vue d’ensemble ». Au départ, on retrouve un gros paquet gris comprenant les nœuds et les liaisons. Il n’y a aucun classement à ce stade. Tout le reste du travail va consister à appliquer des algorithmes pour classer les données et rendre le graphe lisible.

Pour cela il faut aller dans le menu « Statistique’ (à droite de l’écran). Nous allons dans un premier temps affecter des tailles différentes aux nœuds selon leur importance (c’est à dire leur nombres de connexions). Je commence par appliquer la méthode « Centrality Eigenvector » (en cliquant sur exécuter). Je laisse les données par défaut et je clique sur OK, un graphique de distribution apparaît, cliquer sur Fermer. Rien ne change dans notre sociogramme. Pour appliquer graphiquement l’algorithme, il faut aller dans le menu « Classement » (à droite de l’espace de travail), rester sur l’onglet « Nœud », cliquer sur le diamant rouge (qui représente la taille/poids) et choisir le paramètre de classement « eigencentrality » (il faut peut être rafraîchir la liste s’il n’apparaît pas), puis cliquer sur appliquer. Pour jouer sur la taille des nœuds, vous pouvez bouger les curseurs. A ce stade, vous voyez des nœuds plus gros que d’autres apparaître, mais cela reste encore assez confus.

Nous allons ensuite appliquer des regroupements. Dans le menu « Statistique », nous allons exécuter l’algorithme « Modularité ». On laisse les options par défaut et on ferme le graphique de distribution. Ensuite pour appliquer graphiquement cet algorithme nous allons dans le menu « Partition » (à gauche). En cliquant sur la double flèche verte, on rafraîchi la liste déroulante de ce menu. Choisir « Modularity Class », puis appliquer. Les nœuds vont alors se colorer selon leur « communauté », formant des classes de couleur dépendant de leur proximité.

Reste ensuite à appliquer une méthode de spatialisation pour répartir dans l’espace de façon plus lisible les nœuds (les nœuds vont s’écarter et se regrouper par classe de couleur). Il faut faire des essais et retenir l’algorithme qui vous plait le plus. Dans mon cas, j’ai retenu « Force Atlas ». Enfin, j’ai choisi de faire apparaître les labels (les noms des comtes twitter, en cliquant sur la lettre « T » en bas de la carte). Il faut ajuster la taille, puis exécuter à nouveau un script de spatialisation (ajustement des labels). Il est possible de retirer certains nœuds non significatifs s’il y en a encore trop de nœuds et que le graphe est illisible. Pour cela, il faut jouer avec les filtres du menu « Filtre » » à droite. En l’occurrence, j’ai utilisé le filtre « plage de degrés » de la catégorie « topologie ». En jouant sur les curseurs, j’ai nettoyé un peu mon graphe en retirant des nœuds qui ont peu de liaisons avec les autres.

La finalisation du rendu se fait dans l’onglet « Prévisualisation », là il faut faire des essais avec les propriétés du graphe.

La description de la carte

La carte obtenue présente 5 groupes de couleur. La groupe jaune est très représentatif de la twittosphère agricole avec des comptes très connus comme les sites d’information agricole : terrenetfr, wikiagri, franceagricole, lavieagricole,… ou des personnalités qui twittent beaucoup comme herve_pillaud, cathdagorn, remdumdum, bourgemain,… Ces comptes on tweeté ou retweeté plusieurs fois le mot « agriculteur » sur la période requêtée (du 29/05/2015 au 06/06/2015). Leur proximité explique la taille élevée des bulles et leur regroupement.

Le groupe vert au centre de la carte comprends de nombreux site d’information généralistes comme lemondefr, franceinfo, 20mintutes, afpfr, le_figaro. Leur proximité s’explique par le fait qu’ils sont tous des sites d’info généralistes qui se suivent. Mais pourquoi sont ils présents dans cette cartographie? Il se trouve qu’ils ont tweetés ou retweettés une info concernant un fait d’hiver (meurtre dans une truffière) impliquant un agriculteur.

Meurtre dans une truffière: 12 ans de réclusion requis contre un agriculteur http://t.co/uN4JUF937U #AFP

— Agence France-Presse (@afpfr) 29 Mai 2015

//platform.twitter.com/widgets.jsPlus troublant encore, le groupe turquoise en haut de la carte, constitué d’un grand nombre de comptes avec des petites bulles. On y retrouve plusieurs comptes de personnalité ou de sympathisants du front national o d’extrême droite (marion_m_lepen, elyseemarine,…) ! Il se trouve que durant cette période, il y a eu un tweet, extrêmement retweeté dans cette communauté avec le mot agriculteur… la proximité des comptes a fait le reste…

Soutien total à mon ami Philippe #Layat, le dernier agriculteur de #Décines exproprié par @gerardcollomb et @JM_Aulas pic.twitter.com/oyKVSAgHNt — Romain Vaudan (@RVaudan) 1 Juin 2015

//platform.twitter.com/widgets.js

Le groupe bleu est un groupe de chaînes de télé (france2tv, télé2semaines, morandinibiog,…)

Enfin le groupe rouge, très atypique, est constitué du fan club de Kev Adams. Celui-ci a tweeté une photo de lui parodiant un agriculteur. Le tweet a été retweeté par son fan club…

Kevin, 23 ans, jeune agriculteur à la recherche de l’amour.@kevadamsss pic.twitter.com/XQ3l95cSFx

— MERCI KEV (@laura_hnq) 29 Mai 2015

//platform.twitter.com/widgets.js

Et voilà l’explication de cette carte qui n’a de sens que prise dans son contexte (période de requête) et en explorant les données ! Vous pouvez désormais réaliser les vôtres et les partager… De mon côté, je pense que je vais en faire d’autres.

Analyse des conditions climatiques extrèmes en Russie

climat, data

Situation climatique extrême

La vague de chaleur qu’a connu cet été la Russie apparait clairement sur ce graphique publié par le scientifique spécialiste du climat Joe Wheatley. Les mois de juin et de juillet 2010 ressortent de manière très significative du nuage de points des situations climatiques mensuelles. Je trouve cette représentation graphique très parlante. Elle se base sur un calcul d’index climatique standardisé. On retrouve sur l’axe des abscisses l’index des températures et sur l’axe des ordonnées l’index des précipitations. Si l’index est proche de O, cela signifie qu’on est dans une situation mensuelle normale (proche de la médiane), pour un indice de pluie de +1 à +1,5 on est dans une situation modérément humide, de +1,5 à 2 très humide, supérieur à 2 extrèmement humide etc. Cette méhode de calcul d’index est relativement récente, les premiers travaux qui ont permis de mettre au point ce calcul datent du début des années 1990 (T.B. McKee, N.J. Doesken, and J. Kleist, Colorado State University, 1993.) et est très utilisée aux Etas-unis. On trouvera d’ailleurs ici des cartes utilisant cet index avec une vision de la situation mensuelle, bi-mensuelle, trimestrielle, jusqu’à annuelle. Je ne sais pas si cet index est utilisé en France, mais il est facile à comprendre et tient compte d’une situation normale pour un lieu et une période donnée (qui peut varier du mois jusqu’à l’année).

On voit donc que le mois de juin a été la situation la plus extrème en terme de température et de pluie qu’ait connu la Russie depuis 1948 (l’analyse a été faite sur un jeu de données couvrant la période 1948-2010). Juillet un peu moins extrème n’a pas été mal non plus… A ce jour l’impact réel sur la récolte de céréales en Russie n’est pas encore connu. Les experts pensent cependant qu’il y aura une diminution de près de 30% de la récolte par rapport à 2009. Le cours des céréales n’a pas tardé a prendre la mesure de ces prévisions et s’est enflammé et l’inflation grimpe en Russie.

FAOSTAT ouvre gratuitement à tous ses bases de données

data

D’après le site FAOSTAT

La FAO (Organisation de l’alimentation et l’agriculture des nations unies) a annoncé très récemment que sa base de données internationale FAOSTAT, la plus grande base de données statistique sur l’agriculture et l’alimentation, est désormais en accès libre et gratuit.

Il était déjà possible de télécharger un certain nombre de données gratuitement depuis ce serveur – qui contient plus d’un million de données pour 210 pays et territoires – mais l’accès aux grosses extractions statistiques nécessitaient un abonnement annuel payant.

« Nous fournissons totalement gratuitement cet immense quantité de données », a dit Hafez Ghanem, le directeur général adjoint pour le dévelopement économique et social. « Ces informations constituent un outil important pour la lutte contre la pauvreté, promouvoir un développement durable et éliminer la faim dans le monde. Les économistes, décideurs des pays en développement, où ces outils sont les plus utiles, pourront y accéder et en faire bon usage. »

Ghanem a aussi noté que cette avancée de la FAO pour fournir plus facilement son vaste référentiel faisait suite à une demande issue d’une évaluation externe et indépendante réalisée au sein de l’organisation en 2008.

FAOSTAT est un outil puissant qui peut non seulement être utilisé pour observer où la faim touche le plus les populations, mais aussi pour comprendre pourquoi le problème de la faim se produit, a ajouté Pietro Gennari, le directeur de la division Statistique. Il est spécifiquement conçu pour assurer un suivi, des analyses et informer, sur les politiques publiques propres au développement rural et à la lutte contre la faim. En ce sens cet outil est unique.

FAOSTAT peut être utilisé pour analyser les marchés internationaux, identifier les secteurs où l’aide peut être mieux ciblée. L’outil intègre des données sur les productions agricoles et agro-alimentaires, l’utilisation des intrants (fertilisants et persticides), les aides internationales, la production forestières et pêches, l’irrigation et l’utilisation de l’eau, les surfaces, la démographie, les marchés, le machinisme, etc.

FAOSTAT peut être consulté en langue anglaise mais aussi française ! Il permet l’organisation des requêtes dans des tableaux et graphiques ou exporter vers Excel. Les données d’origines proviennent des pays et sont standardisées. L’historique des données date de 1961, c’est à dire l’avènement de la Révolution Verte.

Après avoir testé, j’ai trouvé qu’effectivement on pouvait faire un grand nombre de requêtes simplement. Les séries statistiques s’arrêtent souvent pour la France en 2006 ou 2007. Il n’y a donc pas vraiment de possibilité d’usage sur des données très récentes. Les services Statistiques Français qui doivent être les fournisseurs de ces données ne sont donc pas très réactif dans la mise à disposition de ces données (où l’intégration est plus longue du côté FAO). En tout cas, la vision internationale est intéressante en plus de l’historique.

The latest updates from The Food and Agriculture Organization of the United Nations shows that (FAO) is granting free and open access to its central data repository, FAOSTAT, the world’s largest and most comprehensive statistical database on food, agriculture, and hunger, the UN agency announced today.

Previously, it was possible to download without charge a limited amount of information from FAOSTAT – which contains over one million data points covering 210 countries and territories — but access to larger batches of statistics required a paid annual subscription.
We are now providing totally free access to this immense pool of data, said Hafez Ghanem, FAO Assistant Director General for Economic and Social Development. This information is an important tool in the fight to alleviate poverty, promote sustainable development and eliminate hunger. We’re particularly keen on making sure that economists, planners, and policy-makers in the developing world, where that tool is needed most, can get at it and put it to good use.

Ghanem also noted that the move forms part of an ongoing FAO effort to provide easier and more direct access to its vast information assets, an initiative that came out of an independent external evaluation and strategic planning process initiated by FAO’s Members in 2008.

FAOSTAT is a powerful tool that can be used not just to see where hunger occurs, but to drill down and better understand why hunger occurs — and what might be done to combat it, added Pietro Gennari, FAO Statistics Division Director. It’s especially designed to support monitoring, analysis and informed, evidence-based policy-making specifically related to rural and agricultural development and hunger reduction, the only tool of its kind.”

In addition to aiding development planning, the information contained in FAOSTAT gives developing countries the intelligence they need in order to participate in and benefit from international trade in an effective and competitive manner. Donor countries can also use it to identify specific sectors where aid might be most effectively targeted. FAOSTAT includes data on agricultural and food production, usage of fertilizers and pesticides, food aid shipments, food balance sheets, forestry and fisheries production, irrigation and water use, land use, population trends, trade in agricultural products, the use of agricultural machinery, and more.

FAOSTAT can be consulted using English, French or Spanish and allows users to select and organize the statistical information into tables and charts according to their needs and to download it in Excel format. The original statistic data is supplied by individual countries and regional development organizations in standardized formats. Records go back to 1961, the dawn of the Green Revolution. This reservoir of knowledge is already being used by economists, planners and national development authorities, donor agencies, international aid organizations, other UN agencies, NGOs, academic researchers, investors – and farmers.

Current subscribers who will now have free access to FAOSTAT include international news agencies, development institutions, universities, government ministries and international organizations.

L'agriculture en data

Infographies & dataviz agricoles, l’agriculture en data et en images numériques