Classement Contes de Faits des sondeurs

Le classement Contes de Faits des sondeurs

Contes de Faits calcule son classement des sondeurs en analysant la performance historique de chacun d’entre eux au cours des trois dernières élections présidentielles. Les scores dépendent des tailles d’échantillon, des biais statistiques, de la performance des autres sondeurs au cours d’une même élection, et d’autres facteurs.

Note des instituts de sondage au premier tour des trois dernières élections présidentielles (2002-2012)

SondeurNote extrême-gaucheNote gaucheNote centreNote droiteNote extrême-droite
Sources : commission des sondages, sites des sondeurs, Sondothèque de Sciences Po, archives des journaux, sites d’open data et moteurs de recherche ; calculs Contes de Faits sur 316 sondages réalisés par l'ensemble des instituts de sondages (Ifop, Kantar Sofres, Ipsos, BVA, CSA, Harris Interactive, OpinionWay, LH2, Viavoice, YouGov, Polling Vox, Odoxa et Elabe).
BVACDDAB
IfopBDCAB
IpsosCCCAB
TNS SofresCBBAB
OpinionWayADCBB
Harris InteractiveBDCBB
LH2CCDCC
CSACDCDD
Ce tableau documente la note (allant en décroissant de A à D) de chaque sondeur pour chaque parti au premier tour des trois dernières élections présidentielles (2002-2012).

Une note de A indique que l'institut en question a mieux performé que l'ensemble des sondeurs en moyenne. Une note de D indique en revanche une moins bonne performance que le marché. Une note de B ou C signale une performance respectivement dans la moyenne supérieure ou la moyenne inférieure.
Par exemple, au premier tour des trois dernières élections présidentielles, Ifop a en moyenne mieux évalué le candidat de droite que l'ensemble des sondeurs, mais il a sous-performé le marché pour le candidat de gauche.

Voir ci-dessous pour plus de détails.

Comment Contes de Faits constitue-t-il son classement des sondeurs ?

Comparé aux États-Unis, le traitement statistique des élections dans la presse française reste artisanal. Le suivi des intentions de vote est assimilé à une course hippique où la spéculation informée occupe beaucoup plus de place que l’utilisation systématique des informations empiriques disponibles. Non pas que celle-ci soit inutile ou que celle-là soit la panacée. Mais il nous semble qu’un mix des deux est complémentaire.

De fait, l’approche actuelle, où chaque nouvelle observation chasse l’ancienne, ne tire pas pleinement profit des informations fournies par les sondages d’intentions de vote. Parce qu’on a le nez sur la vitrine, on n’a pas la vue d’ensemble. Le consensus est alors plus difficile à repérer que les données aberrantes, qui attirent notre œil parce qu’elles semblent raconter une autre histoire – même si ce n’est pas la bonne.

Deuxièmement, le traitement médiatique des sondages en France met implicitement tous les sondeurs sur le même plan, ne tenant compte ni de leur ancienneté (et donc des données historique disponibles sur leur performance), ni de leur méthodologie, ni de leurs biais statistiques. Peut-être cette non-discrimination correspond-elle à la manière optimale de comparer les sondages de différents instituts ? Mais cela mérite d’être prouvé. C’est le principe derrière notre classement des sondeurs.

L’idée est simple : certains sondeurs sont-ils structurellement meilleurs que d’autres ? Si oui, pourquoi ? Cela vient-il de leur méthodologie ou de facteurs exogènes ? Les sondeurs les plus connus ou les plus anciens sont-ils les meilleurs ? Les meilleurs aujourd’hui seront-ils les meilleurs demain ?

Plus globalement, le but est aussi d’interroger l’idée reçue selon laquelle « les sondages se trompent tout le temps » : qu’est-ce que signifie se tromper pour un sondeur ? Peut-on mieux faire avec les méthodes actuelles ? Y a-t-il d’autres méthodes de mesure d’intentions plus efficaces ?

L’état de l’art

A notre connaissance, il n’existe aucun classement des sondeurs dans le paysage français. Par classement des sondeurs nous entendons une classification selon leur performance passée. Une telle classification prend en compte l’ancienneté des instituts, leur méthodologie[1], la précision historique (mesurée par l’erreur moyenne)[2], les biais statistiques[3], la performance des autres sondeurs analysant la même élection (i.e. les house effects[4]), etc.

Au moins deux difficultés apparaissent quand on entreprend cette tâche. D’une part, le paysage politique français est assez complexe, notamment du fait de son multipartisme à deux tours – menant à des scenarios plus divers que le bipartisme à un tour des États-Unis par exemple.

De manière plus pratique encore, la France ne compte que treize instituts de sondages[5] actifs dans le domaine des études d’intentions de vote, quand les États-Unis en dénombrent plusieurs centaines. Cela induit une baisse du nombre de sondages dans notre base de données, mais ne remet cependant pas en cause le principe et l’intérêt d’un classement comparatif.

Maintenant que les principes sont établis, rentrons dans le détail !

Etape 1 : collecter et trier les sondages

Cela paraît trivial, mais c’est assez compliqué. Nous avons passé des heures à chercher et collecter les sondages en ligne, en remontant jusqu’en 1965 (date de la première élection présidentielle au suffrage universel) et en donnant la priorité aux sondages s’intéressant aux présidentielles.

Résultat : notre base de données contient tout simplement tous les sondages présidentiels dont nous avons eu connaissance – soit 386 sondages.

Les données n’étant jamais parfaites, nous avons dû faire certains arbitrages :

  • Les sondages sont rattachés à leur date médiane pas à leur date de publication. Par exemple, un sondage réalisé du 2 au 4 février et publié le 7 février sera daté du 3 février.
  • Contes de Faits nomme les sondages en fonction de l’institut, pas du média qui l’a commandé (par exemple, Ifop et non Paris Match). Le but est d’associer le sondage à l’entité qui a le plus contribué à sa méthodologie.
  • Les vieux sondages n’indiquent pas toujours leur taille d’échantillon. Pour Ifop et Kantar TNS, tous deux âgés, nous avons contourné la difficulté en utilisant le benchmark historique de 1000 inscrits. Pour les autres instituts, plus récents et pour lesquels nous avons moins de recul historique, nous utilisons 500 comme défaut.
  • En France, la plupart des sondeurs publient les résultats sur la base des électeurs inscrits sur les listes électorales. Néanmoins, quand un sondage était aussi publié sur la base des électeurs inscrits et certains d’aller voter, nous avons sélectionné cette dernière version.
  • Quand un sondage est publié en deux versions (une avec un ou plusieurs petits candidats ; une autre sans), nous prenons la version « avec », car nous considérons que c’est aux électeurs de sélectionner les candidats, pas au sondeur.

La distribution par institut de sondage et par élection est inégalitaire : plus un institut est ancien, plus nous avons de données sur lui ; plus une élection est récente, plus il y a de sondages disponibles. Par exemple, l’élection de 1965 n’a été analysée que par l’Ifop, alors que 2012 était suivie par huit instituts. Ce sont des limitations inhérentes à ce sujet d’étude, sur lesquelles nous n’avons pas de prise directe.

Nous pensons cependant qu’il reste quelques sondages présidentiels dans la nature –notamment pour les anciennes élections, pour lesquelles le travail de numérisation n’a pas été systématique. C’est pourquoi nous travaillons à élargir notre base de données, aussi bien pour les vieilles élections que pour d’autres types de scrutin (législatives, régionales etc.). Malgré les heures que nous lui avons consacrées, il est aussi possible que notre base de données contienne quelques erreurs – introduites par nous-mêmes ou provenant de nos sources.

Nos sources, justement, sont diverses et publiques : la commission des sondages, les sites internet des sondeurs qui ont publié leurs archives (à cet égard, l’ex TNS Sofres a fait un travail remarquable), la Sondothèque de Sciences Po[6], les archives des journaux, les sites d’open data et, tout simplement, les moteurs de recherche.

Un point délicat est de prendre en compte les méthodologies des sondeurs, notamment parce que la plupart des sondeurs ont la même méthode de collecte – à savoir des questionnaires auto-administrés en ligne. En l’absence de critère objectivement discriminant, nous n’attribuons pas de poids directement lié aux méthodologies. Toutefois, ces dernières influencent indirectement le classement, puisque l’une de nos hypothèses est qu’une bonne méthodologie est reflétée par une faible erreur standard sur le long terme. Parallèlement, si le besoin s’en fait sentir, Contes de Faits est prêt à modifier sa pondération pour privilégier les instituts dont les méthodes de collecte sont diversifiées (téléphones fixes et portables, questionnaires en ligne, big data)[7].

Terminons cette section par une question qu’on nous pose souvent : pourquoi ne pas inclure les sondages des primaires dans la base de données ? Premièrement, l’expérience américaine nous indique que les sondages de primaires présidentielles se trompent beaucoup plus que les sondages d’élections générales. Les raisons sont moins liées aux sondeurs ou aux États-Unis qu’à l’exercice des primaires : la participation est beaucoup plus basse ; les candidats sont proches idéologiquement et donc l’électorat passe plus facilement de l’un à l’autre ; les électeurs tardent à se décider. Il est donc fort possible que ces facteurs jouent aussi en France. Deuxièmement, l’exercice des primaires est très récent en France, ce qui diminue la significativité des résultats des sondeurs. Pour ces deux raisons, nous n’incluons pas les sondages des primaires dans notre classement – pour l’instant.

Etape 2 : calculer l’erreur ajustée par élection

Une fois les données récoltées et nettoyées, nous pouvons commencer à les traiter.

Le but de cette étape est de voir à quel point chaque institut s’est trompé au cours de chaque élection et pour chaque parti.

  • Pour une élection donnée, le modèle agrège tous les sondages, nous donnant ainsi une intention de vote pour chaque candidat – par exemple celle de François Hollande en 2012.
  • Cette agrégation est pondérée en fonction de la date de terrain du sondage et de la taille d’échantillon.
  • Ensuite, pour chaque candidat, le modèle compare l’intention agrégée au résultat obtenu par ce candidat au premier tour. Il obtient ainsi ce que l’on appelle « l’erreur du marché », c’est-à-dire l’erreur que l’on aurait observé si l’on avait écouté l’ensemble des sondeurs pour le candidat X.
  • En parallèle, et selon la même pondération, le modèle agrège les sondages de chaque institut pris séparément. De même que précédemment, en comparant ces nombres au résultat du premier tour, il obtient l’erreur de chaque sondeur pour chaque parti au cours de l’élection étudiée. Par exemple, si l’agrégation pour 2007 indique que l’Ifop donnait le candidat de droite à 25% au premier tour et que ce dernier a obtenu 29%, c’est une erreur de 4 points – notez que l’erreur est la même si le candidat obtient 21% le jour de scrutin.
  • Enfin, le modèle calcule la différence entre l’erreur du marché et l’erreur de chaque sondeur – ce qu’on appelle l’erreur ajustée. Cela nous permet de savoir si en 2007 par exemple, on se serait moins trompé en écoutant l’ensemble des sondeurs ou seulement l’institut Y.
  • Pour notre agrégateur du deuxième tour, nous ne faisons pas de classement des sondeurs, pour deux raisons principales. D’une part, les données disponibles sont moins nombreuses – une infime quantité de sondages avait étudié le deuxième tour en 2002, rendant cette élection inutilisable statistiquement. D’autre part, quand le nombre de sondages est suffisant, on s’aperçoit que les sondeurs sont trop proches pour les départager – d’une manière générale, ils performent tous bien.
  • Le lecteur attentif que vous êtes aura remarqué que notre focus se trouve sur la différence entre l’estimation du sondeur et le résultat final, non sur le fait que le sondeur a donné les bons vainqueurs. Parce que cette dernière approche n’est pas une bonne mesure de la précision : dans une élection remportée de 1 point par LR, un sondage qui donnait le PS vainqueur de 1 point était bien plus précis que celui qui donnait LR vainqueur par 10 points.

Etape 3 : calculer l’erreur ajustée totale

  • En renouvelant les calculs de l’étape 2 pour les trois dernières élections présidentielles, on obtient l’erreur ajustée par sondeur, par parti et par élection.
  • Le modèle fait alors la moyenne pondérée de ces erreurs sur toutes les élections. On obtient ainsi l’erreur ajustée totale, toujours par parti et par institut. Autrement dit, nous avons établi la performance au cours du temps de chaque sondeur, pour chaque parti.
  • Nous pondérons cette moyenne pour donner plus de poids aux deux dernières élections. Car 1/ elles reflètent mieux les techniques utilisées par les sondeurs à l’élection suivante ; 2/ il était plus difficile de sonder en 1970 que ça ne l’est en 2017; donner moins de poids aux anciennes élections permet de ne pas pénaliser artificiellement des instituts (essentiellement Ifop et Sofres) qui ont au moins eu le mérite de sonder des élections compliquées.

Etape 4 : transformer les erreurs en poids et faire le classement

Nous y sommes presque !

  • Le modèle attribue alors un poids à chaque institut, le meilleur (celui qui a la plus petite erreur) pesant le plus et le moins bon (celui qui a la plus grosse erreur) pesant le moins.
  • Dernière étape, plus ludique que fonctionnelle, nous transformons l’erreur ajustée totale de chaque institut pour chaque parti en une note (de A à D, par ordre décroissant), que vous pouvez voir dans le tableau en haut de cette page. Cela permet de se rendre compte que la hiérarchie change selon le parti analysé et que peu de sondeurs sont structurellement parmi les premiers; d’où l’intérêt d’agréger les sondages plutôt que d’espérer que l’un d’entre eux tire dans le mille.

Utiliser les classements – sans les croire à tout prix

Comme toujours en statistiques, il faut interpréter les chiffres avec prudence. C’est d’ailleurs le fil rouge paradoxal de Contes de Faits : utilisez les statistiques, mais ne croyez pas en elles.

A cet égard, les résultats des jeunes instituts doivent être interprétés avec une certaine retenue – tout simplement parce qu’on ne dispose pas encore de beaucoup de données sur leurs performances. Après tout, un institut créé en 1995 par exemple n’a connu que trois élections présidentielles ; la Vème République n’en a elle vécue que 9. Sur des échantillons aussi petits, la régression vers la moyenne reste significative – tout comme le facteur chance. Voyez ça comme un athlète qui vient de commencer sa carrière : même s’il a l’air talentueux, on ne peut en faire un titulaire incontournable immédiatement.

A cela s’ajoute le fait que chaque élection a ses particularités et qu’ainsi les méthodes qui fonctionnaient hier ne fonctionneront pas forcément demain. Au fond, le traitement statistique des données vient nous rappeler ce que la vie politique nous fait souvent oublier : la réalité est toujours plus compliquée que les slogans. En cela, il aide à progresser de la certitude ignorante à l’incertitude réfléchie.

Un classement pour trois enseignements

Nous l’avons vu, les sondages sont entourés de bruit statistique et les mauvais sondeurs peuvent avoir un coup de chance. Mais les performances des différents instituts sont relativement prévisibles – dans la mesure où l’on peut inférer des informations pertinentes de leurs performances passées :

  • Des mauvais résultats répétés sur des dizaines voire des centaines de sondages doivent devenir une source d’inquiétude
  • La hiérarchie entre les sondeurs change selon le parti analysé et selon les années. Nos calculs montrent aussi que les mauvais sondeurs sont plus mauvais que les bons ne sont bons. Par exemple, pour la droite, le meilleur est 0,85 points de pourcentage au-dessus de la moyenne, tandis que le moins bon est 1,46 point en-dessous.
  • Cela veut dire que s’il est compliqué de progresser, il est facile de régresser. Cela veut aussi dire qu’il sera presque toujours plus judicieux d’agréger les sondages plutôt que d’attendre que l’un d’entre eux tire dans le mille.
  • Les observations étant peu nombreuses (9 élections depuis 1965), les tendances sous-jacentes mettent du temps à se manifester : ne présupposez pas que tel institut est au-dessus du lot parce qu’il a eu de très bons résultats à l’élection précédente (surtout s’il est récent), parce qu’il est prestigieux ou parce qu’il est partenaire d’un média renommé.

Surtout, un tel classement est utile au-delà de la hiérarchie mouvante qu’il établit. Il est en effet l’un des piliers de notre agrégation et de nos probabilités de victoire.

 

[1] Taille d’échantillon ? Dates de terrain ? Base des interrogés (adultes, inscrits ou certains d’aller voter) ? Méthode de collecte des données (téléphone, internet…) ?

[2] Différence entre la marge finale et la marge annoncée par le sondeur

[3] De combien les résultats d’un institut sont biaisés vers un parti ou un autre par rapport aux résultats finaux ?

[4] De combien les résultats d’un sondeur s’éloignent-ils des autres sondeurs ?

[5] Par ordre chronologique de création : Ifop, Kantar Sofres (ex TNS Sofres), Ipsos, BVA, CSA, Harris Interactive, OpinionWay, LH2 (ex Louis Harris, désormais rattaché à BVA), Viavoice, YouGov, Polling Vox, Odoxa et Elabe.

[6] que nous remercions pour cette initiative, éminemment précieuse pour les chercheurs

[7] La différence entre les diverses méthodes se joue moins dans la qualité intrinsèque que dans les publics qu’elles permettent d’atteindre : meilleur accompagnement des sondés, moins d’incompréhension des questions, facilite l’expression des « shy voters », atteint de nouveaux publics…