Comment Contes de Faits calcule-t-il l’agrégateur de popularité ?

Publié le 24/10/2017
Par Alexandre Andorra et Bérengère Patault

Les prochaines échéances électorales peuvent vous sembler distantes. C’est vrai pour les présidentielles. Mais les Européennes auront lieu en 2019, dans moins de deux ans. Quelle que soit l’élection, les futurs candidats doivent se positionner dès maintenant sur les diverses initiatives d’Emmanuel Macron.

Et leur sort sera, au moins en partie, lié à celui du président : historiquement, la popularité du locataire de l’Elysée est un bon indicateur des futures performances électorales de son parti.

C’est pourquoi nous avons lancé le premier agrégateur de popularité en France. Vous connaissez notre refrain maintenant : deux sondages valent mieux qu’un ; et plusieurs valent mieux que deux. En agrégeant les données vous obtenez une vision plus claire, plus fiable et moins volatile : les valeurs extrêmes se compensent, le bruit statistique diminue et vous avez plus de chances de repérer le signal envoyé par les données. D’où l’intérêt de nos agrégations.

Techniquement, l’agrégation se justifie par l’existence inévitable de biais, à la fois dans les données utilisées par les sondeurs et dans leurs méthodes. Souvent, ces biais sont propres à chaque sondeur, si bien que l’agrégation de différents sondages, issus de différents instituts, utilisant différentes méthodes, tend à neutraliser les biais. Si elle sert dès la publication du deuxième sondage, l’agrégation est d’autant plus utile quand 1/ de nombreux sondages sont disponibles, 2/ ces sondages sont issus de sources (méthodes, échantillon, institut) différentes, et 3/il est difficile de savoir a priori quel institut sera le plus précis. Le paysage électoral français remplit bien ces conditions.

A l’image de nos pronostics électoraux, l’agrégateur de popularité utilise tous les sondages, mais les pondère en fonction de leur ancienneté, de leur méthode et de leur taille d’échantillon. Vous trouverez ci-dessous une présentation plus détaillée de notre méthode.

Collecter les sondages

Nous utilisons tous les sondages publics. Nos sources sont diverses et publiques : la commission des sondages, les sites internet des sondeurs, les archives des journaux, les sites d’open data et, tout simplement, les moteurs de recherche.

Si vous constatez qu’il manque un sondage dans notre base de données, c’est probablement que :

  • il est très récent et nous n’avons pas encore eu le temps de l’intégrer
  • nous l’avons intégré sous un nom diffèrent de celui que vous cherchez : Contes de Faits nomme les sondages en fonction de l’institut, pas du média qui l’a commandé (par exemple, Ifop et non Paris Match)
  • il a été réalisé par un institut inconnu jusque-là, sur lequel nous n’avons pas assez d’informations méthodologiques
  • il a été commandé directement par un parti politique ou la campagne d’un candidat

Précision importante, les sondages qui ne respectent pas les règles de la commission des sondages ne sont pas inclus dans notre base de données. En particulier, nous excluons de notre base de données les simulations de vote réalisées sur des échantillons d’internautes par des journaux ou tout autre site. D’une part, ces enquêtes n’ont rien à voir avec des sondages au sens statistique du terme – cela revient à mesurer la popularité du PSG en interrogeant ses supporters par exemple. D’autre part, ce ne sont pas non plus des sondages selon la loi : « les enquêtes de ce type, qui ne sont pas menées auprès d’échantillons représentatifs de la population, ne constituent pas des sondages entrant dans le champ de la loi du 19 juillet 1977 ».

La quasi-totalité des sondages de popularité interrogent des échantillons représentatifs de la population française de plus de 18 ans. Par souci d’exhaustivité, nous intégrons aussi les sondages sur d’autres populations (inscrits sur les listes électorales, électeurs certains d’aller voter…), mais quand il y a plusieurs versions d’un même sondage, nous privilégions la version représentative de la population adulte. C’est en effet le périmètre d’étude traditionnelle, ce qui permet une comparaison historique des différentes cotes de popularité.

Enfin, chaque sondage a une date de terrain. Les sondeurs indiquent les dates de début et de fin. Les dates indiquées dans notre modèle correspondent à la date médiane. Par exemple, si un sondage s’est déroulé du 2 au 4 février et a été publié le 7, le modèle le datera au 3 février.

Nous ne prenons pas en compte la date de publication – et vous encourageons à en faire de même lorsque vous analysez un sondage. Ce qui compte, c’est le moment où les sondés ont répondu aux questions, pas le moment où leurs réponses apparaissent dans la presse.

Pondérer les sondages

La méthode de collecte des données est au moins aussi importante que leur analyse. Contrairement aux sondages d’intentions de vote, les instituts français utilisent des méthodes différentes quand ils interrogent la popularité de l’exécutif. Cela renforce encore la robustesse de notre agrégation. La majorité en reste aux questionnaires auto-administrés en ligne, mais certains – comme parfois l’Ifop – mélangent internet et téléphone. D’autres, comme Kantar TNS, interrogent même leurs panels en face à face.

Notre agrégateur donne ainsi plus de poids aux instituts qui recourent à des méthodes de collecte diversifiées ou à l’interrogation en personne.

Les sondages sont aussi pondérés selon leur taille d’échantillon : un échantillon plus gros donne plus de poids au sondage dans l’agrégateur, mais les rendements sont décroissants à partir d’un certain point. L’erreur diminue substantiellement entre un échantillon de 1 000 adultes et un autre de 200, mais elle diminue marginalement entre un panel de 10 000 et une autre de 1 000. Surtout, un échantillon aléatoire de 2 000 réponses est bien plus utile qu’un échantillon biaisé de 20 000 réponses. Au bout d’un moment, la qualité compte plus que la quantité.

Enfin, plus un sondage est récent, plus il a de poids dans l’agrégation. En résumé donc, notre agrégateur tient compte de la méthodologie, de la taille d’échantillon et de l’ancienneté de chaque sondage.

Satisfaction, approbation, confiance ?

Comparer les sondages de popularité n’est pas toujours immédiat, parce que la question posée varie selon les instituts. Kantar et Elabe demandent aux sondés s’ils font confiance au président pour résoudre les problèmes actuels. Les autres interrogent en général sur l’action du président (Ipsos, YouGov), ou sur la satisfaction envers le président (Ifop, BVA, ViaVoice).

L’idéal serait que la question posée soit la même à travers les instituts 1. Mais nous considérons que ces questions sont assez proches pour être agrégées sous l’appellation « popularité ».

Faire parler les données

Pour évaluer la popularité du président et du premier ministre, nous utilisons une régression locale polynomiale. En bref, c’est la ligne continue que vous voyez sur le graphique, et qui fait ressortir la tendance sous-jacente à partir des données ponctuelles (les petits points qui entourent la courbe). Grâce à la pondération détaillée plus haut, les sondages les plus récents et/ou de plus grande qualité pèsent plus lourd dans l’agrégation.

Comme toute inférence statistique, cette analyse est associée à des incertitudes, que nous illustrons avec les deux aires colorées, qui, sur le long terme, doivent contenir 99% des sondages. Pour chaque valeur de l’agrégateur, l’aire vous donne l’intervalle dans lequel la vraie valeur de la popularité se trouve, avec 99% de chances.

Popularité Macron agrégée par Contes de Faits

Par exemple, début octobre, l’indice de popularité d’Emmanuel Macron s’établit à 40,7%, avec un intervalle de confiance de plus ou moins 10 points. Autrement dit, si tous les Français de plus de 18 ans allaient aux urnes le 1er octobre 2017 pour exprimer leur satisfaction envers le président, il y aurait 99% de chances que le résultat se trouve entre 30% et 50% de « oui ».

Vous remarquerez que la largeur de l’aire n’est pas monotone. C’est parce que cette largueur dépend notamment du degré de désaccord entre les sondages et du nombre de sondages sur la période (plus de sondages = moins d’incertitude).

Soulignons enfin que les cotes de popularité tendent à être plus volatiles en début de mandat, ce qui incite à avoir en tête une diversité de scénarios pour le déroulement de la présidence Macron.


Nos remerciements à Ifop, Ipsos, Kantar et BVA pour l’accessibilité de leurs archives.

Alexandre Andorra et Bérengère Patault sont les fondateurs de contesdefaits.org

Notes:

  1. Elle est l’est au sein de chaque institut au cours du temps.