=====================================================================
20ème chronique raisonnable, pour :
o apprendre à soumettre à la critique les informations reçues
· prévenir les manipulations et
· démonter les croyances,
« Être libre, c’est ne plus avoir peur et être responsable de sa vie ».
Continuons ensemble l’étude des pièges d’un usage malicieux des mathématiques : apprendre à compter pour ne pas s’en laisser conter. Rappelez-vous l’émission précédente !
Nous avons vu un des critères de base de la statistique, avec l’étude des sondages et le choix de l’échantillon. Constituer des échantillons et les qualifier est une des applications importantes de la statistique. Il s’agit d’avoir des informations sur des populations très grandes à moindre coût, de déduire des propriétés d’une population à partir de celles d’un échantillon. Mais l’échantillon doit pouvoir être jugé représentatif de l’ensemble de la population et nous avons vu des cas où il ne l’était pas. On retiendra donc qu’un bon échantillon représentatif d’une population doit être suffisamment grand, c’est sa vertu quantitative, et non biaisé c’est sa vertu qualitative. Pour que l’échantillon soit non biaisé, on considère qu’il doit être choisi au hasard.
Dans cette émission,, nous allons continuer notre étude des sondages et échantillonnages qui fleurissent dans les médias en cette période électorale.
Nous allons aborder la notion de marge d’erreur. Prenons un exemple. On interroge 2000 personnes en Gironde, en leur demandant de répondre par oui ou par non sur une question d’opinion claire et précise. Le sondage se fait par téléphone et les personnes sondées ont été choisies au hasard par un ordinateur dans un annuaire téléphonique du département. Ce sondage semble répondre à la norme que nous nous sommes fixée, pourtant ce sondage aura toujours un biais puisque les plus démunis n’ont pas de téléphone, les sans logis ne sont donc pas correctement représentés dans cet échantillon. Un bon sondage dira donc qu’il est précis avec une marge d‘erreur de 5% par exemple. Ce chiffre donne l’erreur d’échantillonnage et l’intervalle de confiance du sondage. On dira que les résultats du sondage ont une valeur comprise entre les résultats donnés plus ou moins 5%. Par exemple, si l’on parle de la popularité de Nicolas Sarkozy, établie en janvier 2012 par sondage à 49% et qu’elle est établie en avril 2012 par le même sondage à 53%. On pourra affirmer que la popularité du Président de la République française était établie entre 44% et 54% en janvier 2012 et qu’en mars 2012 sa popularité était établie entre 48% et 58%. De là à dire qu’il y a eu une hausse ?!
La marge d’erreur dépend de deux facteurs :le prélèvement de l’échantillon et la formulation des questions.
Une bonne question n’est ni biaisée ni ambiguë. Tous les sondés doivent la comprendre de la même manière, tous peuvent y répondre et tous consentent à y répondre sincèrement.
Quelle valeur pensez-vous qu’aurait un sondage sur la sécurité qui poserait ainsi la question ?
Compte tenu de l’augmentation du nombre de dangereux anarchistes et de l’efficacité démontrée des matraques Bing pour les ramener à la raison d’Etat, approuvez-vous le remplacement des matraques désuètes de la Police par les matraques économiques et ergonomiques de marque Bing ?
Bon d’accord, ici le biaisage de la question saute à l’oreille ! Mais ce n’est pas toujours aussi facile à voir ou entendre. De nombreux facteurs interviennent : l’ambiguïté de la question, les termes employés, la nature de l’information recherchée, voire l’identité du sondeur.
Par exemple « Lisez-vous Le Figaro ? » peut sembler clair et précis, pour autant il y a plusieurs interprétation : le lisez-vous tous les jours, de temps en temps, souvent, en partie, en entier, …
De même, si vous demandez : « consommez-vous beaucoup d’alcool ? », la réponse sera différente pour chaque personne suivant son appréciation de ce qui est beaucoup.
Nous noterons aussi l’existence de débats sur la légitimité des sondages en politique, les sondages d’opinions, et les sondages préélectoraux. Ce débat inclut la place des sondocrates dans la société. On remarquera qu’en physique quantique on reconnaît que l’observateur modifie l’expérience observé, ainsi le sondage modifie ce qu’on appelle l’opinion. On lira aussi Bourdieu qui remet en cause les présupposés du sondage d’opinion : « tout le monde a une opinion sur tout », « toutes les opinions se valent », « il y a un consensus sur les problèmes, sur les questions à poser ». Pour Bourdieu, « l’opinion publique que dévoile les sondages est un artefact pur et simple, dont la fonction est de dissimuler que l’état de l’opinion à un moment donné du temps, est un système de forces, de tensions, et qu’il n’est rien de plus inadéquat pour représenter l’état de l’opinion qu’un pourcentage. »
Des données recueillies par les sondages, on peut tirer des analyses, et établir des liens entre certains caractères. Pour autant on retiendra qu’il y a une grande différence entre corrélation et causalité. Ensuite, on remarquera un phénomène statistique étonnant que l’on appelle la régression vers la moyenne.
La corrélations signifient simplement que deux données sont liées, que leurs valeurs sont dépendantes l’une de l’autre. Par exemple, il y a une corrélation entre le tour de poitrine d’une personne et sa taille. Mais le fait d’avoir établi une corrélation ne signifie pas qu’on ait trouvé une relation de causalité. On retrouve ici le principe de rhétorique « Post hoc ergo procter hoc », déjà abordé dans cette chronique.
Si deux variables A et B sont corrélées, cela peut signifier différentes choses :
– A cause B
– B cause A
– A et B sont accidentellement liés sans avoir entre eux de liens de causalité
– A et B dépendent d’un troisième facteur C
Etablir ces causalités est très difficile.
On a ainsi des études liant consommation de cannabis et mauvais résultats scolaires, mais de là à dire qui est la cause de quoi.
D’autres études lient le nombre de cigognes sur les toits des maisons et le nombre d’enfants vivant sous ce toit. Qu’en déduire, sinon peut-être que les familles nombreuses ont des toits plus grands ?
Bertrand Russell raconte que des moines en Chine croyaient que les éclipses de lune étaient causées par un chien céleste qui essayait d’avaler la lune. Pour l’en dissuader, les moines tapaient sur des gongs gigantesques jusqu’à ce que le chine lâche la lune. Depuis des millénaires, cette technique avait fonctionné, le chien avait toujours fini par recracher la lune et l’éclipse avait cessé !
On voit que la confusion entre corrélation et causalité peut être source de superstitions comme le phénomène de régression vers la moyenne.
Ce phénomène a été repéré par un des pionniers de la statistique Francis Galton (1822-1911). En étudiant les liens entre la taille des pères et la taille des fils, il a trouvé une corrélation des pères grands tendent à avoir des enfants grands. Mais il constata aussi que des pères très grands tendent à avoir des fils moins grands qu’eux et de même pour les plus petits qui tendent à avoir des fils moins petits qu’eux. Nous avons ainsi une corrélation imparfaite. Des valeurs exceptionnelles ont tendance à être corrélé avec ces valeurs moins exceptionnelles. C’est ce qu’on appelle la régression vers la moyenne.
On dit que les sportifs de haut niveau redoute d’être montré en première page des grands quotidiens sportifs. En effet, y être en couverture fait suite à l’obtention de résultats exceptionnels et cela sera suivi de résultats moins exceptionnels. Mais ces résultats ne sont pas le fait d’avoir été mis en première page, par exemple, de L’Equipe !
Lors de la prochaine émission, nous verrons l’usage des illustrations et graphiques pour présenter ces collectes de données. Enfin, n’oubliez pas les conseils des émissions précédentes, ces conseils vous sont donnés pour laisser le moins de prise possible à l’émotion manipulatrice voulue.
Et retrouvez sur le site du cercle libertaire jean-barrué (http://cerclelibertairejb33.free.fr ) nos chroniques en référence au « Petit cours d’autodéfense intellectuelle » de Normand Baillargeon.
Alors, à dans quinze jours.
