Rechercher dans ce blog

Affichage des articles dont le libellé est statistiques. Afficher tous les articles
Affichage des articles dont le libellé est statistiques. Afficher tous les articles

vendredi 30 septembre 2016

La qualité des statistiques ?



En tant qu’ancien universitaire spécialisé dans les probabilités et les statistiques, je me suis amusé, si je puis dire, à décortiquer un échantillon non représentatif de données statistiques émises au titre de la maîtrise de la qualité pour étudier leur crédibilité.

Comme l’échantillon n’est pas représentatif, je me garderai bien d’affirmer des vérités, ou de fournir des statistiques portant sur le travail réalisé. Mais les constats opérés pourraient inciter certains chercheurs à réaliser une étude plus scientifique sur ce sujet.

Très peu de résultats me sont apparus crédibles. Même ceux qui portent sur des essais cliniques de nouveaux dispositifs médicaux

Les échantillons ne sont jamais bayésiens, alors que ces techniques sont applicables depuis de nombreuses années pour réduire la taille des échantillons tout en conservant une représentativité acceptable de phénomènes multi critères. On considère un caractère central de la population et on dit très vite : « toutes choses égales par ailleurs » quand on a l’honnêteté de le dire. Les autres caractéristiques très variées de la population ne sont pas prises en compte alors qu’elles influencent en réalité les variations du caractère étudié. Le recours aux techniques des plans d’expériences est peu utilisé. Par conséquent les données traitées ne représentent pas, en général, les impacts spécifiques d’une action, dont on cherche à percevoir l’efficacité, sur l’évolution de la caractéristique étudiée de la population.

On parle beaucoup aujourd’hui d’approche systémique des phénomènes. Mais alors comment se servir des statistiques pour les étudier ?

J’ai pu observer que même dans les données portant sur le caractère central étudié, on supprimait délibérément de l’échantillon des individus trop atypiques qui introduirait une telle variabilité que l’application des techniques statistiques classiques n’aurait plus de sens. Or on sait que ce sont les données atypiques qui possèdent la plus grande quantité d’informations explicatives. Dans les « enquêtes clients », je demande toujours d’étudier avec la plus grande attention les expressions littérales, ou les comportements des clients atypiques.

La traçabilité du processus de saisie des données est souvent incomplète ce qui ne permet pas de vérifier de manière exhaustive l’historique du processus, la reproductibilité des saisies des données, et leur crédibilité.

Lorsque je fais une conférence qui s’adresse à des chefs d’entreprises je leur demande toujours comment ils s’assurent de la représentativité des données qui les aident à prendre une décision. Ils reconnaissent qu’ils ne font pas suffisamment attention.
Ils sont particulièrement effrayés par le nombre de tableaux statistiques analytiques présentés par les responsables qualité au cours des revues de projets. La plupart, dans la coulisse, me confirment qu’ils ne tiennent que très peu compte de ces statistiques non pas par manque de confiance, mais parce qu’ils ne perçoivent pas le lien avec les orientations stratégiques de l’entreprise, et qu’elles ne facilitent pas la prise de décisions. Ils se basent surtout sur les remarques plus « imagées » de leurs collaborateurs qui attirent leur attention. Ce déni des « vérités statistiques » est certes quelquefois un prétexte pour ne pas décider.

Je terminerai par une citation de Descartes :


Conclusion :
On est abreuvé de statistiques en tous genres parce que l’informatique facilite le traitement automatique de données puisées dans une base de données à vocations multiples. Mais on ne prend plus la précaution de préciser le risque de ne pas représenter réellement le phénomène étudié par ces données, parce qu’elles contiennent un, ou plusieurs biais, parce que la quantité des informations qui portent sur le phénomène étudié, noyée dans la masse des données exploitées, est faible, ou tout simplement parce qu’on ne peut pas vérifier si elles n’ont été volontairement trafiquées. Le destinataire de ces informations qui a pris conscience de la situation a perdu toute confiance dans ces informations qui ont tendance, de plus, à simplifier, et rationnaliser, des phénomènes reconnus par tous comme beaucoup plus complexes.

Ces statistiques sont donc de très mauvaises qualité car elles ne satisfont pas les attentes des bénéficiaires, ils n’ont pas confiance dans leur représentativité du phénomène étudié, ils doivent fournir des efforts important pour les interpréter et s’en servir, et ils constatent, in fine, que ces efforts ne sont pas rentables.