Haley, une professionnelle des ressources humaines, est chargée d'analyser les résultats d'une enquête de satisfaction menée auprès de centaines de membres du personnel. Les données sont écrasantes et elle doit présenter des informations claires, exploitables et faciles à assimiler.
Mais comment donner un sens à tous ces chiffres sans se perdre dans le bruit ? C'est là que le concept d'écart-type devient inestimable. Les analystes de données comme Haley doivent relever le défi de distiller de vastes volumes de données pour en tirer des informations utiles. Ils ont besoin de mesures concises, faciles à comparer, qui représentent efficacement les caractéristiques essentielles de vastes ensembles de données.
Dans cet article, nous allons voir comment la compréhension et l'application de la formule de l'écart-type peuvent vous aider à obtenir des informations plus approfondies et à prendre des décisions plus éclairées.
L'écart-type est un outil fondamental dans l'arsenal d'un analyste de données.
L'écart-type (ET) est défini comme la racine carrée de la variance d'un ensemble de données. Il s'agit d'une mesure essentielle des statistiques descriptives qui montre à quel point les points de données individuels sont éloignés de la valeur moyenne de cet ensemble de données.
En termes plus simples, il quantifie la distance moyenne d'un point de données par rapport au centre de distribution.
Par exemple, dans notre exemple de Haley, une consultante en ressources humaines, disons qu'elle vient de collecter les réponses d'une vaste évaluation des besoins en formation. Elle dispose d'un grand nombre de données, mais elle a besoin d'un moyen pour déterminer à quel point les réponses sont "dispersées". C'est là que écart-type vient dans.
En termes simples, il indique à quel point chaque réponse individuelle (comme une évaluation sur des sujets de formation) diffère de la moyenne ou du "centre" des données. Si l'écart-type est faible, cela signifie que la plupart des réponses sont assez similaires et proches de la moyenne. En revanche, s'il est élevé, les réponses varient beaucoup et les opinions ou les besoins sont plus diversifiés.
Par exemple, si la plupart des employés pensent que les mêmes programmes de formation sont nécessaires, l'écart-type sera faible. Si certains employés pensent que certaines compétences sont essentielles alors que d'autres estiment qu'ils ont besoin d'une formation totalement différente, l'écart-type sera plus important.
Ainsi, en tant que consultante en ressources humaines, la compréhension de l'écart-type permet à Haley de voir dans quelle mesure les besoins de formation de ses employés sont cohérents ou variés, ce qui facilite la conception d'un programme adapté au groupe.
L'écart-type est une mesure de la variabilité ou de la dispersion au sein d'une population. ensemble de données quantitatives.
Alors que les variances d'échantillon et de population mesurent également cette dispersion, l'écart-type est exprimé dans les mêmes unités que les données originales de la population statistique, ce qui le rend beaucoup plus facile à interpréter.
En comprenant l'écart-type, nous obtenons des informations précieuses sur la cohérence, la prévisibilité et le risque associés aux données que nous analysons.
L'écart-type est une mesure de la variabilité ou de la dispersion au sein d'une population. ensemble de données quantitatives.
Alors que les variances d'échantillon et de population mesurent également cette dispersion, l'écart-type est exprimé dans les mêmes unités que les données originales de la population statistique, ce qui le rend beaucoup plus facile à interpréter.
Il est important de noter qu'il est courant d'utiliser S et σ de manière interchangeable, alors qu'il ne s'agit pas de la même chose. Lorsqu'une personne ne précise pas de quel écart-type elle parle, elle se réfère généralement à S, même si elle utilise le symbole σ.
Il existe deux équations d'écart-type, l'une pour les populations et l'autre pour les échantillons. Cependant, selon que vous développez et simplifiez cette formule, chaque équation peut être écrite de deux façons.
La façon la plus simple de calculer l'écart-type est d'utiliser sa définition mathématique, à savoir la racine carrée de la variance de la population :
Equation 1 : Formule de l'écart-type de la population (Source de l'image : réalisée par l'auteur)
Où :
- σ est l'écart-type de la population
- Σ représente la somme des...
- xi est chaque point de données
- μ est la moyenne de la population
- N est le nombre total de points de données
Nous pouvons développer et simplifier la formule ci-dessus pour obtenir une deuxième façon, plus efficace sur le plan informatique, de calculer σ :
Equation 2 : Formule étendue de l'écart-type de la population (Source de l'image : faite par l'auteur)
Les variables sont les mêmes que ci-dessus. La différence la plus notable est que nous n'avons pas besoin de la valeur moyenne de la population (μ).
Pour l'échantillon, la formule de l'écart type est très similaire, à la différence que nous soustrayons 1 du dénominateur à l'intérieur de la racine carrée :
Equation 3 : Formule de l'écart type de l'échantillon (Source de l'image : faite par l'auteur)
Où :
- S est l'écart-type de l'échantillon.
- x̄ est la moyenne de l'échantillon.
- n est la taille de l'échantillon ou le nombre de points de données
- Les autres symboles sont les mêmes que ci-dessus.
Comme précédemment, il existe une version étendue de la formule de l'écart-type de l'échantillon :
Equation 4 : Ecart type de l'échantillon formule étendue (Source de l'image : fait par l'auteur)
Les variables sont les mêmes que précédemment.
Il est parfois utile d'exprimer l'écart-type en pourcentage de la moyenne. On obtient alors l'écart-type relatif, c'est-à-dire le coefficient de variation (CV) :
CV = (σ / μ) * 100% ou CV = (S / x̄) * 100%
L'écart-type n'est pas qu'un simple chiffre - c'est un outil puissant pour tirer des conclusions significatives de vos données. Voici comment vous pouvez interpréter l'écart type dans différents contextes :
- Comparer des ensembles de données: Si deux ensembles de données ont la même moyenne mais des écarts types différents, celui dont l'écart type est le plus élevé présente une plus grande variabilité.
- Identifier les valeurs aberrantes: Les points de données qui se situent à plus de deux ou trois écarts-types de la moyenne sont souvent considérés comme des valeurs aberrantes et peuvent justifier un examen plus approfondi.
Supposons que Haley, la consultante en ressources humaines, analyse les résultats d'une enquête sur les besoins en formation. Après avoir examiné les données, elle remarque que la note moyenne attribuée à la formation aux techniques de communication est d'environ 4 sur 5, avec un faible écart-type indiquant que la plupart des employés sont d'accord sur l'importance de cetteformation.
Cependant, en y regardant de plus près, elle repère quelques réponses très éloignées de la tendance générale. Un employé a attribué la note 1 (très peu d'importance) à la formation à la communication, tandis qu'un autre lui a donné la note parfaite de 5 (extrêmement importante), alors que la majorité des réponses se situent autour de 4.
C'est ici que écart-type aide. Ces notes anormalement basses ou élevées sont considérées comme des valeurs aberrantesLes résultats des élèves sont plus faibles que ceux de la moyenne, car ils sont très éloignés de cette dernière. Grâce à l'écart-type, Haley peut facilement identifier ces points de données extrêmes qui ne s'alignent pas sur le modèle général.
En signalant ces valeurs aberrantes, Haley peut approfondir sa compréhension des raisons pour lesquelles ces personnes ont des points de vue différents. Cela pourrait mettre en évidence des besoins ou des préoccupations spécifiques qui ne sont peut-être pas immédiatement évidents pour le reste du groupe. Peut-être que l'employé qui a attribué une note de 1 à la formation à la communication occupe une fonction différente où la communication n'est pas aussi essentielle, ou que celui qui a attribué une note de 5 occupe un poste en contact direct avec la clientèle où les compétences en communication sont vitales.
L'utilisation de l'écart-type pour identifier ces valeurs aberrantes permet à Haley de répondre à des préoccupations individuelles ou d'explorer des domaines spécifiques où les programmes de formation pourraient avoir besoin d'être affinés. - Contrôle des processus: En fabrication Dans le cadre du contrôle de la qualité, l'écart-type permet de suivre la variabilité du processus et d'identifier les écarts par rapport aux normes souhaitées.
- Analyse financière: L'écart-type mesure la volatilité et la déviation des rendements boursiers, des obligations et d'autres instruments financiers.
Comme tout outil statistique, l'écart-type a ses forces et ses faiblesses.
- Largement utilisé et compris: L'écart-type est une mesure bien établie utilisée dans de nombreux domaines, ce qui facilite la communication de vos résultats.
- Il permet d'identifier les valeurs aberrantes: Il reflète l'impact des valeurs extrêmes et donne une image plus complète de la variabilité des données.
- Hypothèse de normalité: Il est plus efficace lorsque les données suivent une distribution normale. D'autres mesures peuvent être plus appropriées pour les distributions de probabilité asymétriques ou non normales.
Source : https://integratedmlai.com/normal-distribution-an-introductory-guide-to-pdf-and-cdf/
- Sensibilité aux valeurs aberrantes: Si c'est une force, cela peut aussi être une faiblesse si les valeurs extrêmes sont dues à des erreurs qui faussent les données.
Pour illustrer l'application pratique de l'analyse statistique à l'aide de l'écart-type, prenons un exemple de calcul de l'écart-type dans le cadre de la gestion d'un centre de données.
L'écart-type est un outil puissant qui peut être utilisé pour la gestion et l'optimisation des centres de données. Cette mesure permet à des logiciels comme Nlyte d'analyser :
- Identifier les serveurs consommant trop ou pas assez d'énergie
- Analyser l'utilisation et la consommation d'énergie sur les serveurs
- Surveiller les fluctuations de température
- Comprendre la distribution de la charge de travail
Nous allons étudier un scénario dans lequel nous surveillons en temps réel la consommation d'énergie (en watts) de 20 serveurs dans un centre de données :
|
Serveur |
Power |
Serveur |
Puissance |
| 1 |
350 |
11 |
350 |
| 2 |
365 |
12 |
385 |
| 3 |
340 |
13 |
340 |
| 4 |
380 |
14 |
395 |
| 5 |
355 |
15 |
365 |
| 6 |
370 |
16 |
370 |
| 7 |
345 |
17 |
345 |
| 8 |
390 |
18 |
390 |
| 9 |
360 |
19 |
355 |
| 10 |
375 |
20 |
380 |
Le site web de l'association a été mis à jour en 2009 et est désormais disponible en français et en anglais. Comme c'est généralement le cas, nous utiliserons les équations 3 et 4 pour l'écart-type de l'échantillon.
Si vous voulez vous entraîner à utiliser l'équation de l'écart-type pour un ensemble de données comme celui illustré ci-dessus, voici ce que vous devez faire :
Additionnez toutes les valeurs de consommation d'énergie et divisez-les par le nombre total de serveurs (20). Comme il s'agit d'un échantillon, x̄ représentera cette moyenne :
x̄ = (350 + 365 + ... + 380) / 20 = 365.3
Soustrayez la moyenne de chaque valeur de consommation d'énergie :
x1 - x̄ = 350 - 365.3 = -15.3
x2 - x̄ = 365 - 365.3 = -0.3
…
x20 - x̄ = 380 - 365.3 = 9.8
Élever au carré chacune des différences que vous venez de calculer pour obtenir les écarts au carré. Voici ce que nous avons obtenu jusqu'à présent :
|
Serveur (i) |
xi |
xi - x̄ |
(xi - x̄)² |
|
1 |
350 |
-15.3 |
232.6 |
|
2 |
365 |
-0.3 |
0.1 |
|
3 |
340 |
-25.3 |
637.6 |
|
4 |
380 |
14.8 |
217.6 |
|
5 |
355 |
-10.3 |
105.1 |
|
6 |
370 |
4.8 |
22.6 |
|
7 |
345 |
-20.3 |
410.1 |
|
8 |
390 |
24.8 |
612.6 |
|
9 |
360 |
-5.3 |
27.6 |
|
10 |
375 |
9.8 |
95.1 |
|
11 |
350 |
-15.3 |
232.6 |
|
12 |
385 |
19.8 |
390.1 |
|
13 |
340 |
-25.3 |
637.6 |
|
14 |
395 |
29.8 |
885.1 |
|
15 |
365 |
-0.3 |
0.1 |
|
16 |
370 |
4.8 |
22.6 |
|
17 |
345 |
-20.3 |
410.1 |
|
18 |
390 |
24.8 |
612.6 |
|
19 |
355 |
-10.3 |
105.1 |
|
20 |
380 |
14.8 |
217.6 |
Additionnez toutes les différences au carré (dans la dernière colonne) et divisez par le nombre total de serveurs moins 1 (si vous calculez σ, vous n'avez pas besoin de soustraire 1). Le résultat est la variance de l'échantillon, S² :
(-15.3)² + (-0.3)² + … + (14.8)² = 5873.8
S² = 5873.8 / (20 - 1) = 309.1 W²
S = √(S²) = √309.1 = 17.6 W
Maintenant, faisons le même calcul mais en utilisant la formule simplifiée et élargie pour voir comment elle facilite le calcul.
x1² = 350² = 122,500
x2² = 365² = 133,225
…
x20² = 380² = 144,400
Additionnez toutes les valeurs au carré :
Σxi² = 122 500 + 133 225 + ... + 144 400 = 2 674 025 W²
Σxi = 350 + 365 + ... + 380 = 7,305 W
Voici ce que nous aurions jusqu'à présent :
|
Serveur (i) |
xi |
xi² |
|
1 |
350 |
122,500 |
|
2 |
365 |
133,225 |
|
3 |
340 |
115,600 |
|
4 |
380 |
144,400 |
|
5 |
355 |
126,025 |
|
6 |
370 |
136,900 |
|
7 |
345 |
119,025 |
|
8 |
390 |
152,100 |
|
9 |
360 |
129,600 |
|
10 |
375 |
140,625 |
|
11 |
350 |
122,500 |
|
12 |
385 |
148,225 |
|
13 |
340 |
115,600 |
|
14 |
395 |
156,025 |
|
15 |
365 |
133,225 |
|
16 |
370 |
136,900 |
|
17 |
345 |
119,025 |
|
18 |
390 |
152,100 |
|
19 |
355 |
126,025 |
|
20 |
380 |
144,400 |
|
Somme |
7,305 |
2,674,025 |
Ici encore, nous utiliserons (n - 1) La formule de calcul de l'écart type est la suivante : le dénominateur à l'intérieur de la racine carrée est le même que celui de l'échantillon :
S = √ {[2 674 025 - (7 305)²/20)]/(20 - 1)} = 17,6 W
Les deux méthodes donnent le même résultat, mais la seconde nécessite environ la moitié des calculs.
Impressionnez vos clients avec des rapports automatisés et notés
Voici une brève introduction au fonctionnement de Pointerpro, présentée par l'un de nos experts produits, Chris.
"Nous utilisons Pointerpro pour tous les types d'enquêtes et d'évaluations au sein de notre entreprise internationale, et les employés apprécient sa facilité d'utilisation et la souplesse de ses rapports."
Directeur chez Alere
"Je donne 5 étoiles au nouveau générateur de rapports pour sa facilité d'utilisation. N'importe qui, sans expérience en codage, peut commencer à créer des rapports personnalisés automatisés rapidement."
CFO & COO chez Egg Science
"Vous avez fait un excellent travail pour rendre cet outil aussi facile à utiliser que possible, tout en conservant des fonctionnalités robustes.
Directeur de comptes chez Reed Talent Solutions
"C'est un grand avantage d'avoir des formules et la possibilité d'une analyse vraiment approfondie. Il existe des centaines de formules, mais le client ne voit que le rapport facile à lire. Si vous cherchez quelque chose de ce genre, il est vraiment agréable de travailler avec Pointerpro.
Country Manager Pays-Bas chez Better Minds at Work
L'écart-type est une mesure de la variabilité ou de la dispersion au sein d'une population. ensemble de données quantitatives.
Alors que les variances d'échantillon et de population mesurent également cette dispersion, l'écart-type est exprimé dans les mêmes unités que les données originales de la population statistique, ce qui le rend beaucoup plus facile à interpréter.
Une grande chaîne de restaurants Une entreprise en plein échec a demandé à une équipe de consultants de l'aider à déterminer les raisons de sa baisse de performance et les moyens de l'améliorer. La collecte de données étant inexistante, les consultants ont créé une enquête axée sur trois résultats clés :
- Satisfaction des clients
- Rétention des employés
- Compte client
L'entreprise a distribué une enquête d'engagement qui :
- Lier les résultats des employés aux résultats réels de l'entreprise
- Les facteurs qui ont le plus d'impact sur les résultats de l'entreprise ont été classés par ordre de priorité.
- Les résultats de l'étude ont montré l'impact commercial de l'amélioration de ces facteurs.
- Les managers de première ligne se concentrent sur les facteurs qui ont le plus d'impact.
Ils ont découvert que six facteurs contribuaient le plus à l'amélioration et à la réussite des entreprises :
- Éthique
- Travail d'équipe
- Job fit
- Dirigeants
- Communication
- Gestion
Si les propriétaires du restaurant s'attachaient à promouvoir les employés ayant obtenu une note de 4 ou plus pour ces six caractéristiques, ils pourraient s'attendre aux améliorations suivantes pour les trois principaux résultats commerciaux :
- 16% d'augmentation de la satisfaction des clients
- 18 000 clients de plus par an
- 10 % de rotation du personnel en moins
En raison de son importance pour la fonction de distribution normale qui modélise de nombreux ensembles de données du monde réel, l'écart-type est la mesure de dispersion la plus largement utilisée dans l'analyse statistique. Cependant, il est important de se rappeler que ce n'est qu'un outil parmi d'autres.
D'autres mesures de dispersion comprennent :
- Variance (une mesure de la moyenne des variances au carré)
- Plage de valeurs (la différence entre la valeur la plus élevée et la valeur la plus basse. Une fourchette plus large signifie une plus grande dispersion)
- L'écart interquartile (souvent abrégé en IQR, qui est l'écart des 50% du milieu des données)
- L'écart moyen absolu (MAD), et d'autres.
Les analystes de données les plus efficaces ont une connaissance approfondie des différentes mesures statistiques et savent quand appliquer chacune d'entre elles pour obtenir les informations les plus approfondies.
Vous voulez en savoir plus ?
Abonnez-vous à notre lettre d'information et recevez des articles triés sur le volet directement dans votre boîte de réception.

