Haley, una profesional de Recursos Humanos, tiene la tarea de analizar los resultados de la encuesta de satisfacción de los empleados de cientos de miembros del personal. Los datos son abrumadores, y ella necesita presentar ideas que sean claras, procesables y fáciles de digerir.
Pero, ¿cómo puede dar sentido a todos los números sin perderse en el ruido? Aquí es donde el concepto de desviación típica adquiere un valor incalculable. Los analistas de datos como Haley se enfrentan al reto de destilar grandes volúmenes de datos y convertirlos en información significativa. Necesitan medidas concisas y fáciles de comparar que representen eficazmente las características principales de grandes conjuntos de datos.
En este artículo, exploraremos cómo la comprensión y la aplicación de la fórmula de la desviación estándar pueden ayudarle a desbloquear conocimientos más profundos y tomar decisiones más informadas.
Una herramienta fundamental en el arsenal de un analista de datos es la desviación estándar.
La desviación estándar (DE) se define como la raíz cuadrada de la varianza de un conjunto de datos. Es una medida esencial en estadística descriptiva que muestra la dispersión de los puntos de datos individuales con respecto al valor medio (promedio) del conjunto de datos.
En términos más sencillos, cuantifica la distancia media de un punto de datos desde el centro de distribución.
Por ejemplo, en nuestro ejemplo de Haley, una consultora de RRHH, digamos que acaba de recoger las respuestas de una gran evaluación de necesidades de formación. Tiene muchos datos, pero necesita una forma de averiguar cómo están "repartidas" las respuestas. Ahí es donde desviación estándar viene en.
En términos sencillos, le indica cuánto difiere cada respuesta individual (como una calificación sobre temas de formación) de la media o "centro" de los datos. Si la desviación típica es pequeña, significa que la mayoría de las respuestas son bastante similares y cercanas a la media. Pero si es grande, las respuestas varían mucho y hay más diversidad de opiniones o necesidades.
Por ejemplo, si la mayoría de los empleados piensan que son necesarios los mismos programas de formación, la desviación típica será pequeña. Si algunos empleados piensan que ciertas habilidades son esenciales mientras que otros creen que necesitan una formación totalmente diferente, la desviación típica será mayor.
Así, como consultora de RRHH, entender la desviación típica ayuda a Haley a ver lo consistentes o variadas que son las necesidades de formación de sus empleados, lo que facilita el diseño de un programa adaptado al grupo.
La desviación estándar es una medida de variabilidad o dispersión dentro de una conjunto de datos cuantitativos.
Aunque las varianzas muestral y poblacional también miden esta dispersión, la desviación típica se expresa en las mismas unidades que los datos originales de la población estadística, lo que hace que sea mucho más fácil de interpretar.
Al entender la desviación estándar, obtenemos información valiosa sobre la consistencia, la previsibilidad y el riesgo asociado con los datos que estamos analizando.
La desviación estándar es una medida de variabilidad o dispersión dentro de una conjunto de datos cuantitativos.
Aunque las varianzas muestral y poblacional también miden esta dispersión, la desviación típica se expresa en las mismas unidades que los datos originales de la población estadística, lo que hace que sea mucho más fácil de interpretar.
Es importante tener en cuenta que es común que la gente use S y σ indistintamente, pero no son lo mismo. Cuando alguien no especifica a qué DE se refiere, suele referirse a S, aunque utilice el símbolo σ.
Existen dos ecuaciones de desviación estándar, una para poblaciones y otra para muestras. Sin embargo, dependiendo de si expandes y simplificas esa fórmula, cada ecuación puede escribirse de dos maneras.
La forma más directa de calcular la desviación estándar es con su definición matemática como la raíz cuadrada de la varianza poblacional:
Ecuación 1: Fórmula de la desviación típica poblacional (Fuente de la imagen: elaboración propia)
Donde:
- σ es la desviación típica poblacional
- Σ denota la suma de...
- xi es cada punto de datos
- μ es la media poblacional
- N es el número total de puntos de datos
Podemos ampliar y simplificar la fórmula anterior para obtener una segunda forma, más eficiente computacionalmente, de calcular σ:
Ecuación 2: Fórmula ampliada de la desviación típica poblacional (Fuente de la imagen: elaboración propia)
Las variables son las mismas que en el caso anterior. La diferencia más notable es que no necesitamos el valor medio de la población (μ).
Para la muestra, la fórmula de la DE es muy similar, con la diferencia de que restamos 1 del denominador dentro de la raíz cuadrada:
Ecuación 3: Fórmula de la desviación típica muestral (Fuente de la imagen: elaboración propia)
Donde:
- S es la desviación típica muestral.
- x̄ es la media muestral.
- n es el tamaño de la muestra o el número de puntos de datos
- Los otros símbolos son los mismos que arriba.
Como antes, hay una versión ampliada de la fórmula de la desviación típica muestral:
Ecuación 4: Fórmula ampliada de la desviación típica muestral (Fuente de la imagen: elaboración propia)
Las variables son las mismas que antes.
A veces, expresar la desviación estándar como un porcentaje de la media es útil. Al hacerlo, obtenemos la desviación típica relativa, también conocida como coeficiente de variación (CV):
CV = (σ / μ) * 100% o CV = (S / x̄) * 100%
La desviación estándar no es sólo un número - es una poderosa herramienta para sacar conclusiones significativas de sus datos. He aquí cómo interpretar la desviación típica en diferentes contextos:
- Comparación de conjuntos de datos: Si dos conjuntos de datos tienen la misma media pero diferentes desviaciones estándar, el que tiene la desviación estándar más alta tiene más variabilidad.
- Identificación de valores atípicos: Los puntos de datos que caen más de dos o tres desviaciones estándar de la media a menudo se consideran valores atípicos y pueden justificar una mayor investigación.
Supongamos que Haley, la consultora de RR.HH., analiza los resultados de una encuesta sobre necesidades de formación. Tras revisar los datos, observa que la valoración media de la formación en habilidades de comunicación es de 4 sobre 5, con una desviación típica baja que indica que la mayoría de los empleados están de acuerdo en su importancia.
Sin embargo, cuando mira más de cerca, detecta un par de respuestas muy alejadas de la tendencia general. Un empleado calificó la formación en comunicación con un 1 (muy poca importancia), mientras que otro le dio un 5 perfecto (extremadamente importante), a pesar de que la mayoría de las respuestas se agrupan en torno al 4.
Aquí desviación estándar ayuda. Estas valoraciones inusualmente bajas y altas se consideran valores atípicos...ya que se alejan mucho de la puntuación media. Con la desviación estándar, Haley puede identificar fácilmente estos puntos de datos extremos que no se alinean con el patrón general.
Al señalar estos valores atípicos, Haley puede profundizar en la comprensión de por qué estos individuos tienen puntos de vista diferentes. Podría poner de relieve necesidades o preocupaciones específicas que pueden no ser inmediatamente obvias para el resto del grupo. Tal vez el empleado que calificó la formación en comunicación con un 1 tiene una función de trabajo diferente donde la comunicación no es tan crítica, o el que le dio un 5 podría estar en un papel de cara al cliente donde las habilidades de comunicación son vitales.
El uso de la desviación estándar para identificar estos valores atípicos permite a Haley abordar preocupaciones individuales o explorar áreas específicas en las que los programas de formación podrían necesitar un mayor refinamiento. - Control de procesos: En fabricación o control de calidad, la desviación estándar ayuda a rastrear la variabilidad del proceso e identificar desviaciones de los estándares deseados.
- Análisis financiero: La desviación estándar mide la volatilidad y la desviación de los rendimientos de acciones, bonos y otros instrumentos financieros.
Como cualquier herramienta estadística, la desviación estándar tiene sus fortalezas y debilidades.
- Ampliamente utilizado y comprendido: La desviación estándar es una medida bien establecida que se utiliza en numerosos campos, lo que facilita la comunicación de sus hallazgos.
- Ayuda a identificar valores atípicos: Refleja el impacto de los valores extremos, proporcionando una imagen más completa de la variabilidad de los datos.
- Suposición de normalidad: Es más eficaz cuando los datos siguen una distribución normal. Otras medidas pueden ser más apropiadas para distribuciones de probabilidad sesgadas o no normales
Fuente: https://integratedmlai.com/normal-distribution-an-introductory-guide-to-pdf-and-cdf/
- Sensibilidad a los valores atípicos: Si bien esto es una fortaleza, también puede ser una debilidad si los valores extremos se deben a errores que sesgan los datos.
Para ilustrar la aplicación práctica del análisis estadístico utilizando la desviación estándar, hagamos un ejemplo de cálculo de la DE en la gestión de centros de datos.
La desviación estándar es una poderosa herramienta que podría aplicarse para la gestión y optimización de centros de datos. Esta medida sirve a software como Nlyte para analizar:
- Identificar servidores que consumen energía excesiva o insuficiente
- Analizar el uso y consumo de energía en los servidores
- Controlar las fluctuaciones de temperatura
- Comprender la distribución de la carga de trabajo
Consideremos un escenario en el que estamos monitoreando el consumo de energía en tiempo real (en vatios) de 20 servidores en un centro de datos:
Servidor |
Power |
Servidor |
Poder |
1 |
350 |
11 |
350 |
2 |
365 |
12 |
385 |
3 |
340 |
13 |
340 |
4 |
380 |
14 |
395 |
5 |
355 |
15 |
365 |
6 |
370 |
16 |
370 |
7 |
345 |
17 |
345 |
8 |
390 |
18 |
390 |
9 |
360 |
19 |
355 |
10 |
375 |
20 |
380 |
Ahora, vamos a calcular la DE utilizando ambas versiones de las ecuaciones descritas anteriormente. Como ocurre normalmente, utilizaremos las ecuaciones 3 y 4 para la desviación típica muestral.
Si desea practicar el uso de la ecuación SD para un conjunto de datos como el que se muestra arriba, esto es lo que debe hacer:
Sume todos los valores de consumo de energía y divídalos por el número total de servidores (20). Como se trata de una muestra, x̄ denotará esta media:
x̄ = (350 + 365 + ... + 380) / 20 = 365.3
Resta la media de cada valor de consumo de energía:
x1 - x̄ = 350 - 365.3 = -15.3
x2 - x̄ = 365 - 365.3 = -0.3
…
x20 - x̄ = 380 - 365.3 = 9.8
Eleva al cuadrado cada una de las diferencias que acabas de calcular para obtener las desviaciones al cuadrado. Esto es lo que tenemos hasta ahora:
Servidor (i) |
xi |
xi - x̄ |
(xi - x̄)² |
1 |
350 |
-15.3 |
232.6 |
2 |
365 |
-0.3 |
0.1 |
3 |
340 |
-25.3 |
637.6 |
4 |
380 |
14.8 |
217.6 |
5 |
355 |
-10.3 |
105.1 |
6 |
370 |
4.8 |
22.6 |
7 |
345 |
-20.3 |
410.1 |
8 |
390 |
24.8 |
612.6 |
9 |
360 |
-5.3 |
27.6 |
10 |
375 |
9.8 |
95.1 |
11 |
350 |
-15.3 |
232.6 |
12 |
385 |
19.8 |
390.1 |
13 |
340 |
-25.3 |
637.6 |
14 |
395 |
29.8 |
885.1 |
15 |
365 |
-0.3 |
0.1 |
16 |
370 |
4.8 |
22.6 |
17 |
345 |
-20.3 |
410.1 |
18 |
390 |
24.8 |
612.6 |
19 |
355 |
-10.3 |
105.1 |
20 |
380 |
14.8 |
217.6 |
Sume todas las diferencias al cuadrado (en la última columna) y divídalas por el número total de servidores menos 1 (si está calculando σ, no necesita restar 1). El resultado es la varianza de la muestra, S²:
(-15.3)² + (-0.3)² + … + (14.8)² = 5873.8
S² = 5873.8 / (20 - 1) = 309.1 W²
S = √(S²) = √309.1 = 17.6 W
Ahora, hagamos el mismo cálculo pero usando la fórmula simplificada expandida para ver cómo facilita el cálculo.
x1² = 350² = 122,500
x2² = 365² = 133,225
…
x20² = 380² = 144,400
Suma todos los valores al cuadrado:
Σxi² = 122,500 + 133,225 + ... + 144,400 = 2,674,025 W²
Σxi = 350 + 365 + ... + 380 = 7.305 W
Esto es lo que tendríamos hasta ahora:
Servidor (i) |
xi |
xi |
1 |
350 |
122,500 |
2 |
365 |
133,225 |
3 |
340 |
115,600 |
4 |
380 |
144,400 |
5 |
355 |
126,025 |
6 |
370 |
136,900 |
7 |
345 |
119,025 |
8 |
390 |
152,100 |
9 |
360 |
129,600 |
10 |
375 |
140,625 |
11 |
350 |
122,500 |
12 |
385 |
148,225 |
13 |
340 |
115,600 |
14 |
395 |
156,025 |
15 |
365 |
133,225 |
16 |
370 |
136,900 |
17 |
345 |
119,025 |
18 |
390 |
152,100 |
19 |
355 |
126,025 |
20 |
380 |
144,400 |
Suma |
7,305 |
2,674,025 |
También en este caso utilizaremos (n - 1) como denominador dentro de la raíz cuadrada ya que estamos usando una muestra:
S = √ {[2.674.025 - (7.305)²/20)]/(20 - 1)} = 17,6 W
Ambos métodos dan el mismo resultado, pero el segundo requiere aproximadamente la mitad de los cálculos.
Sorprenda a sus clientes con reportes automatizados y puntuados
Aquí hay una introducción rápida sobre cómo funciona Pointerpro, traído a usted por uno de nuestros expertos en productos, Chris.
"Utilizamos Pointerpro para todo tipo de encuestas y evaluaciones en todo nuestro negocio global, y a los empleados les encanta su facilidad de uso y la flexibilidad de los reportes."
Director en Alere
"Le doy 5 estrellas al nuevo generador de reportes por su facilidad de uso. Cualquier persona sin experiencia en codificación puede empezar a crear reportes personalizados automatizados rápidamente."
CFO & COO en Egg Science
"Ustedes han hecho un gran trabajo haciendo esto tan fácil de usar como sea posible y aún robusto en funcionalidad."
Director de Cuentas en Reed Talent Solutions
"Es una gran ventaja disponer de fórmulas y de la posibilidad de realizar un análisis realmente exhaustivo. Hay cientos de fórmulas, pero el cliente sólo ve el reporte fácil de leer. Si buscas algo así, es muy agradable trabajar con Pointerpro".
Country Manager Países Bajos en Better Minds at Work
La desviación estándar es una medida de variabilidad o dispersión dentro de una conjunto de datos cuantitativos.
Aunque las varianzas muestral y poblacional también miden esta dispersión, la desviación típica se expresa en las mismas unidades que los datos originales de la población estadística, lo que hace que sea mucho más fácil de interpretar.
Una gran cadena de restaurantes en pleno fracaso pidió ayuda a un equipo de consultores para determinar por qué había bajado el rendimiento y cómo podían mejorar. La recogida de datos era inexistente, así que los consultores crearon una encuesta centrada en tres resultados clave:
- Satisfacción del cliente
- Retención de empleados
- Recuento de clientes
La empresa distribuyó una encuesta de compromiso que:
- Vinculación de los resultados de los empleados con sus resultados empresariales reales
- Priorizó los factores que tuvieron mayor impacto en los resultados empresariales
- Mostró el impacto empresarial de las mejoras en estos factores
- Enfocó a los gerentes de primera línea en los factores que mostraron el mayor impacto
Descubrieron que seis factores eran los que más contribuían a la mejora y el éxito empresarial:
- Ética
- Trabajo en equipo
- Empleo
- Directivos
- Comunicación
- Gestión
Si los propietarios del restaurante se centraran en promocionar a los empleados que obtuvieran una puntuación de cuatro o superior en estas seis características, podrían esperar las siguientes mejoras en los tres resultados clave del negocio:
- Aumento del 16% en la satisfacción del cliente
- 18.000 clientes más al año
- 10% menos de rotación de personal
Debido a su importancia para la función de distribución normal que modela muchos conjuntos de datos del mundo real, la desviación estándar es la medida de dispersión más utilizada en el análisis estadístico. Sin embargo, es importante recordar que es sólo una herramienta entre muchas otras.
Otras medidas de dispersión incluyen:
- Varianza (una medida de las varianzas medias al cuadrado)
- Rango de valores (la diferencia entre el mayor y el menor valor. Un rango más amplio significa más dispersión)
- Rango intercuartílico (a menudo abreviada como IQR, que es la dispersión del 50% medio de los datos)
- La desviación media absoluta (MAD), y otros.
Los analistas de datos más eficaces tienen un conocimiento exhaustivo de las diversas medidas estadísticas y saben cuándo aplicar cada una de ellas para obtener los conocimientos más profundos.
¿Quiere saber más?
Suscríbase a nuestro boletín y reciba artículos seleccionados directamente en su bandeja de entrada