Haley, een HR-professional, is belast met het analyseren van de resultaten van medewerkerstevredenheidsonderzoeken van honderden medewerkers. De gegevens zijn overweldigend en ze moet inzichten presenteren die duidelijk, bruikbaar en gemakkelijk te verteren zijn.
Maar hoe kan ze wijs worden uit alle getallen zonder te verdwalen in de ruis? Hier wordt het begrip standaardafwijking van onschatbare waarde. Gegevensanalisten zoals Haley staan voor de uitdaging om enorme hoeveelheden gegevens om te zetten in zinvolle inzichten. Ze hebben beknopte, eenvoudig te vergelijken maatstaven nodig die de belangrijkste features van grote datasets effectief weergeven.
In dit artikel onderzoeken we hoe het begrijpen en toepassen van de standaarddeviatieformule u kan helpen diepere inzichten te verkrijgen en beter geïnformeerde beslissingen te nemen.
Een fundamenteel instrument in het arsenaal van een data-analist is de standaarddeviatie.
Standaarddeviatie (SD) is gedefinieerd als de vierkantswortel van de variantie van een dataset. Het is een essentiële maat in beschrijvende statistiek die laat zien hoe ver de individuele gegevenspunten zijn verwijderd van de gemiddelde waarde van die dataset.
Eenvoudiger gezegd, het kwantificeert de gemiddelde afstand van een gegevenspunt tot het distributiecentrum.
In ons voorbeeld van Haley, een HR-consultant, zeggen we bijvoorbeeld dat ze net antwoorden heeft verzameld van een groot onderzoek naar trainingsbehoeften. Ze heeft veel gegevens, maar ze heeft een manier nodig om uit te zoeken hoe "verspreid" de reacties zijn. Dat is waar standaardafwijking komt binnen.
Eenvoudig gezegd vertelt het haar hoeveel elke individuele respons (zoals een assessment op trainingsonderwerpen) afwijkt van het gemiddelde of "centrum" van de gegevens. Als de standaardafwijking klein is, betekent dit dat de meeste antwoorden vrij gelijkaardig zijn en dicht bij het gemiddelde liggen. Maar als de standaardafwijking groot is, variëren de antwoorden sterk en is er meer diversiteit in meningen of behoeften.
Als de meeste werknemers bijvoorbeeld denken dat dezelfde trainingsprogramma's nodig zijn, zal de standaardafwijking klein zijn. Als sommige werknemers bepaalde vaardigheden essentieel vinden terwijl anderen vinden dat ze heel andere training nodig hebben, zal de standaardafwijking groter zijn.
Als HR-consultant helpt het begrijpen van standaardafwijking Haley om te zien hoe consistent of gevarieerd de trainingsbehoeften van haar werknemers zijn, waardoor het gemakkelijker wordt om een programma op maat van de groep te ontwerpen.
Standaardafwijking is een maat voor de variabiliteit of spreiding binnen een kwantitatieve dataset.
Terwijl steekproef- en populatievarianties ook deze spreiding meten, wordt de standaardafwijking uitgedrukt in dezelfde eenheden als de oorspronkelijke gegevens in de statistische populatie, waardoor deze veel gemakkelijker te interpreteren is.
Door de standaardafwijking te begrijpen, krijgen we waardevolle inzichten in de consistentie, voorspelbaarheid en risico's van de gegevens die we analyseren.
Standaardafwijking is een maat voor de variabiliteit of spreiding binnen een kwantitatieve dataset.
Terwijl steekproef- en populatievarianties ook deze spreiding meten, wordt de standaardafwijking uitgedrukt in dezelfde eenheden als de oorspronkelijke gegevens in de statistische populatie, waardoor deze veel gemakkelijker te interpreteren is.
Het is belangrijk op te merken dat het gebruikelijk is dat mensen S en σ door elkaar gebruiken, maar ze zijn niet hetzelfde. Als iemand niet specificeert welke SD hij bedoelt, verwijst hij meestal naar S, zelfs als hij het symbool σ gebruikt.
Er zijn twee standaarddeviatievergelijkingen, een voor populaties en een voor steekproeven. Afhankelijk van of je die formule uitbreidt en vereenvoudigt, kan elke vergelijking op twee manieren worden uitgeschreven.
De meest eenvoudige manier om standaarddeviatie te berekenen is met de wiskundige definitie als de vierkantswortel van de populatievariantie:
Vergelijking 1: formule voor populatiestandaardafwijking (Afbeeldingsbron: gemaakt door auteur)
Waar:
- σ is de standaarddeviatie van de populatie
- Σ geeft de som van...
- xi is elk gegevenspunt
- μ is het populatiegemiddelde
- N is het totale aantal gegevenspunten
We kunnen de bovenstaande formule uitbreiden en vereenvoudigen om een tweede, rekenkundig efficiëntere manier te vinden om σ te berekenen:
Vergelijking 2: Populatiestandaardafwijking uitgebreide formule (Afbeeldingsbron: gemaakt door auteur)
De variabelen zijn hetzelfde als hierboven. Het belangrijkste verschil is dat we de gemiddelde waarde van de populatie (μ) niet nodig hebben.
Voor de steekproef is de SD-formule zeer vergelijkbaar, met het verschil dat we 1 aftrekken van de noemer binnen de vierkantswortel:
Vergelijking 3: Formule standaardafwijking steekproef (Afbeeldingsbron: gemaakt door auteur)
Waar:
- S is de standaardafwijking van de steekproef.
- x̄ is het gemiddelde van de steekproef.
- n is de steekproefgrootte of het aantal gegevenspunten
- De andere symbolen zijn hetzelfde als hierboven.
Net als voorheen is er een uitgebreide versie van de formule voor SD van de steekproef:
Vergelijking 4: Uitbreiding formule standaarddeviatie steekproef (Afbeeldingsbron: gemaakt door auteur)
De variabelen zijn hetzelfde als voorheen.
Soms is het handig om de standaardafwijking uit te drukken als een percentage van het gemiddelde. Dan krijgen we de relatieve standaardafwijking, ook wel variatiecoëfficiënt (CV) genoemd:
CV = (σ / μ) * 100% of CV = (S / x̄) * 100%
De standaardafwijking is niet zomaar een getal - het is een krachtig hulpmiddel om zinvolle conclusies te trekken uit je gegevens. Hier lees je hoe je de standaardafwijking in verschillende contexten kunt interpreteren:
- Datasets vergelijken: Als twee datasets hetzelfde gemiddelde maar verschillende standaarddeviaties hebben, heeft degene met de hogere standaarddeviatie meer variabiliteit.
- Uitschieters identificeren: Datapunten die meer dan twee of drie standaardafwijkingen van het gemiddelde afwijken, worden vaak als uitschieters beschouwd en kunnen nader onderzoek rechtvaardigen.
Stel dat Haley, de HR-consultant, de resultaten van een onderzoek naar trainingsbehoeften analyseert. Nadat ze de gegevens heeft bekeken, ziet ze dat de gemiddelde waardering voor training in communicatievaardigheden rond de 4 op 5 ligt, met een lage standaardafwijking die aangeeft dat de meeste werknemers het eens zijn over het belang ervan.
Maar als ze beter kijkt, ziet ze een paar antwoorden die ver buiten de algemene trend vallen. Eén werknemer beoordeelde communicatietraining als een 1 (zeer laag belang), terwijl een andere werknemer het een perfecte 5 gaf (zeer belangrijk), hoewel de meeste antwoorden rond de 4 lagen.
Dit is waar standaardafwijking helpt. Deze ongewoon lage en hoge waarderingen worden beschouwd als uitschietersomdat ze ver van de gemiddelde score afliggen. Met de standaardafwijking kan Haley gemakkelijk deze extreme gegevenspunten identificeren die niet overeenkomen met het algemene patroon.
Door deze uitschieters te markeren, kan Haley dieper ingaan op de vraag waarom deze individuen verschillende meningen hebben. Het kan specifieke behoeften of zorgen aan het licht brengen die misschien niet meteen duidelijk zijn voor de rest van de groep. Misschien heeft de werknemer die communicatietraining met een 1 beoordeelde een andere functie waarbij communicatie niet zo belangrijk is, of degene die een 5 gaf heeft misschien een klantgerichte functie waarbij communicatievaardigheden van vitaal belang zijn.
Door gebruik te maken van standaarddeviatie om deze uitschieters te identificeren, kan Haley individuele problemen aanpakken of specifieke gebieden onderzoeken waar trainingsprogramma's verder moeten worden verfijnd. - Procesbeheersing: Op productie of kwaliteitscontrole, helpt standaardafwijking bij het opsporen van procesvariabiliteit en het identificeren van afwijkingen van de gewenste normen.
- Financiële analyse: Standaarddeviatie meet de volatiliteit en afwijking van aandelenrendementen, obligaties en andere financiële instrumenten.
Zoals elk statistisch hulpmiddel heeft standaardafwijking zijn sterke en zwakke punten.
- Veel gebruikt en begrepen: Standaardafwijking is een bekende maat die in veel vakgebieden wordt gebruikt, waardoor het eenvoudig is om je bevindingen te communiceren.
- Het helpt uitschieters te identificeren: Het weerspiegelt de impact van extreme waarden en geeft een completer beeld van de variabiliteit van gegevens.
- Veronderstelling van normaliteit: De standaardafwijking is het meest effectief als de gegevens een normale verdeling volgen. Andere maten kunnen geschikter zijn voor scheve of niet-normale kansverdelingen.
Bron: https://integratedmlai.com/normal-distribution-an-introductory-guide-to-pdf-and-cdf/
- Gevoeligheid voor uitschieters: Hoewel dit een sterk punt is, kan het ook een zwak punt zijn als extreme waarden het gevolg zijn van fouten die de gegevens scheef trekken.
Om de praktische toepassing van statistische analyse met behulp van standaardafwijking te illustreren, laten we een voorbeeldberekening uitvoeren van SD in datacenterbeheer.
Standaarddeviatie is een krachtig hulpmiddel dat kan worden toegepast voor datacentermanagement en -optimalisatie. Deze maat dient software zoals Nlyte om te analyseren:
- Identificeer servers die te veel of te weinig stroom verbruiken
- Analyseer stroomgebruik en -verbruik tussen servers
- Controleer op temperatuurschommelingen
- Werklastverdeling begrijpen
Laten we eens kijken naar een scenario waarin we het realtime stroomverbruik (in watt) van 20 servers in een datacenter monitoren:
|
Server |
Power |
Server |
Vermogen |
| 1 |
350 |
11 |
350 |
| 2 |
365 |
12 |
385 |
| 3 |
340 |
13 |
340 |
| 4 |
380 |
14 |
395 |
| 5 |
355 |
15 |
365 |
| 6 |
370 |
16 |
370 |
| 7 |
345 |
17 |
345 |
| 8 |
390 |
18 |
390 |
| 9 |
360 |
19 |
355 |
| 10 |
375 |
20 |
380 |
Laten we nu de SD berekenen met beide versies van de vergelijkingen hierboven. Zoals gewoonlijk gebruiken we vergelijkingen 3 en 4 voor de standaardafwijking van de steekproef.
Als je wilt oefenen met de SD-vergelijking voor een dataset zoals hierboven getoond, dan moet je het volgende doen:
Tel alle waarden voor stroomverbruik bij elkaar op en deel ze door het totale aantal servers (20). Omdat dit een steekproef is, geeft x̄ dit gemiddelde aan:
x̄ = (350 + 365 + ... + 380) / 20 = 365.3
Trek het gemiddelde af van elke waarde voor energieverbruik:
x1 - x̄ = 350 - 365.3 = -15.3
x2 - x̄ = 365 - 365.3 = -0.3
…
x20 - x̄ = 380 - 365.3 = 9.8
Kwadrateer elk van de verschillen die je zojuist hebt berekend om de afwijkingen in het kwadraat te krijgen. Dit is wat we tot nu toe hebben:
|
Server (i) |
xi |
xi - x̄ |
(xi - x̄)² |
|
1 |
350 |
-15.3 |
232.6 |
|
2 |
365 |
-0.3 |
0.1 |
|
3 |
340 |
-25.3 |
637.6 |
|
4 |
380 |
14.8 |
217.6 |
|
5 |
355 |
-10.3 |
105.1 |
|
6 |
370 |
4.8 |
22.6 |
|
7 |
345 |
-20.3 |
410.1 |
|
8 |
390 |
24.8 |
612.6 |
|
9 |
360 |
-5.3 |
27.6 |
|
10 |
375 |
9.8 |
95.1 |
|
11 |
350 |
-15.3 |
232.6 |
|
12 |
385 |
19.8 |
390.1 |
|
13 |
340 |
-25.3 |
637.6 |
|
14 |
395 |
29.8 |
885.1 |
|
15 |
365 |
-0.3 |
0.1 |
|
16 |
370 |
4.8 |
22.6 |
|
17 |
345 |
-20.3 |
410.1 |
|
18 |
390 |
24.8 |
612.6 |
|
19 |
355 |
-10.3 |
105.1 |
|
20 |
380 |
14.8 |
217.6 |
Tel alle gekwadrateerde verschillen op (in de laatste kolom) en deel ze door het totale aantal servers min 1 (als je σ berekent, hoef je er geen 1 van af te trekken). Het resultaat is de steekproefvariantie, S²:
(-15.3)² + (-0.3)² + … + (14.8)² = 5873.8
S² = 5873,8 / (20 - 1) = 309,1 W²
S = √(S²) = √309,1 = 17,6 W
Laten we nu dezelfde berekening uitvoeren, maar de vereenvoudigde uitgebreide formule gebruiken om te zien hoe deze de berekening eenvoudiger maakt.
x1² = 350² = 122,500
x2² = 365² = 133,225
…
x20² = 380² = 144,400
Tel alle waarden in het kwadraat bij elkaar op:
Σxi² = 122.500 + 133.225 + ... + 144.400 = 2.674.025 W²
Σxi = 350 + 365 + ... + 380 = 7.305 W
Dit is wat we tot nu toe zouden hebben:
|
Server (i) |
xi |
xi² |
|
1 |
350 |
122,500 |
|
2 |
365 |
133,225 |
|
3 |
340 |
115,600 |
|
4 |
380 |
144,400 |
|
5 |
355 |
126,025 |
|
6 |
370 |
136,900 |
|
7 |
345 |
119,025 |
|
8 |
390 |
152,100 |
|
9 |
360 |
129,600 |
|
10 |
375 |
140,625 |
|
11 |
350 |
122,500 |
|
12 |
385 |
148,225 |
|
13 |
340 |
115,600 |
|
14 |
395 |
156,025 |
|
15 |
365 |
133,225 |
|
16 |
370 |
136,900 |
|
17 |
345 |
119,025 |
|
18 |
390 |
152,100 |
|
19 |
355 |
126,025 |
|
20 |
380 |
144,400 |
|
Som |
7,305 |
2,674,025 |
Ook hier gebruiken we (n - 1) als noemer in de vierkantswortel omdat we een steekproef gebruiken:
S = √ {[2.674.025 - (7.305)²/20)]/(20 - 1)} = 17,6 W
Beide methoden leveren hetzelfde resultaat op, maar de laatste methode vereist ruwweg de helft van de berekeningen.
Verbaas klanten met geautomatiseerde, gescoorde rapporten
Hier volgt een korte introductie over hoe Pointerpro werkt, gebracht door een van onze productexperts, Chris.
"We gebruiken Pointerpro voor alle soorten enquêtes en assessments in ons wereldwijde bedrijf en medewerkers zijn dol op het gebruiksgemak en de flexibele rapportage."
Directeur bij Alere
"Ik geef de nieuwe report builder 5 sterren voor zijn gebruiksgemak. Iedereen zonder codeerervaring kan snel beginnen met het maken van geautomatiseerde, gepersonaliseerde rapporten."
CFO & COO bij Egg Science
"Jullie hebben geweldig werk geleverd door dit zo gebruiksvriendelijk mogelijk te maken en toch robuust qua functionaliteit."
Account manager bij Reed Talent Solutions
"Het is een groot voordeel om formules te kunnen toepassen en zo echt grondige en uitgebreide analyse te kunnen doen. Er zijn honderden formules, maar de klant ziet alleen het overzichtelijke rapport. Als je zoiets zoekt, is het heel prettig om met Pointerpro te werken."
Country Manager Nederland bij Better Minds at Work
Standaardafwijking is een maat voor de variabiliteit of spreiding binnen een kwantitatieve dataset.
Terwijl steekproef- en populatievarianties ook deze spreiding meten, wordt de standaardafwijking uitgedrukt in dezelfde eenheden als de oorspronkelijke gegevens in de statistische populatie, waardoor deze veel gemakkelijker te interpreteren is.
Een grote restaurantketen midden in een mislukking vroeg een team van consultants om hulp om te bepalen waarom de prestaties slecht waren en hoe ze konden verbeteren. Er werden geen gegevens verzameld, dus stelden de consultants een enquête op die zich richtte op drie belangrijke resultaten:
- Klanttevredenheid
- Behoud van werknemers
- Aantal klanten
Het bedrijf verspreidde een engagementenquête die:
- Werknemersresultaten koppelen aan hun echte bedrijfsresultaten
- Prioriteit geven aan de factoren die de grootste invloed hadden op bedrijfsresultaten
- De zakelijke impact laten zien van verbeteringen in deze factoren
- Focuste eerstelijnsmanagers op de factoren met de grootste impact
Ze ontdekten dat zes factoren het meest bijdroegen aan bedrijfsverbetering en succes:
- Ethiek
- Teamwork
- Functie-instelling
- Senior leiders
- Communicatie
- Management
Als de restauranteigenaren zich richten op het stimuleren van werknemers die een vier of hoger scoren op deze zes features, kunnen ze de volgende verbeteringen verwachten in de drie belangrijkste bedrijfsresultaten:
- 16% toename in klanttevredenheid
- 18.000 meer klanten per jaar
- 10% minder personeelsverloop
Standaarddeviatie is de meest gebruikte maat voor spreiding in statistische analyses, vanwege het belang ervan voor de normale verdelingsfunctie die model staat voor veel datasets in de echte wereld. Het is echter belangrijk om te onthouden dat het slechts één van de vele hulpmiddelen is.
Andere maten van spreiding zijn:
- Variantie (een maat voor gemiddelde gekwadrateerde variantie)
- Bereik van waarden (het verschil tussen de hoogste en laagste waarde. Een groter bereik betekent meer spreiding)
- Interkwartiel bereik (vaak afgekort als IQR, wat de spreiding is van de middelste 50% van de gegevens)
- De gemiddelde absolute afwijking (MAD), en anderen.
De meest effectieve data-analisten hebben een uitgebreid begrip van verschillende statistische maatstaven en weten wanneer ze elke maatstaf moeten toepassen om de meest diepgaande inzichten te verkrijgen.
Wil je meer weten?
Abonneer je op onze nieuwsbrief en ontvang zorgvuldig geselecteerde artikelen rechtstreeks in je inbox
