Standaardafwijking begrijpen: Ontdek de formule en haar toepassingen in gegevensanalyse

Geschreven op 9 mei 2025 door Jeremy Moser

Haley, een HR-professional, is belast met het analyseren van de resultaten van medewerkerstevredenheidsonderzoeken van honderden medewerkers. De gegevens zijn overweldigend en ze moet inzichten presenteren die duidelijk, bruikbaar en gemakkelijk te verteren zijn.

Maar hoe kan ze wijs worden uit alle getallen zonder te verdwalen in de ruis? Hier wordt het begrip standaardafwijking van onschatbare waarde. Gegevensanalisten zoals Haley staan voor de uitdaging om enorme hoeveelheden gegevens om te zetten in zinvolle inzichten. Ze hebben beknopte, eenvoudig te vergelijken maatstaven nodig die de belangrijkste features van grote datasets effectief weergeven.

In dit artikel onderzoeken we hoe het begrijpen en toepassen van de standaarddeviatieformule u kan helpen diepere inzichten te verkrijgen en beter geïnformeerde beslissingen te nemen.

Een fundamenteel instrument in het arsenaal van een data-analist is de standaarddeviatie.

Wat is de standaardafwijking?

Standaarddeviatie (SD) is gedefinieerd als de vierkantswortel van de variantie van een dataset. Het is een essentiële maat in beschrijvende statistiek die laat zien hoe ver de individuele gegevenspunten zijn verwijderd van de gemiddelde waarde van die dataset.

Eenvoudiger gezegd, het kwantificeert de gemiddelde afstand van een gegevenspunt tot het distributiecentrum.

In ons voorbeeld van Haley, een HR-consultant, zeggen we bijvoorbeeld dat ze net antwoorden heeft verzameld van een groot onderzoek naar trainingsbehoeften. Ze heeft veel gegevens, maar ze heeft een manier nodig om uit te zoeken hoe "verspreid" de reacties zijn. Dat is waar standaardafwijking komt binnen.

Eenvoudig gezegd vertelt het haar hoeveel elke individuele respons (zoals een assessment op trainingsonderwerpen) afwijkt van het gemiddelde of "centrum" van de gegevens. Als de standaardafwijking klein is, betekent dit dat de meeste antwoorden vrij gelijkaardig zijn en dicht bij het gemiddelde liggen. Maar als de standaardafwijking groot is, variëren de antwoorden sterk en is er meer diversiteit in meningen of behoeften.

Als de meeste werknemers bijvoorbeeld denken dat dezelfde trainingsprogramma's nodig zijn, zal de standaardafwijking klein zijn. Als sommige werknemers bepaalde vaardigheden essentieel vinden terwijl anderen vinden dat ze heel andere training nodig hebben, zal de standaardafwijking groter zijn.

Als HR-consultant helpt het begrijpen van standaardafwijking Haley om te zien hoe consistent of gevarieerd de trainingsbehoeften van haar werknemers zijn, waardoor het gemakkelijker wordt om een programma op maat van de groep te ontwerpen.

Wat meet standaarddeviatie?

Standaardafwijking is een maat voor de variabiliteit of spreiding binnen een kwantitatieve dataset

Terwijl steekproef- en populatievarianties ook deze spreiding meten, wordt de standaardafwijking uitgedrukt in dezelfde eenheden als de oorspronkelijke gegevens in de statistische populatie, waardoor deze veel gemakkelijker te interpreteren is.

  • kogel oranje 150x150 1

    Een hoge SD geeft aan dat datapunten wijd verspreid zijn rond het gemiddelde, wat duidt op een grotere diversiteit of volatiliteit in de dataset.

    Laten we bij Haley blijven, de HR-consultant, en haar onderzoek naar trainingsbehoeften. Stel je voor dat ze enquêtegegevens verzamelt over de voorkeuren van werknemers voor specifieke soorten trainingsprogramma's, zoals leiderschap, communicatie en technische vaardigheden.

    Na het berekenen van de gemiddelde waardering voor elk trainingsonderwerp, ontdekt Haley dat de standaardafwijking voor leiderschapstraining is hoog. Dit betekent dat terwijl sommige werknemers leiderschapstraining als cruciaal beoordeelden, anderen vonden dat het helemaal niet nodig was. Er is een significante spreiding in hoe mensen het belang van leiderschapstraining zien, wat duidt op een grotere diversiteit of volatiliteit in de antwoorden.

  • kogel oranje 150x150 1

    Een lage SD geeft aan dat datapunten dicht bij het gemiddelde zijn geclusterd, wat duidt op een meer uniforme en voorspelbare dataset.

    Terugkomend op Haley, de HR-consultant, stel dat ze antwoorden van werknemers heeft verzameld over hun trainingsbehoeften. Na het analyseren van de gegevens komt ze tot de conclusie dat de standaardafwijking voor technische vaardigheidstraining is laag. Dit geeft aan dat de meeste werknemers technische trainingsprogramma's vergelijkbaar beoordelen, met antwoorden die rond de gemiddelde score liggen.

    Voor Haley betekent deze lage standaardafwijking dat ze zich met een gerust hart kan richten op het aanbieden van een standaard technisch trainingsprogramma, in de wetenschap dat de meeste werknemers baat zullen hebben bij dezelfde inhoud. Er is minder behoefte aan maatwerk, omdat de gegevens een gedeeld begrip en overeenstemming laten zien over welke training het meest waardevol is.

Door de standaardafwijking te begrijpen, krijgen we waardevolle inzichten in de consistentie, voorspelbaarheid en risico's van de gegevens die we analyseren.

Standaarddeviatie van steekproef vs. populatie in gegevensanalyse (S vs. σ)

Standaardafwijking is een maat voor de variabiliteit of spreiding binnen een kwantitatieve dataset

Terwijl steekproef- en populatievarianties ook deze spreiding meten, wordt de standaardafwijking uitgedrukt in dezelfde eenheden als de oorspronkelijke gegevens in de statistische populatie, waardoor deze veel gemakkelijker te interpreteren is.

  • kogel oranje 150x150 1

    Als je volledige informatie hebt over elk individu in een groep of dataset, kun je de standaardafwijking berekenen. standaarddeviatie populatieaangeduid met σ (de Griekse letter sigma).

  • kogel oranje 150x150 1

    Als je met een deelverzameling van de populatie werkt en de standaardafwijking van de hele populatie wilt schatten, gebruik je de standaard steekproefafwijking aangeduid met S.

Het is belangrijk op te merken dat het gebruikelijk is dat mensen S en σ door elkaar gebruiken, maar ze zijn niet hetzelfde. Als iemand niet specificeert welke SD hij bedoelt, verwijst hij meestal naar S, zelfs als hij het symbool σ gebruikt.

Standaardafwijking vergelijkingen

Er zijn twee standaarddeviatievergelijkingen, een voor populaties en een voor steekproeven. Afhankelijk van of je die formule uitbreidt en vereenvoudigt, kan elke vergelijking op twee manieren worden uitgeschreven.

Formule standaarddeviatie populatie (σ)

De meest eenvoudige manier om standaarddeviatie te berekenen is met de wiskundige definitie als de vierkantswortel van de populatievariantie:

Formule standaarddeviatie populatie

Vergelijking 1: formule voor populatiestandaardafwijking (Afbeeldingsbron: gemaakt door auteur)

Waar:

  • σ is de standaarddeviatie van de populatie
  • Σ geeft de som van...
  • xi is elk gegevenspunt
  • μ is het populatiegemiddelde
  • N is het totale aantal gegevenspunten

Uitgebreide formule voor populatie-SD

We kunnen de bovenstaande formule uitbreiden en vereenvoudigen om een tweede, rekenkundig efficiëntere manier te vinden om σ te berekenen:

Populatiestandaardafwijking uitgebreide formule

Vergelijking 2: Populatiestandaardafwijking uitgebreide formule (Afbeeldingsbron: gemaakt door auteur)

De variabelen zijn hetzelfde als hierboven. Het belangrijkste verschil is dat we de gemiddelde waarde van de populatie (μ) niet nodig hebben.

Standaardafwijking steekproef (S)

Voor de steekproef is de SD-formule zeer vergelijkbaar, met het verschil dat we 1 aftrekken van de noemer binnen de vierkantswortel:

Standaardafwijking steekproef

Vergelijking 3: Formule standaardafwijking steekproef (Afbeeldingsbron: gemaakt door auteur)

Waar:

  • S is de standaardafwijking van de steekproef.
  • x̄ is het gemiddelde van de steekproef.
  • n is de steekproefgrootte of het aantal gegevenspunten
  • De andere symbolen zijn hetzelfde als hierboven.

Uitgebreide SD-formule voor steekproeven

Net als voorheen is er een uitgebreide versie van de formule voor SD van de steekproef:

Uitbreiding formule standaarddeviatie steekproef

Vergelijking 4: Uitbreiding formule standaarddeviatie steekproef (Afbeeldingsbron: gemaakt door auteur)

De variabelen zijn hetzelfde als voorheen.

Variatiecoëfficiënt (CV)

Soms is het handig om de standaardafwijking uit te drukken als een percentage van het gemiddelde. Dan krijgen we de relatieve standaardafwijking, ook wel variatiecoëfficiënt (CV) genoemd:

CV = (σ / μ) * 100% of CV = (S / x̄) * 100%

SD-resultaten interpreteren

De standaardafwijking is niet zomaar een getal - het is een krachtig hulpmiddel om zinvolle conclusies te trekken uit je gegevens. Hier lees je hoe je de standaardafwijking in verschillende contexten kunt interpreteren:

  • Datasets vergelijken: Als twee datasets hetzelfde gemiddelde maar verschillende standaarddeviaties hebben, heeft degene met de hogere standaarddeviatie meer variabiliteit.
  • Uitschieters identificeren: Datapunten die meer dan twee of drie standaardafwijkingen van het gemiddelde afwijken, worden vaak als uitschieters beschouwd en kunnen nader onderzoek rechtvaardigen.

    Stel dat Haley, de HR-consultant, de resultaten van een onderzoek naar trainingsbehoeften analyseert. Nadat ze de gegevens heeft bekeken, ziet ze dat de gemiddelde waardering voor training in communicatievaardigheden rond de 4 op 5 ligt, met een lage standaardafwijking die aangeeft dat de meeste werknemers het eens zijn over het belang ervan.

    Maar als ze beter kijkt, ziet ze een paar antwoorden die ver buiten de algemene trend vallen. Eén werknemer beoordeelde communicatietraining als een 1 (zeer laag belang), terwijl een andere werknemer het een perfecte 5 gaf (zeer belangrijk), hoewel de meeste antwoorden rond de 4 lagen.

    Dit is waar standaardafwijking helpt. Deze ongewoon lage en hoge waarderingen worden beschouwd als uitschietersomdat ze ver van de gemiddelde score afliggen. Met de standaardafwijking kan Haley gemakkelijk deze extreme gegevenspunten identificeren die niet overeenkomen met het algemene patroon.

    Door deze uitschieters te markeren, kan Haley dieper ingaan op de vraag waarom deze individuen verschillende meningen hebben. Het kan specifieke behoeften of zorgen aan het licht brengen die misschien niet meteen duidelijk zijn voor de rest van de groep. Misschien heeft de werknemer die communicatietraining met een 1 beoordeelde een andere functie waarbij communicatie niet zo belangrijk is, of degene die een 5 gaf heeft misschien een klantgerichte functie waarbij communicatievaardigheden van vitaal belang zijn.

    Door gebruik te maken van standaarddeviatie om deze uitschieters te identificeren, kan Haley individuele problemen aanpakken of specifieke gebieden onderzoeken waar trainingsprogramma's verder moeten worden verfijnd.

  • Procesbeheersing: Op productie of kwaliteitscontrole, helpt standaardafwijking bij het opsporen van procesvariabiliteit en het identificeren van afwijkingen van de gewenste normen.
  • Financiële analyse: Standaarddeviatie meet de volatiliteit en afwijking van aandelenrendementen, obligaties en andere financiële instrumenten.

Sterke en zwakke punten van standaarddeviatie als maat voor spreiding

Zoals elk statistisch hulpmiddel heeft standaardafwijking zijn sterke en zwakke punten.

Sterke punten van SD voor gegevensanalyse

  • Veel gebruikt en begrepen: Standaardafwijking is een bekende maat die in veel vakgebieden wordt gebruikt, waardoor het eenvoudig is om je bevindingen te communiceren.
  • Het helpt uitschieters te identificeren: Het weerspiegelt de impact van extreme waarden en geeft een completer beeld van de variabiliteit van gegevens.

Zwakke punten van standaarddeviatie voor gegevensanalyse

  • Veronderstelling van normaliteit: De standaardafwijking is het meest effectief als de gegevens een normale verdeling volgen. Andere maten kunnen geschikter zijn voor scheve of niet-normale kansverdelingen.
Normale verdeling

Bron: https://integratedmlai.com/normal-distribution-an-introductory-guide-to-pdf-and-cdf/

  • Gevoeligheid voor uitschieters: Hoewel dit een sterk punt is, kan het ook een zwak punt zijn als extreme waarden het gevolg zijn van fouten die de gegevens scheef trekken.
Score

Standaardafwijking berekenen - Een voorbeeld

Om de praktische toepassing van statistische analyse met behulp van standaardafwijking te illustreren, laten we een voorbeeldberekening uitvoeren van SD in datacenterbeheer.

Standaarddeviatie is een krachtig hulpmiddel dat kan worden toegepast voor datacentermanagement en -optimalisatie. Deze maat dient software zoals Nlyte om te analyseren:

  • Identificeer servers die te veel of te weinig stroom verbruiken
  • Analyseer stroomgebruik en -verbruik tussen servers
  • Controleer op temperatuurschommelingen
  • Werklastverdeling begrijpen

Laten we eens kijken naar een scenario waarin we het realtime stroomverbruik (in watt) van 20 servers in een datacenter monitoren:

Server

Power
Consumption
(Watts)

Server

Vermogen
Verbruik
(Watts)

1

350

11

350

2

365

12

385

3

340

13

340

4

380

14

395

5

355

15

365

6

370

16

370

7

345

17

345

8

390

18

390

9

360

19

355

10

375

20

380

 

Laten we nu de SD berekenen met beide versies van de vergelijkingen hierboven. Zoals gewoonlijk gebruiken we vergelijkingen 3 en 4 voor de standaardafwijking van de steekproef.

Hoe bereken je standaardafwijking op de gebruikelijke manier

Als je wilt oefenen met de SD-vergelijking voor een dataset zoals hierboven getoond, dan moet je het volgende doen:

Stap #1: Bereken het gemiddelde (x̄)

Tel alle waarden voor stroomverbruik bij elkaar op en deel ze door het totale aantal servers (20). Omdat dit een steekproef is, geeft x̄ dit gemiddelde aan:

x̄ = (350 + 365 + ... + 380) / 20 = 365.3

Stap #2: Bereken de afwijkingen van het gemiddelde (xi-x̄)

Trek het gemiddelde af van elke waarde voor energieverbruik:

x1 - x̄ = 350 - 365.3 = -15.3

x2 - x̄ = 365 - 365.3 = -0.3

x20 - x̄ = 380 - 365.3 = 9.8

Stap #3: Bereken de gekwadrateerde afwijkingen

Kwadrateer elk van de verschillen die je zojuist hebt berekend om de afwijkingen in het kwadraat te krijgen. Dit is wat we tot nu toe hebben:

Server (i)

xi

xi - x̄

(xi - x̄)²

1

350

-15.3

232.6

2

365

-0.3

0.1

3

340

-25.3

637.6

4

380

14.8

217.6

5

355

-10.3

105.1

6

370

4.8

22.6

7

345

-20.3

410.1

8

390

24.8

612.6

9

360

-5.3

27.6

10

375

9.8

95.1

11

350

-15.3

232.6

12

385

19.8

390.1

13

340

-25.3

637.6

14

395

29.8

885.1

15

365

-0.3

0.1

16

370

4.8

22.6

17

345

-20.3

410.1

18

390

24.8

612.6

19

355

-10.3

105.1

20

380

14.8

217.6

 

Stap #4: Vind het gemiddelde van de gekwadrateerde verschillen

Tel alle gekwadrateerde verschillen op (in de laatste kolom) en deel ze door het totale aantal servers min 1 (als je σ berekent, hoef je er geen 1 van af te trekken). Het resultaat is de steekproefvariantie, S²:

(-15.3)² + (-0.3)² + … + (14.8)² = 5873.8

S² = 5873,8 / (20 - 1) = 309,1 W²

Stap #5: Neem de vierkantswortel uit de variantie

S = √(S²) = √309,1 = 17,6 W

Hoe bereken je eenvoudig de standaarddeviatie van een steekproef: een stap-voor-stap handleiding

Laten we nu dezelfde berekening uitvoeren, maar de vereenvoudigde uitgebreide formule gebruiken om te zien hoe deze de berekening eenvoudiger maakt.

Stap #1: Kwadrateer elke waarde

x1²  = 350² = 122,500

x2²  = 365² = 133,225

x20²  = 380² = 144,400

Stap #2: Vind de som van de kwadraten

Tel alle waarden in het kwadraat bij elkaar op:

Σxi² = 122.500 + 133.225 + ... + 144.400 = 2.674.025 W²

Stap #3: Vind de som van de oorspronkelijke waarden

Σxi = 350 + 365 + ... + 380 = 7.305 W

Dit is wat we tot nu toe zouden hebben:

Server (i)

xi

xi²

1

350

122,500

2

365

133,225

3

340

115,600

4

380

144,400

5

355

126,025

6

370

136,900

7

345

119,025

8

390

152,100

9

360

129,600

10

375

140,625

11

350

122,500

12

385

148,225

13

340

115,600

14

395

156,025

15

365

133,225

16

370

136,900

17

345

119,025

18

390

152,100

19

355

126,025

20

380

144,400

Som

7,305

2,674,025

 

Stap 4: De uitgebreide formule toepassen

Ook hier gebruiken we (n - 1) als noemer in de vierkantswortel omdat we een steekproef gebruiken:

S = √ {[2.674.025 - (7.305)²/20)]/(20 - 1)} = 17,6 W

Beide methoden leveren hetzelfde resultaat op, maar de laatste methode vereist ruwweg de helft van de berekeningen.

Verbaas klanten met geautomatiseerde, gescoorde rapporten

 

Hier volgt een korte introductie over hoe Pointerpro werkt, gebracht door een van onze productexperts, Chris.

Dit is wat klanten over ons zeggen.

Standaarddeviatie van steekproef vs. populatie in gegevensanalyse (S vs. σ)

Standaardafwijking is een maat voor de variabiliteit of spreiding binnen een kwantitatieve dataset

Terwijl steekproef- en populatievarianties ook deze spreiding meten, wordt de standaardafwijking uitgedrukt in dezelfde eenheden als de oorspronkelijke gegevens in de statistische populatie, waardoor deze veel gemakkelijker te interpreteren is.

Casestudie: HR stimuleert winkelprestaties

Een grote restaurantketen midden in een mislukking vroeg een team van consultants om hulp om te bepalen waarom de prestaties slecht waren en hoe ze konden verbeteren. Er werden geen gegevens verzameld, dus stelden de consultants een enquête op die zich richtte op drie belangrijke resultaten:

  • Klanttevredenheid
  • Behoud van werknemers
  • Aantal klanten

Het bedrijf verspreidde een engagementenquête die:

  • Werknemersresultaten koppelen aan hun echte bedrijfsresultaten
  • Prioriteit geven aan de factoren die de grootste invloed hadden op bedrijfsresultaten
  • De zakelijke impact laten zien van verbeteringen in deze factoren
  • Focuste eerstelijnsmanagers op de factoren met de grootste impact
Gebruik van standaardafwijking in HR

Ze ontdekten dat zes factoren het meest bijdroegen aan bedrijfsverbetering en succes:

  • Ethiek
  • Teamwork
  • Functie-instelling
  • Senior leiders
  • Communicatie
  • Management

Als de restauranteigenaren zich richten op het stimuleren van werknemers die een vier of hoger scoren op deze zes features, kunnen ze de volgende verbeteringen verwachten in de drie belangrijkste bedrijfsresultaten:

  • 16% toename in klanttevredenheid
  • 18.000 meer klanten per jaar
  • 10% minder personeelsverloop

Standaardafwijking is een van de vele hulpmiddelen in je data-analyseriem

Standaarddeviatie is de meest gebruikte maat voor spreiding in statistische analyses, vanwege het belang ervan voor de normale verdelingsfunctie die model staat voor veel datasets in de echte wereld. Het is echter belangrijk om te onthouden dat het slechts één van de vele hulpmiddelen is.

Andere maten van spreiding zijn:

  • Variantie (een maat voor gemiddelde gekwadrateerde variantie)
  • Bereik van waarden (het verschil tussen de hoogste en laagste waarde. Een groter bereik betekent meer spreiding)
  • Interkwartiel bereik (vaak afgekort als IQR, wat de spreiding is van de middelste 50% van de gegevens)
  • De gemiddelde absolute afwijking (MAD), en anderen.

De meest effectieve data-analisten hebben een uitgebreid begrip van verschillende statistische maatstaven en weten wanneer ze elke maatstaf moeten toepassen om de meest diepgaande inzichten te verkrijgen.

Wil je meer weten?

Abonneer je op onze nieuwsbrief en ontvang zorgvuldig geselecteerde artikelen rechtstreeks in je inbox

Even geduld a.u.b.
Je inzending was succesvol!

Maak je eigen assessment
gratis!

Aanbevolen artikels

Over de auteur:

Jeremy Moser

Jeremy is medeoprichter en CEO van uSERP, een digitaal PR- en SEO-bureau dat werkt met merken als Monday, ActiveCampaign, Hotjar en meer. Hij koopt en bouwt ook SaaS-bedrijven zoals Wordable.io en schrijft voor publicaties zoals Entrepreneur en Search Engine Journal.