Enkele statistische termen uitgelegd

Door Erik-Jan op 28 juni 2007

Met klanten wil je graag spreken over zaken als rendement, omzetgroei en Return on Investment. Nu zijn al deze statische termen in de regel nogal eens moeilijk uit te leggen. Of de klant snapt het niet, of jijzelf begrijpt het niet goed genoeg om wat zaken uit te leggen. Nu heb ik vanuit mijn huidige studie redelijk zicht op statistiek, dus ik zal proberen het één en ander eens zo helder mogelijk uit te leggen.

Gemiddelde

De makkelijkste statistische term is uiteraard het gemiddelde. Als we bijvoorbeeld voor 1 jaar lang per week de afzet van die week hebben, is de gemiddelde afzet per week gedefinieerd als de totale afzet over dat jaar gedeeld door het aantal weken (52). Toch is het gemiddelde lang niet altijd een goede omschrijving van de daadwerkelijke afzet. Kijk maar eens naar onderstaande grafiek:

grafiek 1 Enkele statistische termen uitgelegd

Beide lijnen in de grafiek hebben hetzelfde gemiddelde. Reeks 2 wordt dan ook redelijk beschreven als je zegt dat het gemiddelde 26,75 is. Als ik echter over Reeks 1 zeg dat het gemiddelde 26,75 is, mis ik een zeer belangrijke eigenschap van deze data – Namelijk dat er duidelijk een seizoenstrend in de data zit. De afzet in het voorjaar en de zomer is duidelijk groter dan in het najaar en de winter. Als je bijvoorbeeld een SEO campagne uitvoert en over de maand mei (zeg eens week 18-22) een gemiddelde afzet van 30 per week haalt, is dit hoger dan het gemiddelde over een jaar, maar toch heb je ergens een fout gemaakt. Immers, het gemiddelde over de weken 18-22 is 37,2 en als je een jaar later 30 scoort, is de afzet dus gedaald.

Standaard deviatie

De standaard deviatie is een maatstaf waarin je de spreiding van een bepaalde dataset kan aangeven. Een lage standaard deviatie geeft aan dat de dataset redelijk constant is, terwijl een hoge standaard deviatie aangeeft dat de data flink heen en weer schommelt. Een hoge standaard deviatie kan er bijvoorbeeld op wijzen een product een seizoensartikel is en dus de eigenschap seasonality bevat. Zo is de standard deviatie van Reeks 1 in bovenstaande grafiek 10,6 tegen 2,2 voor Reeks 2. Een reeks met een standaard deviatie van 0 bevat data met enkel dezelfde waarde.

Normale verdeling

Vanaf hier wordt het wat complexer, maar ook interessanter. Als er geen sprake is van seasonality en je hebt meer dan genoeg waarnemingen (zeg eens meer dan 30), dan geldt in de regel dat deze waarnemeningen normaal verdeeld zijn. Wat de normale verdeling precies is, maakt nu niet zo veel uit, maar wat je er mee kan is wel interessant. Een typische normale verdeling vind je hieronder:

grafiek 2 Enkele statistische termen uitgelegd

In het kort komt het er op neer dat het gemiddelde van de data de waarneming is die het meest voor komt; het gemiddelde plus of min 1 komt als iets minder voor; het gemiddelde plus of min 2 weer iets minder enz. De percentages die genoemd worden in de grafiek geven aan hoeveel procent van de waarnemeningen in de verschillende vakken horen te zitten. Zo hoort 34,1% van de waarnemingen tussen het gemiddelde en het gemiddelde plus 1 maal de standaarddeviatie te liggen. Samenvattend:

Bij normale verdelingen wijkt van de mogelijke waarden:

  • 68,2% ten hoogste 1 keer de standaardafwijking af van de verwachtingswaarde (het midden van de verdeling)
  • 95,4% ten hoogste 2 keer de standaardafwijking af van de verwachtingswaarde
  • 99,6% ten hoogste 3 keer de standaardafwijking af van de verwachtingswaarde

Wat heb je hier aan?

Stel je hebt een SEO campagne gedaan op een product waarvan de afzet vorig jaar gemiddeld 50 stuks per week was met een standaarddeviatie van 6. Als je na jouw campagne constateert dat de gemiddelde afzet gestegen is naar 63 stuks per week (wat groter is dan het oude gemiddelde plus 2 maal de standaarddeviatie), dan kun je in bovenstaande grafiek zien de kans hierop slechts ongeveer 2,2% was. Losjes gesproken kun je zelfs zeggen dat er 100% – 2,2% = 97,8% kans is dat de gemiddelde afzet daadwerkelijk gestegen is. Uiteraard kan jouw afzet nog steeds een toevalstreffer zijn, maar die kans is dus slechts zeer beperkt.


Je kunt een reactie, achterlaten of een trackback van uw eigen site.

6 Reacties op “Enkele statistische termen uitgelegd”

  1. Robbert

    Eindelijk een reden waarom ik moet opletten met Statistiek! :) Ik neem aan dat jullie niet met regressie analyses werken hé?

    Reageer
  2. Erik-Jan

    Natuurlijk zou je bij grotere projecten rekening moeten houden met regressie analyses. Een concrete toepassing is bijvoorbeeld een SEO traject waarbij je meer bezoekers genereert op de site. Als je dan van één product een omzetgroei ziet, is het zeker de moeite waard om die omzetgroei te regresseren op de bezoekersstatistieken. Op die manier kun je zien of er sowieso meer vraag naar het product is, of dat de extra vraag direct te koppelen is aan de extra bezoekersaantallen.

    Maar dit is al wel meer gevorderde statistiek lijkt mij :)

    Reageer
  3. Robbert

    En we zitten hier natuurlijk niet op school!

    Reageer
  4. Arjan

    dat was dus de reden dat ik geen wiskunde A (maar B) heb gekozen ;-)

    Reageer
  5. Leon

    Ja dat dacht ik ook, maar nu ik Technische Natuurkunde studeer beginnen ze er weer over te neuzelen… :) Ik vind het verder niet zo’n ramp..

    Reageer
  6. johan

    klasse grenzen p
    1 10 – 16 .10
    2 17 – 23 .20
    3 24 – 30 .40
    4 31 – 37 .30

    hoe bereken je het gemiddelde hier?

    Reageer

Reageer!