Verschil tussen centrale tendens en dispersie

Anonim

Centrale Tendentie versus Dispersie

In beschrijvende en inferentiele statistieken worden meerdere indexen gebruikt om een ​​dataset te beschrijven die overeenstemt met zijn centrale neiging, dispersie en scheefheid: de drie belangrijkste eigenschappen die de relatieve vorm van de verdeling van een dataset bepalen.

Wat is de centrale tendens?

Centrale neiging verwijst naar en lokaliseert het middelpunt van de verdeling van waarden. Gemiddelde, modus en mediaan zijn de meest gebruikte indexen om de centrale neiging van een dataset te beschrijven. Als een dataset symmetrisch is, vallen zowel de mediaan als het gemiddelde van de dataset samen.

Gezien een dataset wordt het gemiddelde berekend door de som van alle gegevenswaarden te nemen en vervolgens door het aantal gegevens te verdelen. Bijvoorbeeld worden de gewichten van 10 personen (in kilogram) gemeten op 70, 62, 65, 72, 80, 70, 63, 72, 77 en 79. Dan kan het gemiddelde gewicht van de tien personen (in kilogram) berekend als volgt. De som van de gewichten is 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79 = 710. Gemiddelde = (som) / (aantal gegevens) = 710/10 = 71 (in kilogram). Er wordt begrepen dat uitwijkers (datapunten die afwijken van de normale trend) de gemiddelde beïnvloeden. Dus, in de aanwezigheid van outliers betekent alleen, geen correcte afbeelding over het midden van de dataset.

De mediaan is het gegevenspunt dat wordt gevonden op het exacte midden van de dataset. Een manier om de mediaan te berekenen is om de datapunten in oplopende volgorde te bestellen, en zoek dan het gegevenspunt in het midden. Bijvoorbeeld, als er eenmaal besteld is, ziet u de vorige gegevensset uit, 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Daarom is (70 + 72) / 2 = 71 in het midden. Hieruit blijkt dat mediaan niet in de dataset hoeft te zijn. Mediaan wordt niet beïnvloed door de aanwezigheid van de afwijkers. Vandaar dat de mediaan zal dienen als een betere maatregel van centrale neiging in de aanwezigheid van outliers.

De modus is de meest voorkomende waarde in de set data. In het vorige voorbeeld gebeurt de waarde 70 en 72 beide twee keer en dus zijn beide modi. Dit laat zien dat er in sommige verdelingen meer dan één modale waarde is. Als er slechts één modus is, wordt de dataset unimodaal gezegd, in dit geval is de dataset bimodaal.

Wat is dispersie?

Dispersie is de hoeveelheid gegevensverspreiding over het middelpunt van de distributie. Bereik en standaardafwijking zijn de meest gebruikte maatregelen van dispersie.

Het bereik is simpelweg de hoogste waarde minus de laagste waarde. In het vorige voorbeeld is de hoogste waarde 80 en de laagste waarde is 62, dus het bereik is 80-62 = 18. Maar het bereik geeft geen voldoende beeld over de dispersie.

Om de standaardafwijking te berekenen, worden eerst de afwijkingen van de gegevenswaarden van het gemiddelde berekend. Het root square gemiddelde van afwijkingen heet de standaard afwijking. In het vorige voorbeeld zijn de respectievelijke afwijkingen van de gemiddelde (70 - 71) = -1, (62 - 71) = -9, (65 - 71) = -6, (72 - 71) = 1, 71) = 9, (70-71) = -1, (63-71) = -8, (72-71) = 1, (77-71) = 6 en (79-71) = 8. De som van vierkanten van afwijking is (-1) 2 + (-9) 2 + (-6) 2 + 1 2 + 9 2 + (-1) 2 + (-8) 2 + 1 2 + 6 2 + 8 2 = 366. De standaardafwijking is √ (366/10) = 6,05 (in kilogram). Tenzij de dataset sterk scheef is, kan hieruit geconcludeerd worden dat de meerderheid van de data in het interval 71 ± 6 ligt. 05, en het is inderdaad zo in dit specifieke voorbeeld.

Wat is het verschil tussen centrale neiging en dispersie?

• Centrale neiging verwijst naar en lokaliseert het centrum van de verdeling van waarden

• Dispersie is de hoeveelheid gegevensverspreiding over het midden van een dataset.