hogyan lehet normalizálni az adatokat 0 és 100 között
az adatkészlet 0 és 100 közötti értékeinek normalizálásához a következő képletet használhatja:
zi = (xi-min (x)) / (max (x) – min (x)) * 100
ahol:
- zi: az adatkészlet i-edik normalizált értéke
- xi: az adatkészlet i-edik értéke
- min (x): az adatkészlet minimális értéke
- max (x): az adatkészlet maximális értéke
tegyük fel például, hogy a következő adatkészletünk van:
az adatkészlet minimális értéke 12, a maximális értéke 68.
a 12 első értékének normalizálásához a korábban megosztott képletet alkalmazzuk:
- zi = (xi-min(x)) / (max (x) – min (x)) * 100 = (12 – 12) / (68 – 12) * 100 = 0
a 19 második értékének normalizálásához ugyanazt a képletet használnánk:
- zi = (xi-min(x)) / (max (x) – min (x)) * 100 = (19 – 12) / (68 – 12) * 100 = 12.5
a 21 harmadik értékének normalizálásához ugyanazt a képletet használnánk:
- zi = (xi-min(x)) / (max (x) – min (x)) * 100 = (21 – 12) / (68 – 12) * 100 = 16.07
pontosan ezt a képletet használhatjuk arra, hogy az eredeti adatkészlet minden értékét 0 és 100:
hogyan lehet normalizálni az adatokat bármely tartomány között
valójában ezt a képletet használhatjuk egy 0 és bármely szám közötti adatkészlet normalizálására:
zi = (xi – min(x)) / (max(x) – min(x)) * Q
ahol Q A normalizált adatértékekhez kívánt maximális szám.
az előző példában Q-t választottuk 100-nak, de könnyen normalizálhatjuk a 0 és 1000 közötti adatértékek tartományát, ha Q-t választjuk 1000-nek:
a 12 első értékének normalizálásához a képletet alkalmaznánk:
- zi = (xi-min(x)) / (max (x) – min (x)) * 1,000 = (12 – 12) / (68 – 12) * 100 = 0
a 19 második értékének normalizálásához ugyanazt a képletet használnánk:
- zi = (xi-min(x)) / (max (x) – min (x)) * 1,000 = (19 – 12) / (68 – 12) * 100 = 125
a 21 harmadik értékének normalizálásához ugyanazt a képletet használnánk:
- zi = (xi-min(x)) / (max (x) – min (x)) * 1,000 = (21 – 12) / (68 – 12) * 100 = 160.7
pontosan ezt a képletet használhatjuk az eredeti adatkészlet minden értékének 0 és 1000 közötti normalizálására:
mikor kell normalizálni az adatokat
alkalmanként normalizáljuk a változókat, amikor valamilyen típusú elemzést végzünk, amelyben több változónk van, amelyeket különböző skálán mérünk, és azt akarjuk, hogy mindegyik változó azonos tartományban legyen.
ez megakadályozza, hogy az egyik változó túlságosan befolyásos legyen, különösen, ha különböző egységekben mérik (azaz ha az egyik változót hüvelykben, a másikat yardban mérik).
azt is érdemes megjegyezni, hogy ebben az oktatóanyagban a min-max normalizálás néven ismert módszert használtuk az adatértékek normalizálására.
a két leggyakoribb normalizálási módszer a következő:
1. Min-Max normalizálás
- célkitűzés: minden adatértéket 0 és 100 közötti értékre konvertál.
- képlet: Új érték = (érték-perc) / (max-perc) * 100
2. Átlagos normalizálás
- célkitűzés: az értékeket úgy skálázza, hogy az összes érték átlaga 0 és std legyen. dev. az 1.
- képlet: Új érték = (érték-átlag) / (szórás)