cum se normalizează datele între 0 și 100
pentru a normaliza valorile dintr – un set de date să fie între 0 și 100, puteți utiliza următoarea formulă:
zi = (xi – min(x)) / (max(x) – min(x)) * 100
unde:
- zi: a i-a valoare normalizată în setul de date
- xi: a i-a valoare în setul de date
- min(x): valoarea minimă în setul de date
- max(x): valoarea maximă în setul de date
de exemplu, să presupunem că avem următorul set de date:
valoarea minimă din setul de date este 12, iar valoarea maximă este 68.
pentru a normaliza prima valoare a lui 12, am aplica formula partajată mai devreme:
- zi = (xi-min (x)) / (max (x) – min (x)) * 100 = (12 – 12) / (68 – 12) * 100 = 0
pentru a normaliza a doua valoare de 19, am folosi aceeași formulă:
- zi = (xi-min (x)) / (max (x) – min (x)) * 100 = (19 – 12) / (68 – 12) * 100 = 12.5
pentru a normaliza a treia valoare a lui 21, am folosi aceeași formulă:
- zi = (X-min (x)) / (max (x) – min (x)) * 100 = (21 – 12) / (68 – 12) * 100 = 16.07
putem folosi exact aceeași formulă pentru a normaliza fiecare valoare din setul de date original să fie între 0 și 100:
Cum de a normaliza date între orice interval
putem folosi de fapt, această formulă pentru a normaliza un set de date între 0 și orice număr:
zi = (xi – min(x)) / (max(x) – min(x)) * Q
unde Q este numărul maxim pe care doriți pentru valorile de date normalizate.
în exemplul anterior am ales Q să fie egal cu 100, dar am putea normaliza cu ușurință o gamă de valori de date între 0 și 1.000 alegând Q să fie 1.000:
pentru a normaliza prima valoare a lui 12, am aplica formula:
- zi = (xi-min (x)) / (max (x) – min (x)) * 1,000 = (12 – 12) / (68 – 12) * 100 = 0
pentru a normaliza a doua valoare de 19, am folosi aceeași formulă:
- zi = (X-min (x)) / (max (x) – min (x)) * 1,000 = (19 – 12) / (68 – 12) * 100 = 125
pentru a normaliza a treia valoare a lui 21, am folosi aceeași formulă:
- zi = (xi-min (x)) / (max (x) – min (x)) * 1,000 = (21 – 12) / (68 – 12) * 100 = 160.7
putem folosi exact aceeași formulă pentru a normaliza fiecare valoare din setul de date original să fie între 0 și 1.000:
când să normalizați datele
Ocazional normalizăm variabilele atunci când efectuăm un tip de analiză în care avem mai multe variabile care sunt măsurate pe scări diferite și dorim ca fiecare dintre variabile să aibă același interval.
acest lucru împiedică o variabilă să fie prea influentă, mai ales dacă este măsurată în unități diferite (adică dacă o variabilă este măsurată în inci și alta este măsurată în metri).
de asemenea, merită remarcat faptul că am folosit o metodă cunoscută sub numele de normalizare min-max în acest tutorial pentru a normaliza valorile datelor.
cele mai comune două metode de normalizare sunt următoarele:
1. Normalizare Min-Max
- obiectiv: Convertește fiecare valoare de date la o valoare între 0 și 100.
- Formula: Valoare nouă = (valoare-min) / (max-min) * 100
2. Normalizarea medie
- obiectiv: scalează valorile astfel încât media tuturor valorilor să fie 0 și std. dev. este 1.
- Formula: Valoare nouă = (valoare-medie) / (deviație standard)