Come Normalizzare i Dati Tra 0 e 100
Per normalizzare i valori in un set di dati per essere tra 0 e 100, è possibile utilizzare la seguente formula:
zi = (xi – min(x)) / (max(x) – min(x)) * 100
dove:
- zi: L’i-esimo valore normalizzato nel set di dati
- xi: L’i-esimo valore del set di dati
- min(x): Il valore minimo del set di dati
- max(x): Il valore massimo nel dataset
Per esempio, supponiamo di avere la seguente set di dati:
Il valore minimo nel set di dati è 12 e il valore massimo è 68.
Per normalizzare il primo valore di 12, si applica la formula condivisa in precedenza:
- zi = (xi – min(x)) / (max(x) – min(x)) * 100 = (12 – 12) / (68 – 12) * 100 = 0
Per normalizzare il secondo valore di 19, dovremmo usare la stessa formula:
- zi = (xi – min(x)) / (max(x) – min(x)) * 100 = (19 – 12) / (68 – 12) * 100 = 12.5
Per normalizzare il terzo valore di 21, si utilizza la stessa formula:
- zi = (xi – min(x)) / (max(x) – min(x)) * 100 = (21 – 12) / (68 – 12) * 100 = 16.07
Possiamo utilizzare questa stessa formula per normalizzare ogni valore del set originale di essere tra 0 e 100:
Come Normalizzare i Dati Tra un Range
Si può effettivamente utilizzare questa formula per normalizzare un set di dati tra 0 e un numero qualsiasi:
zi = (xi – min(x)) / (max(x) – min(x)) * Q
dove Q è il numero massimo che si desidera per il vostro normalizzato i valori dei dati.
Nell’esempio precedente, abbiamo scelto Q di essere uguale a 100, ma si potrebbe facilmente normalizzare un intervallo di valori compreso tra 0 e 1.000 scegliendo Q di essere di 1.000:
Per normalizzare il primo valore di 12, si applica la formula:
- zi = (xi – min(x)) / (max(x) – min(x)) * 1,000 = (12 – 12) / (68 – 12) * 100 = 0
Per normalizzare il secondo valore di 19, dovremmo usare la stessa formula:
- zi = (xi – min(x)) / (max(x) – min(x)) * 1,000 = (19 – 12) / (68 – 12) * 100 = 125
Per normalizzare il terzo valore di 21, si utilizza la stessa formula:
- zi = (xi – min(x)) / (max(x) – min(x)) * 1,000 = (21 – 12) / (68 – 12) * 100 = 160.7
Possiamo utilizzare questa stessa formula per normalizzare ogni valore del set originale di essere tra 0 e 1.000:
Quando normalizzare i dati
Occasionalmente normalizziamo le variabili quando eseguiamo un certo tipo di analisi in cui abbiamo più variabili misurate su scale diverse e vogliamo che ciascuna delle variabili abbia lo stesso intervallo.
Ciò impedisce a una variabile di essere eccessivamente influente, specialmente se viene misurata in unità diverse (cioè se una variabile è misurata in pollici e un’altra è misurata in iarde).
Vale anche la pena notare che in questo tutorial abbiamo utilizzato un metodo noto come normalizzazione min-max per normalizzare i valori dei dati.
I due metodi di normalizzazione più comuni sono i seguenti:
1. Normalizzazione min-Max
- Obiettivo: Converte ogni valore di dati in un valore compreso tra 0 e 100.
- Formula: Nuovo valore = (valore-min) / (max-min) * 100
2. Normalizzazione media
- Obiettivo: scala i valori in modo tale che la media di tutti i valori sia 0 e std. dev. è 1.
- Formula: Nuovo valore = (valore – media) / (deviazione standard)