jak normalizovat Data mezi 0 a 100
Chcete – li normalizovat hodnoty v datové sadě mezi 0 a 100, můžete použít následující vzorec:
zi = (xi-min(x)) / (max (x – – min (x)) * 100
kde:
- zi: ith normalizovaná hodnota v datové sadě
- xi: ith hodnota v datové sadě
- min(x): minimální hodnota v datové sadě
- max(x): maximální hodnota v datové sadě
Předpokládejme například, že máme následující datovou sadu:
minimální hodnota v datovém souboru je 12 a maximální hodnota je 68.
pro normalizaci první hodnoty 12 bychom použili vzorec sdílený dříve:
- zi = (xi-min (x)) / (max (x – – min (x)) * 100 = (12 – 12) / (68 – 12) * 100 = 0
pro normalizaci druhé hodnoty 19 bychom použili stejný vzorec:
- zi = (xi-min (x)) / (max (x – – min (x)) * 100 = (19 – 12) / (68 – 12) * 100 = 12.5
pro normalizaci třetí hodnoty 21 bychom použili stejný vzorec:
- zi = (xi-min (x)) / (max (x – – min (x)) * 100 = (21 – 12) / (68 – 12) * 100 = 16.07
tento přesně stejný vzorec můžeme použít k normalizaci každé hodnoty v původním datovém souboru mezi 0 a 100:
jak normalizovat Data mezi libovolným rozsahem
tento vzorec můžeme skutečně použít k normalizaci datové sady mezi 0 a libovolným číslem:
zi = (xi-min (x)) / (max(x) – min (x)) * Q
kde Q je maximální číslo, které chcete pro normalizované datové hodnoty.
v předchozím příkladu jsme zvolili Q, aby se rovnalo 100, ale mohli bychom snadno normalizovat rozsah datových hodnot mezi 0 a 1 000 výběrem Q jako 1 000:
pro normalizaci první hodnoty 12 bychom použili vzorec:
- zi = (xi-min (x)) / (max (x – – min (x)) * 1,000 = (12 – 12) / (68 – 12) * 100 = 0
pro normalizaci druhé hodnoty 19 bychom použili stejný vzorec:
- zi = (xi-min (x)) / (max (x – – min (x)) * 1,000 = (19 – 12) / (68 – 12) * 100 = 125
pro normalizaci třetí hodnoty 21 bychom použili stejný vzorec:
- zi = (xi-min (x)) / (max (x – – min (x)) * 1,000 = (21 – 12) / (68 – 12) * 100 = 160.7
tento přesně stejný vzorec můžeme použít k normalizaci každé hodnoty v původním datovém souboru mezi 0 a 1 000:
kdy normalizovat Data
občas normalizujeme proměnné při provádění nějakého typu analýzy, ve které máme více proměnných, které jsou měřeny na různých měřítcích, a chceme, aby každá z proměnných měla stejný rozsah.
tím se zabrání tomu, aby jedna proměnná byla příliš vlivná, zejména pokud je měřena v různých jednotkách (tj. pokud je jedna proměnná měřena v palcích a druhá je měřena v yardech).
je také třeba poznamenat, že jsme v tomto tutoriálu použili metodu známou jako normalizace min-max k normalizaci datových hodnot.
dvě nejběžnější normalizační metody jsou následující:
1. Min-Max normalizace
- cíl: převede každou datovou hodnotu na hodnotu mezi 0 a 100.
- vzorec: Nová hodnota = (hodnota-min) / (max-min) * 100
2. Průměrná normalizace
- cíl: váhy hodnoty tak, že průměr všech hodnot je 0 a std. rozvoj. je 1.
- vzorec: Nová hodnota = (hodnota – průměr) / (směrodatná odchylka)