Per descrivere un insieme di dati, due numeri sono particolarmente importanti: la media (il "centro") e la deviazione standard (la "dispersione").
Media
Già vista: somma dei valori, divisa per quanti sono.
.
Varianza
Misura quanto i dati si discostano dalla media:
Si usa il quadrato per evitare che gli scarti positivi e negativi si annullino tra loro.
Deviazione standard
La deviazione standard è la radice della varianza:
.
Ha la stessa unità di misura dei dati (mentre la varianza ha quadrato dell'unità).
Esempio
Dati: . Media: .
Scarti dalla media: . Quadrati: . Somma: . Varianza: . Deviazione standard: .
Cosa ti dice
piccolo: dati molto concentrati attorno alla media. grande: dati molto sparsi. Due dataset con la stessa media possono avere caratteristiche molto diverse a seconda di .