Fórmula algebraica de la varianza

Véase también: Algoritmos para calcular la varianza

En teoría de la probabilidad y estadística, se dispone de varias fórmulas algebraicas para calcular la varianza de una variable aleatoria. La utilidad de estos procedimientos depende de lo que ya se sabe sobre la variable aleatoria; por ejemplo, una variable aleatoria puede definirse en términos de su función de densidad de probabilidad o por construcción a partir de otras variables aleatorias.

El propósito del presente artículo es mostrar expresiones algebraicas para determinar la varianza teórica de una variable aleatoria, en contraste con la cuestión de estimar la varianza de una población a partir de datos de una muestra, problema para el que se deben efectuar consideraciones especiales a la hora de idear los correspondientes algoritmos para calcular la varianza (especialmente utilizando ordenadores).

En términos de momentos brutos

Si se conocen los momentos E(X) y E(X²) de un variable aleatoria X (donde E(X) es la esperanza matemática de X), entonces la Var(X) viene dada por:

\operatorname {Var} (X)=\operatorname {E} (X^{2})-[\operatorname {E} (X)]^{2}.

El resultado se denomina fórmula de König-Huygens en la literatura en lengua francesa^[1] y se conoce como teorema de traslación de Steiner en Alemania.^[2]

Existe una fórmula para determinar la estimación de la varianza a partir de los datos de una muestra, que puede ser de utilidad en los cálculos manuales. Esta es una identidad estrechamente relacionada, que está estructurada para crear una estimación no sesgada de la varianza de la población:

{\hat {\sigma }}^{2}={\frac {1}{N-1}}\sum _{i=1}^{N}(x_{i}-{\bar {x}})^{2}={\frac {N}{N-1}}\left({\frac {1}{N}}\left(\sum _{i=1}^{N}x_{i}^{2}\right)-{\bar {x}}^{2}\right)\equiv {\frac {1}{N-1}}\left(\left(\sum _{i=1}^{N}x_{i}^{2}\right)-N\left({\bar {x}}\right)^{2}\right).

Sin embargo, el uso de estas fórmulas puede ofrecer resultados erróneos en la práctica, cuando se usa aritmética de punto flotante con una precisión limitada: restar dos valores que tengan una magnitud similar puede llevar a cancelaciones catastróficas desde el punto de vista numérico,^[3] y por lo tanto, provocar una pérdida incontrolada de precisión cuando $\operatorname {E} (X)^{2}\gg \operatorname {Var} (X)$ .^[4] Esto ha llevado al diseño de varios otros algoritmos para calcular la varianza numéricamente estables para usar con números de punto flotante.^[4]

Demostración

La fórmula computacional para la varianza de la población se deduce de manera directa a partir de la linealidad de los valores esperados y de la definición de la varianza:

{\begin{aligned}\operatorname {Var} (X)&=\operatorname {E} \left[(X-\operatorname {E} (X))^{2}\right]\\&=\operatorname {E} \left[X^{2}-2X\operatorname {E} (X)+[\operatorname {E} (X)]^{2}\right]\\&=\operatorname {E} (X^{2})-\operatorname {E} [2X\operatorname {E} (X)]+[\operatorname {E} (X)]^{2}\\&=\operatorname {E} (X^{2})-2\operatorname {E} (X)\operatorname {E} (X)+[\operatorname {E} (X)]^{2}\\&=\operatorname {E} (X^{2})-2[\operatorname {E} (X)]^{2}+[\operatorname {E} (X)]^{2}\\&=\operatorname {E} (X^{2})-[\operatorname {E} (X)]^{2}\end{aligned}}

Generalización a la covarianza

Esta fórmula se puede generalizar para la covarianza, con dos variables aleatorias X_i y X_j:

\operatorname {Cov} (X_{i},X_{j})=\operatorname {E} (X_{i}X_{j})-\operatorname {E} (X_{i})\operatorname {E} (X_{j})

así como para la matriz de covarianza de orden n por n de un vector aleatorio de longitud n:

\operatorname {Var} (\mathbf {X} )=\operatorname {E} (\mathbf {XX^{\top }} )-\operatorname {E} (\mathbf {X} )\operatorname {E} (\mathbf {X} )^{\top }

y para la matriz de covarianza cruzada de orden n por m entre dos vectores aleatorios de longitudes n y m:

\operatorname {Cov} ({\textbf {X}},{\textbf {Y}})=\operatorname {E} (\mathbf {XY^{\top }} )-\operatorname {E} (\mathbf {X} )\operatorname {E} (\mathbf {Y} )^{\top }

donde los valores esperados se toman en forma de elementos y $\mathbf {X} =\{X_{1},X_{2},\ldots ,X_{n}\}$ y $\mathbf {Y} =\{Y_{1},Y_{2},\ldots ,Y_{m}\}$ son vectores aleatorios de longitudes respectivas n y m.

Téngase en cuenta que esta fórmula adolece del mismo problema de pérdida de significancia que la fórmula para la varianza si se usa para calcular estimaciones de la covarianza, y se deben usar algoritmos alternativos en su lugar.^[4]

Véase también

Referencias

↑ En francés: formule de Koenig–Huygens. Véase e.g. Martiano, Jean-Jacques (2006), Maths: prépas commerciales, Studyrama, p. 148, ISBN 9782844728289 .
↑ En alemán: Verschiebungssatz von Steiner. Véase e.g. Christoph, Gerd; Hackel, Horst (2013), Starthilfe Stochastik: Studium, Springer, p. 50, ISBN 9783322847997 ..
↑ Donald Knuth (1998). The Art of Computer Programming, volume 2: Seminumerical Algorithms, 3rd edn., p. 232. Boston: Addison-Wesley.
↑ ^a ^b ^c Schubert, Erich; Gertz, Michael (9 de julio de 2018). Numerically stable parallel computation of (co-)variance. ACM. p. 10. ISBN 9781450365055. doi:10.1145/3221269.3223036.

Datos: Q367866

[1] En francés: formule de Koenig–Huygens. Véase e.g. Martiano, Jean-Jacques (2006), Maths: prépas commerciales, Studyrama, p. 148, ISBN 9782844728289 .

[2] En alemán: Verschiebungssatz von Steiner. Véase e.g. Christoph, Gerd; Hackel, Horst (2013), Starthilfe Stochastik: Studium, Springer, p. 50, ISBN 9783322847997 ..

[3] Donald Knuth (1998). The Art of Computer Programming, volume 2: Seminumerical Algorithms, 3rd edn., p. 232. Boston: Addison-Wesley.

[:0-4] Schubert, Erich; Gertz, Michael (9 de julio de 2018). Numerically stable parallel computation of (co-)variance. ACM. p. 10. ISBN 9781450365055. doi:10.1145/3221269.3223036.

[1]

[2]

[3]

[4]