El problema usual de la estadística inferencial es:
Queremos conocer el valor de una característica en una población
No podemos medir esta característica en todos los individuos de la población
Extraemos una muestra aleatoria de la población, medimos la característica en los individuos de esta muestra e inferimos el valor de la característica para la toda la población
Ejemplo
Escogemos al azar \(n\) estudiantes de la Universidad de las Islas Baleares (UIB) (con reposición) para medirles la estatura
De esta manera, todas las muestras posibles de \(n\) individuos (posiblemente repetidos: multiconjuntos) tienen la misma probabilidad
Ejemplo
La media de las estaturas de una muestra de estudiantes de la UIB nos permite estimar la media de las alturas de todos los estudiantes de la UIB.
un conjunto de \(n\) copias independientes de \(X\), o
un conjunto de \(n\) variables aleatorias independientes \(X_1,\ldots,X_n\), todas con la distribución de \(X\).
Ejemplo
Sea \(X\) la v.a. “escogemos un estudiante de la UIB y le medimos la altura”. Una m.a.s. de \(X\) de tamaño \(n\) serán \(n\) copias independientes \(X_1,\ldots,X_n\) de esta \(X\).
Ejemplo:
La media muestral de las alturas de una realización de una m.a.s. de las alturas de estudiantes estima la altura media de un estudiante de la UIB.
Así pues, un estadístico es una (otra) variable aleatoria, con distribución, esperanza, etc.
La distribución muestral de \(T\) es la distribución de esta variable aleatoria.
Estudiando esta distribución muestral, podremos estimar propiedades de \(X\) a partir del comportamiento de una muestra.
\(X_1,\ldots,X_n\) una m.a.s. y \[ \overline{X}:=\frac{X_1+\cdots+X_n}{n}, \] el estadístico media muestral.
\(x_1,\ldots,x_n\) una realización de esta m.a.s. y \[ \overline{x}:=\frac{x_1+\cdots+x_n}{n}, \] la media (muestral) de esta realización.
En la vida real, las muestras aleatorias se toman, casi siempre, sin reposición (es decir sin repetición del mismo individuo de la población).
No son muestras aleatorias simples. pero:
Si \(N\) es mucho más grande que \(n\), los resultados para una m.a.s. son (aproximadamente) los mismos, ya que las repeticiones son improbables y las variables aleatorias que forman la muestra son prácticamente independientes.
En estos casos cometeremos el abuso de lenguaje de decir que es una m.a.s.
Si \(n\) es relativamente grande, se suelen dar versiones corregidas de los estadísticos.
La media muestral es: \[ \overline{X}=\frac{X_1+\cdots+X_n}{n} \]
Proposición
En estas condiciones, \[ E(\overline{X})=\mu_X,\quad \sigma_{\overline{X}}=\frac{\sigma_X}{\sqrt{n}} \] donde \(\sigma_{\overline{X}}\) es el error estándar de \(\overline{X}\).
Proposición
Es un estimador puntual de \(\mu_X\)
\(E(\overline{X})=\mu_X\): el valor esperado de \(\overline{X}\) es \(\mu_X\).
Si tomamos muchas veces una m.a.s. y calculamos la media muestral, el valor medio de estas medias tiende con mucha probabilidad a ser \(\mu_X\).
\(\sigma_{\overline{X}}= \sigma_X/\sqrt{n}\): la variabilidad de los resultados de \(\overline{X}\) tiende a 0 a medida que tomamos muestras más grandes.
iris
Ejercicio
Consideremos la tabla de datos iris
(que ya vimos en el tema de Muestreo). Vamos a comprobar las propiedades anteriores sobre la variable longitud del pétalo (Petal.Length
).
iris
Para generar los valores medios de las longitudes del pétalo de las 10000 muestras usaremos la función replicate
de R
. Fijaos en su sintaxis:
replicate(n,expresión)
evalúa n
veces la expresión
, y organiza los resultados como las columnas de una matriz (o un vector, si el resultado de cada expresión
es unidimensional).set.seed(1001) valores.medios.long.pétalo=replicate(10000,mean(sample(iris$Petal.Length,40, replace =TRUE)))
Los valores medios de las 10 primeras muestras anteriores serían
## [1] 3.5975 3.5150 3.9400 3.2650 3.9125 3.9650 4.2825 3.2950 3.8500 3.7850
iris
El valor medio de los valores medios de las muestras anteriores vale:
mean(valores.medios.long.pétalo)
## [1] 3.754478
Dicho valor tiene que estar cerca del valor medio de la variable longitud del pétalo:
mean(iris$Petal.Length)
## [1] 3.758
Fijaos que los dos valores están muy próximos.
iris
La desviación típica de los valores medios de las muestras vale:
sd(valores.medios.long.pétalo)
## [1] 0.2796513
Dicho valor tiene que estar cerca de \(\frac{\sigma_{lp}}{\sqrt{40}}\) (donde \(\sigma_{lp}\) es la desviación típica de la variable longitud del pétalo) tal como predice la propiedad de la media muestral referida a la desviación típica de la misma:
sd(iris$Petal.Length)/sqrt(40)
## [1] 0.2791182
Fijaos también en que los dos valores están muy próximos.
\(E(Y)=a_1\cdot\mu_1+\cdots+a_n\cdot\mu_n+b\)
\(\sigma(Y)^2=a_1^2\cdot\sigma_1^2+\cdots+a_n^2\cdot\sigma_n^2\)
Veamos cómo se distribuye la media muestral en el caso en que la población \(X\) sea normal.
Sea \(X_1,\ldots, X_n\) una m.a.s. de una v.a. \(X\) de esperanza \(\mu_X\) y desviación típica \(\sigma_X\).
Si \(X\) es \(N(\mu_X,\sigma_X)\), entonces \[ \overline{X}\mbox{ es }N\Big(\mu_X,\frac{\sigma_X}{\sqrt{n}}\Big) \] y por lo tanto \[ Z=\frac{\overline{X}-\mu_X}{\frac{\sigma_X}{\sqrt{n}}}\mbox{ es }N(0,1) \]
\(Z\) es la expresión tipificada de la media muestral.
Ejemplo
Tenemos una v.a. \(X\) de media \(\mu_X=3\) y desviación típica. \(\sigma_X=0.2\). Tomamos muestras aleatorias simples de tamaño 50. La distribución de la media muestral \(\overline{X}\) es aproximadamente \[ N\left(3,\frac{0.2}{\sqrt{50}}\right)=N(3,0.0283). \]
En el gráfico siguiente podemos observar el histograma de los valores medios de las longitudes del pétalo de las 10000 muestras junto con la distribución normal correspondiente:
Ejercicio
El tamaño en megabytes (MB) de un tipo de imágenes comprimidas tiene un valor medio de \(115\) MB, con una desviación típica de \(25\). Tomamos una m.a.s. de \(100\) imágenes de este tipo.
¿Cuál es la probabilidad de que la media muestral del tamaño de los ficheros sea \(\leq 110\) MB?
Sea \(X\) la variable aleatoria que nos da el tamaño en megabytes del tipo de imágenes comprimidas. La distribución de \(X\) será \(X=N(\mu=115,\sigma = 25)\)
Sea \(X_1,\ldots,X_{100}\) la m.a.s. La distribución aproximada de la media muestral \(\overline{X}\) usando el Teorema Central del Límite será: \(\overline{X}\approx N\left(\mu_{\overline{X}}=115,\sigma_{\overline{X}}=\frac{25}{\sqrt{100}}=2.5\right)\).
Nos piden la probabilidad siguiente: \(P(\overline{X}\leq 110)\). Si estandarizamos:
\[ P(\overline{X}\leq 100)=P\left(Z=\frac{\overline{X}-115}{2.5}\leq \frac{110-115}{2.5}\right) =p(Z\leq -2)=0.0228. \] donde \(Z\) es la normal estándar \(N(0,1)\)
Sea \(X_1,\ldots, X_n\) una m.a. sin reposición de tamaño \(n\) de una v.a. \(X\) de esperanza \(\mu_X\) y desviación típica \(\sigma_X\).
Si \(n\) es pequeño en relación al tamaño \(N\) de la población, todo lo que hemos contado funciona (aproximadamente).
Si \(n\) es grande en relación a \(N\), entonces \[ E(\overline{X})=\mu_X,\quad \sigma_{\overline{X}}=\frac{\sigma_X}{\sqrt{n}}\cdot \sqrt{\frac{N-n}{N-1}} \] (factor de población finita)
El Teorema Central del Límite ya no funciona exactamente en este último caso.
\(S=\sum_{i=1}^n X_i\) es el nombre de éxitos observados es \(B(n,p)\).
La proporción muestral es \[ \widehat{p}_X=\frac{S}{n} \] y es un estimador de \(p_X\).
Notemos que \(\widehat{p}_X\) es un caso particular de \(\overline{X}\), por lo que todo lo que hemos dicho para medias muestrales es cierto para proporciones muestrales.
Valor esperado de la proporción muestral: \[E(\widehat{p}_X)=p_X\]
Error estándar de la proporción muestral:
\[\displaystyle \sigma_{\widehat{p}_X}=\sqrt{\frac{p_X(1-p_X)}{n}}\]
\[\displaystyle\sigma_{\widehat{p}_X}=\sqrt{\frac{p_X(1-p_X)}{n}}\cdot{\sqrt{\frac{N-n}{N-1}}}.\]
iris
Ejercicio
Dada una muestra de 60 flores de la tabla de datos iris
,
setosa
.Primero generamos la muestra de las 60 flores:
set.seed(1000) flores.elegidas = sample(1:150,60,replace=TRUE) muestra.flores = iris[flores.elegidas,]
iris
A continuación miramos cuántas flores de la muestra son de la especie setosa
:
table(muestra.flores$Species=="setosa")
## ## FALSE TRUE ## 39 21
Tenemos entonces 21 flores de la especie setosa
.
iris
La estimación de la proporción de flores de especie setosa
será:
(prop.setosa = table(muestra.flores$Species=="setosa")[2]/length(muestra.flores$Species))
## TRUE ## 0.35
valor que no está muy lejos del valor poblacional de la proporción \(p_{setosa}\) que es \(p_{setosa}=\frac{50}{150}=0.3333\).
Para estimar la desviación estándar de la proporción muestral de flores de tamaño 60 de la especie setosa
, repetiremos el experimento anterior 10000 veces y hallaremos la desviación estándar de las proporciones obtenidas. Al final, compararemos dicho valor con el valor exacto dado por la propiedad correspondiente.
iris
Para generar las proporciones de las 10000 muestras usaremos la función replicate
de R
:
set.seed(1002) props.muestrales = replicate(10000,table(sample(iris$Species,60, replace=TRUE)=="setosa")[2]/60)
La desviación típica de las proporciones muestrales anteriores vale:
sd(props.muestrales)
## [1] 0.06021098
valor muy próximo al valor real que vale: \(\displaystyle \sigma_{\widehat{p}_X}=\sqrt{\frac{p_X(1-p_X)}{n}}= \sqrt{\frac{\frac{50}{150}\cdot \left(1-\frac{50}{150}\right)}{60}}=0.0609\).
iris
En el gráfico siguiente podemos observar el histograma de las proporciones muestrales de las 10000 muestras junto con la distribución normal correspondiente:
La varianza muestral es \[ \widetilde{S}_{X}^2=\frac{\sum\limits_{i=1}^n (X_{i}-\overline{X})^2}{n-1} \] La desviación típica muestral es \[ \widetilde{S}_{X}=+\sqrt{\widetilde{S}_{X}^2} \]
Además, escribiremos \[ S^2_{X}=\frac{\sum\limits_{i=1}^n (X_{i}-\overline{X})^2}{n}=\frac{(n-1)}{n}\widetilde{S}^2_{X}\quad\mbox{ y }\quad S_X=+\sqrt{S_X^2} \]
\[\displaystyle \widetilde{S}_{X}^2=\frac{n}{n-1}\left(\frac{\sum\limits_{i=1}^n X_{i}^2}{n}-\overline{X}^2\right)\]
La distribución \(\chi_n^2\) (\(\chi\): en catalán, khi; en castellano, ji; en inglés, chi), donde \(n\) es un parámetro llamado grados de libertad:
es la de \[ X=Z_{1}^{2}+Z_{2}^{2}+\cdots +Z_{n}^{2} \] donde \(Z_{1},Z_{2},\ldots, Z_{n}\) son v.a. independientes \(N(0,1)\).
Su función de densidad es: \[ f_{\chi_n^2}(x)={\frac{1}{2^{n/2} \Gamma (n/2)}} x^{(n/2)-1} e^{-x/2},\quad\mbox{ si $x\geq 0$} \] donde \(\Gamma(x)=\int_{0}^{\infty} t^{x-1}e^{-t}\, dt\), si \(x> 0\).
Si \(X_{\chi_n^2}\) es una v.a. con distribución \(\chi_n^2\), \[E\left(X_{\chi_n^2}\right)=n,\quad Var\left(X_{\chi_n^2}\right)=2 n\]
\({\chi_n^2}\) se aproxima a una distribución normal \(N\left(n,\sqrt{2n}\right)\) para \(n\) grande (\(n>40\) o \(50\)).
Ejercicio
Supongamos que el aumento diario del la ocupación de una granja de discos duros medido en Gigas sigue una distribución normal con desviación típica \(1.7\). Se toma una muestras de 12 discos. Supongamos que esta muestra es pequeña respecto del total de la población de la granja de discos.
¿Cual es la probabilidad de que la desviación típica muestral sea \(\leq 2.5\)?
Sea \(X\)= aumento diario en Gigas de un disco duro elegido al azar.
Sabemos que \(\sigma_{X}^2=(1.7)^2=2.89.\)
Como que \(X\) es normal y \(n=12\), tenemos que \[ \frac{11\cdot \widetilde{S}_{X}^2}{2.89}=\frac{(n-1)\widetilde{S}_{X}^2}{\sigma_{X}^2}\sim \chi^2_{11} \]
Nos piden: \(\displaystyle P(\widetilde{S}_{X}<2.5)= P\left(\widetilde{S}_{X}^2<2.5^2\right)\): \[ P\left(\widetilde{S}_{X}^2<2.5^2\right) = P\left(\frac{11\cdot \widetilde{S}_{X}^2}{2.89}<\frac{11 \cdot 2.5^2}{2.89}\right) = P(\chi_{11}^2<2.89) =0.0079. \]
¿Cuándo un estimador es bueno?
El sesgo de \(\widehat{\theta}\) es la diferencia \[E(\widehat{\theta})-\theta\]
\(\overline{X}\) es estimador no sesgado de \(\mu_X\): \(E(\overline{X})=\mu_X\).
\(\widehat{p}_X\) es estimador no sesgado de \(p_X\): \(E(\widehat{p}_X)=p_X\).
Si \(X\) es normal: \(\widetilde{S}_{X}^2\) es estimador no sesgado de \(\sigma_X^2\): \(E(\widetilde{S}_{X}^2)=\sigma_X^2\)
Si \(X\) es normal: \(E({S}_{X}^2)=\dfrac{n-1}{n}\sigma_X^2\). Por lo tanto \({S}_{X}^2\), es sesgado, con sesgo \[ E({S}_{X}^2)-\sigma_X^2=\dfrac{n-1}{n}\sigma_X^2-\sigma_X^2=-\dfrac{\sigma_X^2}{n}\mbox{ que tiende a }0. \]
¿Cuando un estimador es bueno?
Cuando es no segado y tiene poca variabilidad (así es más probable que aplicado a una m.a.s. dé un valor más cercano al valor esperado)
\[\sigma_{\widehat{\theta}_1}< \sigma_{\widehat{\theta}_2},\] es decir, cuando \[Var(\widehat{\theta}_1)< Var(\widehat{\theta}_2).\]
Sea \(X\) una v.a. con media \(\mu_X\) y desviación típica \(\sigma_X\)
Consideremos la mediana \(Me=Q_{0.5}\) de la realización de una m.a.s. de \(X\) como estimador puntual de \(\mu_X\)
Si \(X\) es normal, \[ \begin{array}{l} E(Me)=\mu_X,\\ \displaystyle Var(Me)\approx \frac{\pi}{2} \frac{\sigma_{X}^2}{n}\approx \frac{1.57 \sigma_{X}^2}{n}=1.57\cdot Var(\overline{X}) > Var(\overline{X}). \end{array} \] Por lo tanto, \(Me\) es un estimador no sesgado de \(\mu_X\), pero menos eficiente que \(\overline{X}\).
Si la población es normal, la media muestral \(\bar X\) es el estimador no sesgado más eficiente de la media poblacional \(\mu_X\).
Si la población es Bernoulli, la proporción muestral \(\hat p_X\) es el estimador no sesgado más eficiente de la proporción poblacional \(p_X\).
Si la población es normal, la varianza muestral \(\tilde S^2_X\) es el estimador no sesgado más eficiente de la varianza poblacional \(\sigma_x^2\).
Como hemos visto, si la población es normal, la varianza muestral es el estimador no sesgado más eficiente de la varianza poblacional
El estimador varianza \[
S_X^2=\frac{(n-1)}{n} \widetilde{S}_X^2
\]
aunque sea más eficiente, tiene sesgo que tiende a \(0\).
Si \(n\) es pequeño (\(\leq 30\) o 40), es mejor utilizar la varianza muestral \(\widetilde{S}_X^2\) para estimar la varianza, ya que el sesgo influye, pero si \(n\) es grande, el sesgo ya no es tan importante y se puede utilizar \(S_X^2\).
Tenemos una población numerada \(1,2,\ldots,N\)
Tomamos una m.a.s. \(x_1,\ldots,x_n\); sea \(m=\max\{x_1,\ldots,x_n\}\).
Ejemplo
Sentados en una terraza de un bar del Paseo Marítimo de Palma hemos anotado el número de licencia de los 40 primeros taxis que hemos visto pasar:
taxis=c(1217,600,883,1026,150,715,297,137,508,134,38,961,538,1154, 314,1121,823,158,940,99,977,286,1006,1207,264,1183,1120, 498,606,566,1239,860,114,701,381,836,561,494,858,187)
Supondremos que estas observaciones son una m.a.s. de los taxis de Palma. Vamos a estimar el número total de taxis.
Entonces, estimamos que el número de taxis de Palma es
(N=max(taxis)+(max(taxis)-length(taxis))/length(taxis))
## [1] 1268.975
En realidad, hay 1246.
¿Cómo encontramos buenos estimadores?
Antes de explicar la metodología, necesitamos una definición previa:
Sea \(X_{1},\ldots X_{n}\) una m.a.s. de \(X\), y sea \(x_1,x_2,\ldots,x_n\) una realización de esta muestra.
La función de verosimilitud de la muestra es la probabilidad condicionada siguiente: \[ \begin{array}{ll} {L(\theta|x_1,x_2,\ldots,x_n)} & := P(x_1,x_2,\ldots,x_n|\theta)=P(X_1=x_1)\cdots P(X_n=x_n) \\ & = f_X(x_1;\theta)\cdots f_X(x_n;\theta). \end{array} \]
Dada la función de verosimilitud \(L(\theta|x_1,\ldots,x_n)\) de la muestra, indicaremos por \(\hat{\theta}(x_1,\ldots,x_n)\) el valor del parámetro \(\theta\) en el que se alcanza el máximo de \(L(\theta|x_1,\ldots,x_n)\). Será una función de \(x_1,\ldots,x_n\).
Supongamos que tenemos una v.a. Bernoulli \(X\) de probabilidad de éxito \(p\) desconocida.
Para cada m.a.s. \(x_1,\ldots,x_n\) de \(X\), sean \(\widehat{p}_x\) su proporción muestral y \(P(x_1,\ldots,x_n\mid p)\) la probabilidad de obtenerla cuando el verdadero valor del parámetro es \(p\).
Dicho en otras palabras, la proporción muestral es un estimador MV de \(p\).
Ejercicio
Demostrar el teorema anterior.
En general, al ser \(\ln\) una función creciente, en lugar de maximizar \(L(\theta|x_1,\ldots,x_n)\), maximizamos \[ \ln(L(\theta|x_1,\ldots,x_n)) \] que suele ser más simple (ya que transforma los productos en sumas, y es más fácil derivar estas últimas).
Sea \(X_{1},\ldots X_{n}\) una m.a.s. de una v.a. Bernoulli \(X\) de parámetro \(p\) (desconocido). Denotemos \(q=1-p\) \[ \begin{array}{c} f_X(1;p)=P(X=1)=p,\quad f_X(0;p)=P(X=0)=q \end{array} \] es a decir, para \(x\in\{0,1\}\), resulta que \(f_X(x;p)=P(X=x)=p^{x} q^{1-x}.\)
La función de verosimilitud es: \[ \begin{array}{l} L(p|x_1,\ldots,x_n) = f_{X}(x_1;p)\cdots f_{X}(x_n;p) = p^{x_{1}}q^{1-x_{1}} \cdots p^{x_{n}}q^{1-x_{n}} \\ = p^{\sum_{i=1}^n x_{i}} q^{\sum_{i=1}^n (1-x_{i})}= p^{\sum_{i=1}^n x_{i}} q^{n-\sum_{i=1}^n x_{i}} =p^{\sum_{i=1}^n x_{i}} (1-p)^{n-\sum_{i=1}^n x_{i}} \end{array} \]
La función de verosimilitud es \[ L(p|x_1,\ldots,x_n) =p^{\sum_{i=1}^n x_{i}} (1-p)^{n-\sum_{i=1}^n x_{i}}=p^{n\overline{x}}(1-p)^{n-n\overline{x}}, \] donde \(\overline{x}=\dfrac{\sum_{i=1}^n x_{i}}{n}\).
Queremos encontrar el valor de \(p\) en el que se alcanza el máximo de esta función (donde \(\overline{x}\) es un parámetro y la variable es \(p\))
Maximizaremos su logaritmo: \[ \ln(L(p|x_1,\ldots,x_n))=n\overline{x}\ln(p)+n(1-\overline{x})\ln(1-p). \]
Derivamos respecto de \(p\): \[ \begin{array}{l} \ln(L(p|x_1,\ldots,x_n))' =n\overline{x}\frac{1}{p}-n(1-\overline{x})\frac{1}{1-p}\\ \qquad =\frac{1}{p(1-p)}\Big((1-p)n\overline{x}-pn(1-\overline{x})\Big) =\frac{1}{p(1-p)}(n\overline{x} -pn) \\ \qquad=\frac{n}{p(1-p)}(\overline{x} -p) \end{array} \] Estudiamos el signo: \[ \ln(L(p|x_1,\ldots,x_n))'\geq 0 \Leftrightarrow \overline{x} -p\geq 0 \Leftrightarrow p\leq\overline{x} \]
Por lo tanto \[ \ln(L(p|x_1,\ldots,x_n))\left\{ \begin{array}{l} \mbox{ creciente hasta $\overline{x}$}\\ \mbox{ decreciente a partir de $\overline{x}$}\\ \mbox{ tiene un máximo en $\overline{x}$} \end{array}\right. \]
El resultado queda demostrado. \(L(\widehat{p}_X|x_1,\ldots,x_n)\geq L(p|x_1,\ldots,x_n)\) para cualquier \(p\).
\(\widehat{p}_x\) es el estimador MV del parámetro \(p\) de una v.a. Bernoulli.
\(\overline{X}\) es el estimador MV del parámetro \(\theta\) de una v.a. Poisson.
\(\overline{X}\) es el estimador MV del parámetro \(\mu\) de una v.a. normal.
\(S_X^2\) (no \(\widetilde{S}_X^2\)) es el estimador MV del parámetro \(\sigma^2\) de una v.a. normal.
El máximo (no \(\widehat{N}\)) es el estimador MV de la \(N\) en el problema de los taxis.
En una población hay \(N\) individuos, capturamos \(K\), los marcamos y los volvemos a soltar.
Ahora volvemos a capturar \(n\), de los que \(k\) están marcados. A partir de estos datos, queremos estimar \(N\).
Supongamos que \(N\) y \(K\) no han cambiado de la primera a la segunda captura.
La variable aleatoria \(X=\) Un individuo esté marcado es \(Be(p)\) con \(p=\dfrac{K}{N}\).
Si \(X_1,\ldots,X_n\) es la muestra capturada la segunda vez, entonces \(\widehat{p}_X=\frac{k}{n}\).
\(\widehat{p}_X\) es un estimador máximo verosímil \(p\). Por tanto, estimamos que: \[ \dfrac{K}{N}=\dfrac{k}{n}\Rightarrow N=\frac{n\cdot K}{k} \]
Por lo tanto, el estimador \[ \widehat{N}=\frac{n\cdot K}{k} \] maximiza la probabilidad de la observación \(k\) marcados de \(n\) capturados, por lo que \(\hat{N}\) es el estimador máximo verosímil de \(N\).
Ejercicio
Supongamos que hemos marcado 15 peces del lago, y que en una captura, de 10 peces, hay 4 marcados. ¿Cuántos peces estimamos que contiene el lago?
El número de peces estimados del lago será: \[ \widehat{N}=\frac{15\cdot 10}{4}=37.5 \] Estimamos que habrá entre 37 y 38 peces en el lago.
El estimador \[ \widehat{N}=\frac{n\cdot K}{k} \] es sesgado, con sesgo que tiende a \(0\).
El estimador de Chapman \[ \widehat{N}=\frac{(n+1)\cdot (K+1)}{k+1}-1, \] es menos segado para muestras pequeñas, y no sesgado si \(K+n\geq N\) (pero no máximo verosímil).
R
fitdistr
Para obtener estimaciones puntuales con R
hay que usar la función fitdistr
del paquete MASS:
fitdistr(x, densfun=..., start=...)
donde
x
es la muestra, un vector numérico.
El valor de densfun
ha de ser el nombre de la familia de distribuciones:"chi-squared"
, "exponential"
, "f"
, "geometric"
, "lognormal"
, "normal"
y "poisson"
.
fitdistr
fitdistr
no dispone de una fórmula cerrada para el estimador máximo verosímil de algún parámetro, usa un algoritmo numérico para aproximarlo que requiere de un valor inicial para arrancar. Este valor (o valores) se puede especificar igualando el parámetro start
a una list
con cada parámetro a estimar igualado a un valor inicial.fitdistr
. Estimación del parámetro \(\lambda\) de una variable de PoissonEjemplo
Consideramos la muestra siguiente de tamaño 50 de una variable de Poisson de parámetro \(\lambda =5\):
set.seed(98) muestra.poisson = rpois(50,lambda=5) muestra.poisson
## [1] 5 4 4 5 3 4 1 4 6 3 7 7 3 5 4 8 4 4 6 3 6 4 6 11 4 ## [26] 7 5 2 8 3 5 4 1 5 6 4 7 7 3 4 6 10 5 4 2 9 1 5 2 2
Vamos a estimar el valor del parámetro \(\lambda\) a partir de la muestra anterior.
fitdistr
Para estimar \(\lambda\) usamos la función fitdistr
:
library(MASS) fitdistr(muestra.poisson, densfun = "poisson")
## lambda ## 4.760000 ## (0.308545)
La función fitdistr
nos ha dado el siguiente valor de \(\lambda\): 4.76, valor que se aproxima al valor real de \(\lambda =5\), con un error típico de 0.308545.
fitdistr
Recordemos que el estimador máximo verosímil de \(\lambda\) es \(\overline{X}\) con error típico \(\frac{\sqrt{\lambda}}{\sqrt{n}}\). Veamos si la función fitdistr
nos ha mentido:
(estimación.lambda = mean(muestra.poisson))
## [1] 4.76
(estimación.error.típico= sqrt(estimación.lambda/50))
## [1] 0.308545
Comprobamos que los valores anteriores coinciden con los dados por la función.
fitdistr
¿Qué estimaciones hubiésemos obtenido de la media \(\mu\) y la desviación típica \(\sigma\) si suponemos que la muestra anterior es normal?
fitdistr(muestra.poisson,densfun = "normal")
## mean sd ## 4.7600000 2.1868699 ## (0.3092701) (0.2186870)
Dichos valores coinciden con la media muestral \(\overline{X}\) y la desviación típica “verdadera” de la muestra considerada:
sd(muestra.poisson)*sqrt(49/50)
## [1] 2.18687
fitdistr
del paquete MASS, sirve para calcular los estimadores máximo verosímiles de los parámetros de una distribución a partir de una muestra. Parámetros principales:
densfun
: el nombre de la familia de distribuciones, entre comillas.start
: permite fijar el valor inicial del algoritmo numérico para calcular el estimador, si la función lo requiere.Python
Primero haremos la carga de paquetes
from scipy.stats import norm from numpy import linspace import matplotlib.pyplot as plt
Elegimos una m.a.s. de tamaño 150 de una variable aleatoria \(N(0, 1)\).
sample = norm.rvs(loc = 0, scale = 1, size = 150) print(sample[1:10])
## [-1.50069882 -0.21542541 1.48429828 -0.88864845 1.21538522 2.50999482 ## 0.00791403 -1.44868419 -0.08185923]
Python
Para estimar los parámetros, usamos la distribución adecuada (en nuestro caso una normal) e invocamos el método fit
params = norm.fit(sample) print("Media = {mu}".format(mu=params[0]))
## Media = -0.0912591659953
print("Desviacion tipica = {sd}".format(sd=params[1]))
## Desviacion tipica = 0.97351835011
Python
Vamos a comparar la distribución con los parámetros estimados vs nuestra muestra.
x = linspace(-5,5,100) pdf_fitted = norm.pdf(x, loc=params[0], scale=params[1]) pdf_original = norm.pdf(x, loc=0, scale=1)
Python
## //usr/lib/python2.7/dist-packages/matplotlib/axes/_axes.py:6571: UserWarning: The 'normed' kwarg is deprecated, and has been replaced by the 'density' kwarg. ## warnings.warn("The 'normed' kwarg is deprecated, and has been "
\[f(x) = \frac{(x-\mu)e^{-\frac{(x-\mu)^2}{2\sigma^2}}}{\sigma^2}\]
Importar las librerías para crear la m.a.s., generar la muestra y obtener los parámetros
from scipy.stats import rayleigh sample = rayleigh.rvs(loc=5, scale=2, size=150) params = rayleigh.fit(sample) print("Media = {mu}".format(mu=params[0]))
## Media = 5.15323804247
print("Desviacion tipica = {sd}".format(sd=params[1]))
## Desviacion tipica = 1.85835480841
Generamos la distribución con los parámetros estimados
x = linspace(5, 15, 100) pdf_fitted = rayleigh.pdf(x, loc=params[0], scale=params[1]) pdf_original = rayleigh.pdf(x, loc=5, scale=2)