15 de diciembre de 2010

Series de tiempo y Pronósticos

En estadística, una serie de tiempo es una secuencia de puntos de datos, los cuales son tomados en frecuencias similares y uniformes de tiempo.


El análisis de estas series de tiempo nos puede ayudar a identificar tendencias y determinar pronósticos de comportamientos futuros.


En esta entrada analizaremos los datos de las búsquedas realizadas en el Catalogo Electrónico de la Universidad Autónoma de Nuevo León (www.codice.uanl.mx) por medio del método de las medias móviles.


El método de las medias móviles en estadística es un método utilizado para analizar un conjunto de datos en modo de puntos para crear series de promedios. Así las medias móviles son una lista de números en la cual cada uno es el promedio de un subconjunto de los datos originales.


Una serie de medias móviles puede ser calculada para cualquier serie temporal. Se usa para demanda estable, sin tendencia ni estacionalidad; suaviza las fluctuaciones de plazos cortos, resaltando así las tendencias o ciclos de plazos largos.


Para iniciar el análisis se extrajeron los datos desde abril de 2008 hasta diciembre de 2010, por semana la cantidad de búsquedas realizadas en el Catalogo Electrónico.

Generándose lo siguiente (ejemplo de los primeros datos):


Lo siguiente en realizar es calcular la primera media (pM) y la media doble (Md), donde se toman una cantidad de datos previos al valor que se desea calcular (k), para esto se realizaron 4 pruebas, tomando un k = 10, 5, 3 y 2, para posteriormente decidir con cuál de estos nos quedaremos, el cual sea el que tenga menor error.


Las fórmulas para calcular las medias son:

pMt = (yt-1 + yt - 2 + yt – k) / k
Mdt = (pMt-1 + pMt - 2 + pMt – k) / k

donde,

"y" es el valor de la cantidad de búsquedas de la semana t


 

Posteriormente calculamos la predicción con la siguiente formula:

^yt = (2pMt - Mdt) + ((2/k-1) (pMt - Mdt))


 

Una vez teniendo la predicción, se obtiene el error cuadrático de la media (ECM) y la raíz cuadrada de este error (RcECM), para identificar cual "k", se utilizará. Las fórmulas a utilizar para encontrar el error serán:



  

RESULTADOS:


 

Para k = 10



 
ECM = 170694440.26

RcECM = 13065.01


 

Para k = 5



 
ECM = 168058010.15

RcECM = 12963.72


 

Para k = 3



 
ECM = 132048707.92

RcECM = 11491.24


 

Para k = 2





 
ECM = 155248689.84

RcECM = 12459.88




 

CONCLUSIONES


Según los errores y las gráficas de predicción, el que más se ajusta es el k = 3, con el cual se predice para la semana 50 de este año una cantidad de búsquedas de 10,136.17

1 comentario:

  1. Reitero que la idea es usar una parte de los datos conocidos para crear un pronóstico y luego usar a los restantes para comparar el pronóstico y el dato real. Eso te ayuda saber qué tipo de método pronostica bien a los datos que estás manejando. Te pongo 6 puntos.

    ResponderBorrar