Intervalos de Prediccion

ticas
Facultad de Ciencias Fsicas y Matema

ctrica
Departamento de Ingeniera Ele
EL7012 Control Inteligente de Sistemas
Ejercicio 2
Intervalos de Prediccion
Pablo Fuentes - Mario Vergara
14 de Noviembre de 2015
ticas
ctrica
1.
Introducci
on
Para la operacion optima de las micro-redes es importante contar con modelos de prediccion confiables de variables tales como: potencia solar, potencia eolica, consumo y estado
de carga de las bateras. Los modelos de prediccion son importantes debido a la incertidumbre asociada a la generacion con energa renovable y la variabilidad del consumo local. El
intervalo de prediccion se compone de los lmites superior e inferior donde se espera que una
futura observacion se encuentre, con un determinado nivel de confianza.
De esta manera los tipos de modelos a utilizar y las metodologas que subyacen para
calcular sus intervalos de prediccion son de vital importancia, que dependiendo del tipo
de problema, algunos enfoques seran mas adecuados que otros. En este caso, los modelos
de interes son los lineales, difusos y neuronales. Los modelos lineales act
uan como primera
aproximacion al problema, ya que son faciles de generar al igual que su intervalo de confianza,
aportando claridad en su estructura y la determinacion de los regresores mas relevantes del
problema. En segundo lugar se encuentran los modelo difusos, en especfico los T&S, los cuales
mediante un set de reglas y consecuencias lineales puede caracterizar procesos altamente no
lineales, siendo muy utilizados tambien en prediccion. Por u
ltimo los modelos neuronales
ocupados en prediccion si bien son cajas negras en cuanto a su estructura, son altamente
utilizados en este ambito debido a su capacidad de generalizar procesos altamente no lineales.
En esta ocasion se construyen estos tipos de modelos aplicados en la caracterizacion futura
del consumo de energa, en donde ventajas y desventajas son analizadas para cada modelo.
ticas
ctrica
2.
Marco Te
orico
2.1.
Definici
on de sistemas lineales
Se considera que todo sistema lineal se puede escribir de la siguiente forma:

y=
Nr
X
i xi
(1)
i=1
donde i es el parametro i-esimo que pondera la entrada xi del sistema, y Nr es la cantidad

de entradas consideradas. Las entradas en terminos generales pueden ser autoregresivas,
exogenas, e incluso funciones no lineales de las dos anteriores, sin embargo lo que se debe
mantener es la linealidad con respecto a los parametros. Para el caso de prediccion de series
de tiempo, se considera que el vector x = [x1 , x2 , . . . , xr ] son regresores de la salida y = y(t),
es decir x(t) = [y(t 1), y(t 2), . . . , y(t r)]. Dado que la estimacion del parametro esta
sujeto a la incertidumbre de la base de datos que se tenga, existe un ruido intrnseco a la
estimacion. Dentro de esta categora existen diferentes modelos, siendo los mas conocidos los
tipo AR, ARMA, entre otros, que contienen la siguiente estructura:
A(z 1 )y(t) = C(z 1 )e(t)
(2)
donde z 1 es el operador de retardo, A(z 1 ) = 1+a1 z 1 +a2 z 2 + +aNa z Na , C(z 1 ) =

c0 + c1 z 1 + c2 z 2 + + cNc z Nc y e(t) es un proceso estocastico de ruido blanco con media
cero y una varianza e2 determinada. Para el caso en que C = 1, el modelo es AR, teniendo
solo ruido blanco, pero en caso que C = C(z 1 ) el proceso w(t) = C(z 1 )e(t) se transforma en
ruido coloreado configurando un sistema ARMA. Cabe mencionar que existen modelos mas
generales los cuales pueden ser abordados desde la metodologa de Box Jenkins [1], donde
mediante un set de pasos se puede construir un modelo lineal en base a las correlaciones de la
base de datos. A continuacion se mencionan los pasos de la metodologa que seran aplicados:
Establecer si la serie de tiempo es estacionaria o no. Si la serie no es estacionaria,
diferenciarla sucesivamente hasta que lo sea. Para ello hay que observar los coeficientes
de autocorrelacion (ACF) y los coeficientes de autocorrelacion parcial (PACF) que
decaigan exponencialmente ( o que corten completamente despues de algunos retardos).
Identificar un promedio condicional del modelo sujeto a los datos. En este caso los
coeficientes del ACF y PACF pueden ayudar. Para un proceso autoregresivo (AR), el
ACF decae gradualmente, mientras que PACF lo hace abruptamente luego de algunos
retardos. Por otro lado para un proceso con media movil (MA), ACF desaparece despues
de algunos retardos mientras que PACF lo hace gradualmente. Si los dos tipos de
coeficientes decaen similarmente entonces se trata de un modelo ARMA.
2
ticas
ctrica
Se especifica el modelo y se estiman sus parametros. Cuando se identifican modelos

no estacionarios mediante un toolbox, no es necesario diferenciar a mano la serie de
tiempo, basta con crear un modelo ARIMA para propositos de prediccion.
Para comprobar que el modelo es adecuado, para ello es necesario que los residuos
constituyan un proceso aleatorio de ruido blanco con media cero y varianza constante.
Finalmente un modelo ARIMA tiene la siguiente forma:
p
X
!
ai z
1z

1 d
Yt =
1+
q
X
!
ci z
et
(3)
i=1
i=1
donde z 1 es el operador retardo unitario, Yt es la se

nal de salida en el instante t, et es
el error en el instante t que constituye un proceso aleatorio de ruido blanco con media cero
y varianza constante; d es el grado de diferenciacion de la se
nal de salida, p es la cantidad
de autoregresores considerados, y finalmente q configura el polinomio que multiplica el ruido
blanco.
2.1.1.
Estimaci
on param
etrica para modelos lineales
d
Si se tiene una serie de tiempo {d}N
i=1 , un sistema lineal y =
costo cuadratico:
PNr
i=1 i xi
y un funcional de
d
1X
J=
(
y (t) di )2
2 i=1
en donde y =
PNr
i=1 i xi ,
(4)
la estimacion optima de parametros esta dada por:

= XX T
1
XT Y
(5)
donde:
x1 (1) . . . xNr (1)
..
..
...
X=
.
.
x1 (Nd ) . . . xNr (nd )

Y = y(1) . . . y(Nd )
(6)
(7)
ticas
ctrica
2.1.2.
Determinaci
on de intervalos de confianza para sistemas lineales
La construccion y entrenamiento de un sistema lineal puede considerarse como la aproximacion de la media del proceso. Cuando se realiza prediccion, no solamente es importante
estimar la media futura, sino tambien estimar los intervalos de confianza de prediccion del
proceso para tener una idea de lo confiable que resulta la estimacion futura. Sea una base
de datos de la forma {[x(1) , y (1) , [x(2) , y (2) ], . . . , [x(N ) , y (N ) ]} con la cual se entrena el modelo
lineal dado por
y (x, ), entonces el intervalo de confianza de prediccion para un instante x0
esta dado por [2]:
s
y (x, ) t0.025[N 2]
1
(x0 x)2
+ PN
+1
nx
2
N
(x
)
n=1
!
(8)
donde s es la desviacion estandar de y (1) , . . . , y (N ) , x es la media de x(1) , . . . , x(N ) y t0.025[N 2]

es el valor del dominio para una distribucion t-student con N-2 grados de libertad donde el
area bajo la curva sea 0.025.
2.2.
Definici
on de intervalos de confianza difusos
El modelo de intervalos difusos es una metodologa para aproximacion de sistemas no

lineales con un set finito de mediciones de entrada y salidas. Se construye una banda de
confianza la cual contiene gran parte de los datos medidos del sistema. Para el uso de esta
banda de confianza se utiliza el estadstico de varianza del modelo respecto a los datos medidos
del sistema, considerando un porcentaje de contencion de datos, dado por una distribucion
t student.
2.2.1.
Modelos no-lineales difusos Takagi-Sugeno
Takagi-Sugeno es una estrategia de identificacion difusa mas utilizada para establecer el

comportamiento de un sistema lineal o no lineal. Fue propuesto por Takagi y Sugeno en 1988.
Su modelo consiste en un set de reglas y funciones de pertenencias que identifican un modelo
de manera local y que luego permiten, al mezclar la salida de cada una de las reglas con un
peso asociado a una funcion de pertenencia, calcular la salida global del sistema. Su formato
tpico para un modelo no lineal es:
Si y(k1) esta en Ar1 y ... y ... y(kna1) esta en Arna1 entonces yr (k) = g0r +g1r y(k
1) + g2r y(k 2) + + gn ar y(k na)
ticas
ctrica
Donde Ari es el set de regiones difusas para la variable i de la regla r, gir es el parametro
de consecuencia para la regla r e yr es la salida para la regla r. La salida global del sistema
queda dada por la siguiente expresion:
PNr
y(k) = Pr=1
Nr
wr yr
r=1 wr
(9)
Donde Nr es la cantidad de reglas y wr es el grado de activacion de la regla r dado en

este trabajo por wr = r1 ri rna , donde ri es la funcion de pertenencia para la region
Ari . Para simplificar la anotacion se utiliza la particion unitaria de dada por:
r (x1 ) ri (xi ) rna (xna )
r (X) = PNr1 r
r
r
r=1 1 (x1 ) i (xi ) na (xna )
(10)
Donde x es el conjunto de variables de interes del modelo. Usando esta definicion en la

Ecuacion (9), es posible simplificar su expresion a la siguiente ecuacion:
y=
Nr
X
i rr
(11)
r=1
donde:
i r = r (Xi ) [1 xi1 xi2 . . . xin ] ; r = [0r 1r 2r . . . nr ]
(12)
En este caso la salida esta definida a partir de una combinacion lineal de las consecuencias r
de cada regla r y el set de variables con n + 1 elementos en su base tal y como se muestra en
la Ecuacion (12). El modelo Takagi-Sugeno entregado en la Ecuacion (11) puede ser usado
para aproximar cualquier funcion que vaya de un conjunto cerrado de reales de dimension d
arbitraria a un espacio real unidimensional con un alto grado de precision.
El proceso de identificacion de sistemas es una tarea bastante iterativa y necesita de por
lo menos de los siguientes tres puntos:
Identificar las variables base que se van a utilizar para identificar el comportamiento
de la planta, estas pueden ser tanto retrasos de la entrada como de la salida o alguna
combinacion de estas.
Identificacion de las zonas donde se presenta un comportamiento particular del sistema
y modelar dicha zona de manera difusa, caracterizandolas con una funcion de pertenencia definida. Con estas zonas es posible dise
nar un set de reglas que permiten discernir
la salida local del modelo.
Calcular para cada regla, los parametros que caracterizaran el modelo local. Regularmente este proceso se denomina como identificacion de las consecuencias.
5
ticas
ctrica
2.2.2.
Identificaci
on de los intervalos de confianza del modelo Takagi-Sugeno
Se asume un set de mediciones dadas por la entradas X = [x(t)1 x(t)2 . . . x(t)N ] y salidas
Y = [y(t) y(t + 1) . . . y(t + N )]. Se dira que el sistema satisface la ecuacion no lineal dada
por:
y(t + i) = g(xi ) i = 1, . . . , N
(13)
Acorde al teorema de Stone-Weierstrass, para cualquier funcion continua g, existe una
sistema difuso f y un > 0 que cumple con la Ecuacion (14). Esta da a conocer la aproximacion del sistema difuso a cualquier funcion continua, siempre y cuando se considere un
valor de acorde al problema. En este caso este valor de entregara la banda de confianza
del proceso de estimacion del sistema.
maxxi X |g(xi ) f (xi )| < i
(14)
Tomando en consideracion la Ecuacion (11) y definiendo el error ei que se genera entre el

modelo y la se
nal de salida real del sistema de la forma:
ei = yi
Nr
X
r (xi )r
(15)
r=1
donde ei es un ruido blanco, de varianza igual a 2 (xi ) dependiente de la entrada del

modelo. En este caso se trata de caracterizar dicha varianza, considerando algunos elementos
preliminares. Se define la matriz que recolecta todos los r de cada regla r para el set de
mediciones X = [x(t)1 x(t)2 . . . x(t)N ] como:
r = [1r 2r . . . N r ]T
(16)
El analisis de la varianza del modelo Takagi-Sugeno se realizara usando los modelos locales
que lo definen. Es por ello que en cada regla existira un valor de r2 que dependera del set de
datos de entrada. En este punto se necesita conocer ei , el cual muestra el comportamiento
del error generado del modelo con la salida real del sistema en cada instante i de medicion y
el error medio generado por las salidas locales del modelo er . Seg
un [4], un buen estimador
de cada varianza local esta dada por:
PN 2
(ei er )2
2
; r = 1, . . . , Nr
(17)
r = i=1PirN 2
ir
i=1
donde e queda definido por:
PN
er = Pi=1
N
ir ei
i=1 ir
; r = 1, . . . , Nr
(18)
ticas
ctrica
La idea del intervalo de confianza de un modelo difuso es encontrar un funcion difusa

inferior f y una funcion difusa superior f tal que cumpla con:
f (xi ) g(xi ) f (xi ) ; xi
(19)
Para construir dichas funciones, se realiza un ajuste en las salidas locales dadas por cada
una de las reglas que definen al modelo Takagi-Sugeno con tal de reproducir los intervalos
superior e inferior deseados en la Ecuacion (19). Seg
un [4], los intervalos inferior y superior
para cada uno de las salidas locales dado una entrada Xi esta dada por:

1+
f (Xi )r = ir r t,M n
T
ir
1
r Tr
ir
1/2

1 1/2
T
f (Xi )r = ir r + t,M n
1 + ir
r Tr
ir
(20)
(21)
donde t,M n es el percentil de una distribucion t student para 100(1 2) porcentaje

de confianza con M n grados de libertad. La salida final del modelo estara acotada por los
intervalos de confianza:
Nr
X
(22)
f (Xi )r
ylower =
r=1
yupper =
Nr
X
f (Xi )r
(23)
r=1
2.3.
Definici
on de redes neuronales
Las redes neuronales son un conjunto de funciones no lineales que poseen una arquitectura
inspirada en las interconexiones de las redes neuronales a nivel biologico. Una neurona , es
la unidad fundamental que puede ser descrita de la siguiente manera:
y=f
N
X
!
W i Xi + b
(24)
i=1
donde, xi es la entrada i-esima de la neurona , Wi es el ponderador i-esimo, b es el sesgo

o bias, f es una funcion no lineal pudiendo abarcar una gran variedad dependiendo de la
aplicacion e y es la salida.
En la Figura 1 se aprecia la arquitectura basica de una red neuronal, la cual se compone
de diferentes capas, y cada una de ellas de diferentes neuronas. La capa de entrada es aquella
que recibe las se
nales de entrada, en donde para obtener las se
nales yj las entradas xi se
7
ticas
ctrica
deben ponderar por los diferentes pesos Wij sumar las respectivas contribuciones y aplicar
la funcion no lineal correspondiente. El mismo proceso ocurre en la capa oculta en donde se
reciben las se
nales uj para luego obtener las se
nales zk de la capa de salida. Por lo general
en la capa de salida solo act
ua como un ponderador lineal de las entradas, de esta manera,
una red neuronal con una capa de entrada, oculta y salida puede ser descrita como:
zk =
N2
X
Vjk fj
j=1
N1
X
!
Wij xi + bj
(25)
i=1
Figura 1: Arquitectura de una red neuronal tpica.
2.3.1.
Entrenamiento de redes neuronales para predicci

on
Si se designa una red neuronal como una funcion no lineal y = g(x, ) donde x es el
vector de entrada y el vector de todos los parametros y la base de datos de entrenamiento
como el vector d. Cuando el enfoque es entrenar una red neuronal para realizar prediccion,
necesariamente el vector de entrada x se transforma en regresores de la salida y, por lo que
x = [y(t 1), y(t 2), . . . , y(t r)] y se puede encontrar los pesos minimizando un funcional
de costo cuadratico:
N
d
2
1X
J=
g(xl , ) y l
2 l=1
(26)
ticas
ctrica
donde Nd es la cantidad de datos disponibles, xl es el vector de entrada l-esimo evaluado en

los datos e y l es el target l-esimo al cual la red neuronal debe tender. Encontrar el vector
puede hacerse de manera iterativa mediante el algoritmo tpico de Back Propagation:
t+1 = t J
(27)
en donde es el factor de aprendizaje, t es el vector de parametros en la iteracion t y

es el gradiente del funcional J con respecto al vector de parametros. El calculo del gradiente
para Vjk es:
N
d
X
dg(xl , t )
dJ
g(xl , t ) y l
=
dVjk
dVjk
l=1
Nd
X

l
g(xl , t ) y fj
N1
X
(28)
!
Wij xli + bj
(29)
i=1
l=1
consecutivamente para Wij es:

N
d
l
X

dJ
l
l dg(x , t )
=
g(x , t ) y
dWij
dWij
l=1
Nd
X
l=1
Nd
X
l=1
(30)

dfj (uj ) duj
g(xl , t ) y l Vjk
duj dWij
(31)

dfj (uj ) l
x
g(xl , t ) y l Vjk
duj i
(32)
Una vez que se tiene el vector de parametros optimo , luego para realizar prediccion,
de g(x(t), ) solo basta introducir la condicion inicial correspondiente x(t0 ) = x0 y luego
retroalimentar las salidas de una iteracion como las entradas de la siguiente.
2.3.2.
Intervalos de predicci
on para redes neuronales
En la seccion anterior, en terminos estadsticos solo se esta haciendo una prediccion de la

esperanza de la serie de tiempo sin saber exactamente cuan confiable es esta prediccion. En
esta seccion se introducen los conceptos para calcular los intervalos de confianza de prediccion
para redes neuronales. A modo de ejemplo, si y tiene una distribucion gaussiana con media
ticas
ctrica
E(y|x) y una varianza Var(y|x), un intervalo de prediccion con un 95 % de confianza esta

dado por:
p
(33)
E(y|x) z0.025 Var(y|x)
donde z0.025 es el valor del soporte de una distribucion estandar donde el area bajo la curva
es 0.025. Este mismo principio puede ser utilizado para el calculo de intervalos de confianza
para redes neuronales. Para ello, consideraremos que una red neuronal
y = g1 (x, ) que
se entrena bajo el funcional (26) puede aproximar E(y|x), por lo que si se desea aproximar
Var(y|x), se genera otra red neuronal
y2 = g2 (x, ) que aproxime ese estadstico, por lo cual
necesariamente el funcional debe cambiarse. En este caso se introduce el siguiente [2]:
N
d

2 2
1X
y2
J=
y y l
2 l=1
(34)
d

2 2
1X
g2 (xl , 2 ) g1 (xl , 1 ) y l
2 l=1
De esta manera el intervalo de prediccion del 95 % sera:

q
y2
y z0.025
(35)
(36)
El calculo de 2 puede realizarse tambien mediante el algoritmo de gradiente descendente,

considerando por ejemplo que el parametro 1 ya fue efectivamente encontrado con un set de
entrenamiento aparte.
Otra metodologa que tambien puede ser aplicada, consiste en el uso de una red neuronal
que tiene dos salidas; la primera aproxima la media y la segunda la varianza del proceso
mediante el uso de un solo funcional [2]:
N
d
1X
J=
2 l=1
d
1X
=
2 l=1
y y l
y2
!2
2
+ ln
y2
g1 (xl , ) y l
g2 (xl , )
(37)
!2
2
+ ln g2 (xl , )
(38)
con lo cual el intervalo de confianza del 95 % se calcula como:

q
y ) +
y t0.025[v] Var(
2
10
(39)
ticas
ctrica
donde t0.025[v] es el punto del soporte de una distribucion t-student con v grados de libertad
y ) es la varianza emprica de la salida de la red
donde al area bajo la curva es 0.025, Var(
2
que aproxima la media, y
es la varianza estimada del ruido.
2.4.
Medidas de desempe
no para cuantificar calidad de las predicciones
Para poder analizar la calidad de los modelos y poder contrastar las predicciones adecuadamente con la data de validacion respectiva, existen diversas medidas de desempe
no para
ello. Algunas de las medidas como RMSE, MAPE y MAE apuntan a comparar la prediccion
del modelo versus la data de validacion, y existen otras medidas como PICP, NMPIW y
CWC para evaluar la calidad de los intervalos de confianza [3]. A continuacion se enuncia las
medidas que se aplican en el analisis:
2.4.1.
Root Mean Squared Error (RMSE)
Se define como:
v
u n
u1 X
RMSE = t
(yi yi )2
n i=1
(40)
en donde n es la cantidad de datos, yi es la data de validacion e yi es la respectiva prediccion.

2.4.2.
Mean Absolute Percentage Error (MAPE)
Se define como:

n
1 X yi yi
MAPE =
n i=1 yi
(41)

2.4.3.
Mean Absolute Error (MAE)
Se define como:
n
1X
MAE =
|yi yi |
n i=1
(42)

11
ticas
ctrica
2.4.4.
Prediction Interval Coverage Probability (PICP)
Se define como:
n
1X
ci
PICP =
n i=1
(43)
donde ci se define como:

ci =
1, ti [Li , Ui ]
0, ti
/ [Li , Ui ]
(44)
donde Li y Ui son los intervalos de confianza de prediccion superiores e inferiores respectivamente.

2.4.5.
Normalizing Mean Prediction Interval Width (NMPIW)
Se define como:
n
1 X
(Ui Li )
NMPIW =
R n i=1
(45)
Ui y Li son los intervalos de prediccion superiores e inferiores respectivamente, R es el maximo

rango entre los intervalos, y n es la cantidad de datos de validacion ocupados.
2.4.6.
Coverage Width-based Criterion (CWC)
Se define como:
CWC = NMPIW 1 + e(PICP)
(46)
donde :

=
1, PICP
0, PICP <
(47)
Esta medida es un criterio hbrido que recoge los otros dos criterios anteriores ponderados.
En donde los valores de y son seteados como 0.5 y 0.9.
12
ticas
ctrica
3.
3.1.
Desarrollo
Preprocesamiento de datos y construcci
on de Modelos lineales
En primer lugar la base de datos a utilizar corresponde a dos series de tiempo correspondiente al consumo en potencia que se mide cada 15[min]. El primer set de datos es de
entrenamiento y tiene un largo de 14112 datos, mientras que el segundo set de datos tiene
un largo de 4500. En este caso el primer set se ocupa para poder entrenar los diferentes
modelos, y con el segundo se comprueba el desempe
no en terminos de la prediccion. Como
se especifica en el primer paso de la metodologa de Box Jenkins, se calculan las se
nales de
autocorrelacion y autocorrelacion parcial. Como se ve en la Figura 2 como es de esperarse, el
consumo es periodico en el tiempo, mostrando peaks en ACF y PACF de correlaciones cada
96 iteraciones, es decir, el consumo tiene una periodicidad diaria.
Sample Autocorrelation Function
Sample Autocorrelation
0.5
0.5
20
40
60
80
100
Lag
120
140
160
180
200
160
180
200
Sample Partial Autocorrelations
Sample Partial Autocorrelation Function

1
0.5
0.5
20
40
60
80
100
Lag
120
140
Figura 2: ACF y PACF del set de datos de entrenamiento para 209 retardos.
Siguiendo la metodologa, se debe convertir el consumo a una se
nal estacionaria, para
eso se diferencia en repetidas ocasiones encontrandose que con solo una diferenciacion es
suficiente para hacer que los coeficientes de ACF y PACF decaigan exponencialmente como
se aprecia en la Figura 3.
13
ticas
ctrica
0.5
0.5
20
40
60
80
100
Lag
120
140
160
180
200
160
180
200

1
0.5
0.5
20
40
60
80
100
Lag
120
140
Figura 3: ACF y PACF del set de datos de entrenamiento diferenciados una vez para 209
retardos.
En este caso se considera que tanto ACF y PACF decaen similarmente, pero mostrando
relevancia en el componente 96, por lo cual se construye un modelo con 96 autoregresores
y una diferenciacion. Asimismo, se considera realizando diferentes pruebas, se encuentra
que la cantidad de regresores adecuados para el ruido es de 48. De esta manera el modelo
generado es un ARIMA con los siguientes parametros: d = 1 ( por la diferenciacion de la se
nal
original), p = 96 por las correlaciones de los autoregresores y jugando con los valores de q, se
encuentra que q = 48 es adecuado para que et sea lo mas cercano a ruido blanco gaussiano. El
supuesto anterior se valida con la Figura 4, en donde los residuos estan centrados en cero, la
autocorrelacion y la autocorrelacion parcial indican que los residuos estan descorrelacionados
y el grafico de Sample Data versus Standard Normal refleja una curva mayoritariamente
lineal en contraste con la roja punteada.
De esta manera como se aprecia en la Figura 5 se genera una prediccion de la forma
y(i + t|t) con i = 1 : 196 (dos das) y sus respectivos intervalos de confianza del 95 %
comparado con los datos de validacion. En terminos cualitativos, la se
nal de prediccion logra
caracterizar adecuadamente la data de validacion, la cual no escapa del intervalo de confianza.
Este resultado en particular indica que el modelo lineal si bien no logra predecir en gran
14
ticas
ctrica
Standardized Residuals
QQ Plot of Sample Data versus Standard Normal

15
Quantiles of Input Sample
15
10
5
0
5
10
5000
10000
10
5
0
5
10
4
15000

0.5
10
Lag
15
0.5
2
0
2
Standard Normal Quantiles
0.5
0.5
20
10
Lag
15
20
Figura 4: Graficos de analisis que validan el modelo ARIMA escogido.

detalle el consumo en una resolucion menor que 1 hora, s logra caracterizar adecuadamente
los perfiles para resoluciones mayores que 2 horas.
Hasta ahora solo se ha hecho una prediccion del tipo y(i + t|t) con i = 1 : 196 para un t
fijo, sin embargo como en todo sistema donde la informacion va llegando secuencialmente, es
de vital importancia ir calculando las predicciones en cada iteracion. De esta manera surgen
las predicciones del estilo y(i0 + t|t) con i0 fijo para diferentes t. En este caso en particular se
efect
uan pruebas para t = 1 : 96 (duracion de un da) de la data de validacion, para diferentes
pasos de prediccion contemplados por i0 = {1, 4, 96, 192} que corresponden a prediccion a 15
minutos, 1 hora, 1 da y 2 das respectivamente. Los resultados se aprecian en la Figura 6,
donde en terminos cualitativos se aprecia como es de esperarse un buen desempe
no en las
15
ticas
ctrica
18
Prediccin
Data validacin
Intervalos de confianza de 95%
16
Potencia consumida [W]
14
12
10
20
40
60
80
100
120
Tiempo [15[m]]
140
160
180
200
Figura 5: Modelo Lineal: Comparacion entre prediccion Y (i + t|t) para i = 1, . . . , 192 con
intervalos de confianza del 95 % y data de validacion para los primeros 192 datos.
predicciones de 1 y 4 pasos debido a que la prediccion es acorde a los datos de validacion,
y estos a su vez estan dentro de los intervalos de prediccion estimados por el modelo. A
diferencia de los casos anteriores, no se obtiene lo mismo para la prediccion a 96 y 192
pasos en donde la prediccion con sus intervalos de confianza no calzan en todo el intervalo
con la data de prediccion. Esto u
ltimo puede deberse a la incertidumbre acumulada que
significa hacer una prediccion a largo plazo. De todas maneras en la seccion de comparacion
y discusiones se analizan los resultados cuantitativamente en tablas con distintas medidas de
desempe
no.
16
ticas
ctrica
20
25
Prediccin
Data validacin
18
Prediccin
Data validacin
20
16
14
12
10
15
10
5
6
4
0
2
10
20
30
40
50
60
Tiempo [15[m]]
70
80
90
100
10
20
30
40
50
60
Tiempo [15[m]]
70
80
90
100
(a) Predicci
on a un paso y(1 + t|t) para t = 1 : 96 (b) Prediccion a 4 pasos y(4 + t|t) para t = 1 : 96
de datos de validaci
on.
de datos de validacion.
22
25
Prediccin
Data validacin
20
Prediccin
Data validacin
18
20
16
14
12
10
15
10
10
20
30
40
50
60
Tiempo [15[m]]
70
80
90
100
10
20
30
40
50
60
Tiempo [15[m]]
70
80
90
100
(c) Predicci
on a 96 pasos y(96 + t|t) para t = 1 : (d) Prediccion a 192 pasos y(192 + t|t) para t =
96 de datos de validaci
on.
1 : 96 de datos de validacion.
Figura 6: Modelo Lineal: Comparacion entre prediccion Y (i0 + t|t), i0 = {1, 4, 96, 192}, t =
1 : 96 e intervalos de confianza del 95 % con datos de validacion.
17
ticas
ctrica
3.2.
Modelos difusos
La estructura del modelo difuso cumple con diferentes etapas de optimizacion, con tal
de satisfacer de mejor manera el comportamiento general del sistema. Se da inicio con la
separacion de los datos para el proceso de entrenamiento, prueba y validacion. Para ello se
escoge una base que contiene las se
nales de salida del sistema hasta con 5 retardos. Este
valor fue escogido como cota maxima, dado que la iteracion con mas cantidad de retardos
se vuelve muy costoso para el procesamiento computacional, volviendolo casi inmanejable
para el procesador y memoria fsica disponible para el alumno. No se realiza un analisis de
sensibilidad de las variables del modelo dado a la reducida cantidad de retardos, los cuales
consideran el comportamiento del sistema dentro de 1 hora y 15 minutos.
Con los datos de entrenamiento se generan las premisas y consecuencias del modelo para
cada una de las reglas. Se hace un estudio de la cantidad optima de cl
uster usando los datos de
prueba. En este caso se tiene que tres cl
uster son mas que suficiente para describir de buena
manera el comportamiento de la planta, dado que es justo el punto rodilla de la Figura 7.
Dada esta configuracion se tienen 243 reglas diferentes. Cada una de ellas con sus respectivas
premisas generadas a partir del set de entrenamiento, utilizando tecnicas de cl
uster difuso y
ajustando funciones Gaussianas a cada una de ellas.
Figura 7: Desempe
no del modelo con distintos n
umero de cl
uster, utilizando los datos de
prueba
Los parametros de las consecuencias se calculan con la se
nal de salida real del sistema y
18
ticas
ctrica
las variables de entrada del modelo. Se asume linealidad con las bases escogidas, lo cual hace
un poco mas sencillo la estimacion de dichos parametros.
Luego de calcular los elementos fundamentales del modelo, se procede a calcular los
intervalos de confianza usando los datos de validacion generados por el sistema real. Para
ello se necesita la informacion de los pesos normalizados de cada una de las reglas, denominado
como r , con los cuales es posible calcular la desviacion estandar de cada una de las reglas
generadas en el modelo. Se asume 90 % de confianza para la distribucion tstudent con 2435
grados de libertad dado por la totalidad de parametros del sistema, dando t5,1215 = 1.2822.
Con la desviaciones estandar de cada regla y t5,1215 , se procede a generar las matrices del
modelo, usando los pesos normalizados y las entradas dadas por el conjunto de validacion.
Con todo esto es posible generar las funciones locales que dan a conocer el intervalo superior
e inferior seg
un lo visto en la Seccion 2.2.
En este caso, la salida estimada del primer metodo de estimacion, donde se deja fijo el
tiempo y se varia el tiempo de estimacion i, converge a un valor constante pasado los 500
minutos de simulacion. Se observa que la se
nal sigue el promedio de la se
nal de validacion
dentro de los 500 minutos, pero despues le es imposible subir a los peak de alto consumo de
potencia, tal y como se observa en la Figura 8.
Figura 8: Modelo Difuso: Comparacion entre prediccion Y (i + t|t) para i = 1, . . . , 192 con
La Figura 9 entrega el resultado de prediccion a 1, 4, 96 y 192 pasos. Los graficos contienen
19
ticas
ctrica
la se
nal de salida del conjunto de validacion, la prediccion del modelo Takagi-Sugeno y los
intervalos de confianza del modelo. En este caso se puede observar que tanto estimaciones de
1 y 4 pasos siguen el la se
nal de salida del conjunto de validacion. Ademas se puede observar
que los intervalos de confianza contienen gran parte de los datos de validacion, cumpliendo
con su rol de dise
no. Sin embargo, en la prediccion a 96 y 192 pasos la se
nal estimada del
modelo es constante. Si bien el proceso de estimacion es el mismo para todos los casos, una
ventana de prediccion mayor a la entregada por 3 horas (12 pasos) hara que la se
nal de
salida estimada tienda a un valor fijo constante. Esto puede ser debido a la condicion inicial
entregada para el proceso de estimacion, el cual empieza en una zona de bajada. Mientras
no se reciba una se
nal con alg
un peak de subida como entrada, el modelo no entregara una
se
nal de salida creciente, si no mas bien mantendra su valor a la cota mnima de potencia
entregada en los datos de validacion.
20
ticas
ctrica
(a) Predicci
on.
(c) Predicci
on.
Figura 9: Modelo Difuso: Comparacion entre prediccion Y (i0 + t|t), i0 = {1, 4, 96, 192},
t = 1 : 96 e intervalos de confianza del 90 % con datos de validacion usando modelo TakagiSugeno.
21
ticas
ctrica
3.3.
Modelos neuronales
Debido a que en el analisis de autocorrelacion del set de datos de entrenamiento arroja

periodicidades cada 96 iteraciones, necesariamente la red neuronal se construye con esa cantidad de regresores consecutivos. En este caso no hay problema en esa cantidad de regresores
debido a que la cantidad de datos del set para entrenar supera los 10000 datos. La arquitectura de la red neuronal consiste en una capa de entrada, otra oculta con 10 neuronas y
una capa de salida con una neurona. La funcion no lineal de la capa oculta es la tangente
hiperbolica. Esta base de datos de entrenamiento se divide en tres subconjuntos, el primero
con un 70 % del total es para entrenar los pesos, el 15 % siguiente para realizar validaciones
cruzadas y el u
ltimo 15 % para testear el error de generalizacion de la red neuronal. Una
vez entrenada la red denominada uy (w, x) que es la que aproxima la media del proceso, se
entrena en segundo lugar con el mismo procedimiento y arquitectura la segunda red neuronal
y2 (w, x) que aproxima la varianza de la estimacion, por lo que en este caso el funcional de
costo es el de la ecuacion (35), donde se minimiza el error cuadratico medio de la varianza
del proceso. Con la segunda red entrenada se procede a construir el intervalo de prediccion
de acuerdo a la ecuacion (33). De esta manera como se ve en la Figura 10 se construye la
prediccion Y (i + t|t) en donde i = 1 : 192 representando al prediccion de dos das, para un t
que demarca el inicio de los datos de validacion.
La Figura 10 solo devela el comportamiento de la prediccion para un t fijo, sin embargo el
verdadero objetivo es calcular predicciones a diferentes pasos en cada iteracion del proceso,
es decir, si se desea realizar una prediccion a i0 pasos, entonces se debe obtener la curva
y(i0 + t|t) para un conjunto de t. En este caso se calcula para t = 1 : 96 (un da), las
predicciones i0 = {1, 4, 96, 192} hacia adelante correspondiendo a 15 minutos, una hora, un
da y dos das en el futuro respectivamente. Los resultados se pueden apreciar en la Figura 11.
22
ticas
ctrica
20
Prediccin
Data validacin
18
16
14
12
10
20
40
60
80
100
Tiempo [15[m]]
120
140
160
180
Figura 10: Modelo Neuronal: Comparacion entre prediccion Y (i + t|t) para i = 1, . . . , 192 con
23
ticas
ctrica
22
22
Prediccin
Data validacin
20
Prediccin
Data validacin
20
18
18
16
14
12
10
16
14
12
10
8
8
10
20
30
40
50
60
Tiempo [15[m]]
70
80
90
100
10
20
30
40
50
60
Tiempo [15[m]]
70
80
90
100
(a) Predicci
on.
22
30
Prediccin
Data validacin
20
Prediccin
Data validacin
25
16
18
14
12
20
15
10
10
10
20
30
40
50
60
Tiempo [15[m]]
70
80
90
100
10
20
30
40
50
60
Tiempo [15[m]]
70
80
90
100
(c) Predicci
on.
Figura 11: Modelo Neuronal: Comparacion entre prediccion Y (i0 + t|t), i0 = {1, 4, 96, 192},
t = 1 : 96 e intervalos de confianza del 95 % con datos de validacion.
24
ticas
ctrica
4.
Comparaci
on y discusiones
En esta seccion se realiza la comparacion de los distintos modelos de acuerdo a la calidad

de su prediccion. En primer lugar se analizan las predicciones de la forma y(i + t|t) con
i = 1, . . . , 192 con las medidas de desempe
no definidas en la Seccion de Marco Teorico.
Seg
un la informacion entregada por el Cuadro 1 se puede denotar el orden de desempe
no
de los modelos, siendo el modelo lineal el con mejor desempe
no tanto para las medidas
asociadas al error como a los intervalos de confianza generados y la iclusion de los datos
de validacion en ellos. En este caso se denota el potencial que tiene este modelo para la
prediccion a i pasos, teniendo en consideracion una sola condicion inicial, entregando errores
RMSE bastante cercanos a la unidad, pero con tendencia a bajar como lo indica el MAPE
y MAE. Para el caso de los intervalos de confianza el modelo permite capturar casi el 99 %
de los datos de validacion, tal y como lo muestra en el factor de PICP, pero dado el valor
entregado por la medida NMPIW, el ancho del intervalo de confianza permanece bastante
constante, teniendo tan solo un 10 % de variacion dentro del proceso de estimacion.
Otro modelo de gran desempe
no para este tipo de prediccion es la red neuronal. Las
medidas de error asociadas a este modelo indican un buen seguimiento entre la se
nal de
validacion y la salida del modelo, dando un error RMSE cercano a la unidad y valores de
MAPE y MAE cercanos a 0. Comparado con el modelo lineal, el modelo neuronal tiene un
menor desempe
no al momento de generar los intervalos de confianza. El PICP indica que el
91 % de los datos de validacion estan contenidos en el intervalo de confianza, menor que el
99 % obtenido en el caso lineal. Sin embargo, existe un mejor ajuste de las curvas superior e
inferior que definen el intervalo de confianza. Es de esperar que las curvas contengan la mayor
cantidad de datos entre ellas, pero que sean lo suficientemente angostas con tal de obtener
una estimacion adecuada. Todo esto debido a que el valor que toma la medida NMPIW,
indica que el 60 % de las veces el proceso sufre de alguna disminucion del ancho del intervalo
de confianza.
Por otra parte el modelo difuso es aquel que obtiene el peor desempe
no, tomando valores
de error RMSE por sobre la unidad, denotando que la estimacion del modelo no sigue a los
datos del set de validacion. Los intervalos de confianza corren con la misma suerte, entregando
tan solo un 64 % de los datos de validacion contenidos en el intervalo de confianza.
Como se aprecia en el Cuadro 2, se realizan las respectivas comparaciones de los tres
modelos para las diferentes tiempos de prediccion para las medidas de desempe
no descritas
anteriormente. Las medidas RMSE, MAPE y MAE nos entregan basicamente cual es la
calidad de la prediccion con respecto a los datos de validacion en terminos de la media.
Como se puede verificar, en todos los modelos se tiene un desempe
no similar y mejor (RMSE,
MAPE y MAE) para las predicciones a 1 y 4 pasos con respecto a 96 y 192 pasos. Esto se debe
principalmente a que los funcionales utilizados para el entrenamiento de cada estructura solo
minimiza el error de prediccion de un paso, de ah que para predicciones largas se tenga peores
25
ticas
ctrica
Modelo RMSE MAPE

Lineal
1.2477 0.1029
Difuso
4.3847 0.2339
Neuronal 1.4361 0.1451
MAE PICP NMPIW

0.9042 0.9896 0.8974
2.9111 0.6458 0.8765
1.0319 0.9115 0.6054
CWC
0.8974
1.8717
0.6054
Cuadro 1: Comparacion cuantitativa entre modelos lineales, difusos y neuronales para prediccion de la forma y(i + t|t) con i = 1, . . . , 192 para t fijo como instante inicial de la data
de validacion.
resultados aproximando la media. Ahora bien, analizando por modelo y mirando las medidas
de desempe
no RMSE, MAPE y MA, el modelo lineal posee mejores desempe
nos que los demas
modelos para predicciones de peque
nos horizontes ( 1 y 4 ), esto porque predicciones de corto
alcance no requiere de aprendizajes no lineales complejos como lo aprenden los sistemas
difusos y neuronales. Es por esto que analizando las predicciones de mas largo plazo, al
menos el modelo neuronal presenta mejores desempe
nos que el lineal, debido a que la red
es capaz de aprender las frecuencias claves del consumo de potencia para hacer correctas
predicciones.
Ademas de los analisis para medir la calidad de aproximacion de la media, tambien
se hace necesario el analisis de los intervalos de confianza de prediccion del modelo. Los
intervalos de confianza son herramientas u
tiles para analizar cuan confiable es la media que
se esta prediciendo, y para eso existen las metricas adhoc como: PICP, NMPIW y CWC;
en donde PICP mide la proporcion de puntos promedio de la data de validacion que cae
dentro de los intervalos de confianza ( por lo cual entre mas cercana a uno es mejor) ,
NMPIW mide el promedio del ancho del intervalo de confianza normalizado ( por lo cual
mientras mas cercano a cero es mejor) y por u
ltimo el CWC es aquel que se basa en la dos
medidas anteriores haciendo un trade-off entre ellas. El trade-off consiste en tratar de obtener
el intervalo de confianza de menor ancho posible cubriendo la mayor cantidad de datos de
validacion. De esta manera, mirando las metricas PICP, NMPIW y CWC en el Cuadro 2,
los mejores desempe
nos se obtienen para horizontes peque
nos de prediccion contemplados
por 1 y 4. Esto nuevamente porque los funcionales utilizados son adhoc para este tipo de
predicciones. Ahora, para horizontes de prediccion mas grandes, claramente los intervalos
de confianza se vuelven mas imprecisos ( NMPIW mas grandes) y que no necesariamente
tienen abarcan los datos de validacion ( reflejados en PICP mas peque
nos), esto debido a
que en horizontes de tiempos mas grandes las incertidumbres se van acumulando en cada
retroalimentacion de las estructuras. Finalmente, analizando por modelos, para intervalos
peque
nos de prediccion, los intervalos de confianza de cada uno de los modelos no presenta
mayores diferencias, sin embargo para grandes horizontes el modelo neuronal tiene intervalos
menos anchos que los difusos, pero no son precisos a la hora de cubrir la data de validacion.
Tambien cabe mencionar que los modelos difusos tienden a saturar su prediccion a grandes
26
ticas
ctrica
horizontes, lo que puede deberse basicamente a que los modelos de las consecuencias no son
suficientes para caracterizar los perfiles de consumo.
Modelo
Predicci
on
1 paso
4 pasos
Lineal
96 pasos
192 pasos
1 paso
4 pasos
Difuso
96 pasos
192 pasos
1 paso
4 pasos
Neuronal
96 pasos
192 pasos
RMSE
1.7495
2.6485
3.8642
4.8683
1.8358
2.7116
5.0537
4.5151
2.2433
3.0171
3.6122
2.5755
MAPE
0.13667
0.2102
0.2436
0.27827
0.1078
0.1488
0.4076
0.2752
0.1490
0.1940
0.2072
0.1732
MAE PICP NMPIW

1.2170 0.9167
1
1.9435 0.7813
1
2.8438 0.6979
1
3.5473 0.6667
1
1.2292 0.9479
0.4885
1.7571 0.9479
0.4209
4.0217 0.5417
0.9928
3.3298 0.6979
0.9889
1.5913 0.5652
0.4132
2.1616 0.4565
0.4095
2.5725 0.3913
0.4218
1.8854 0.2935
0.5958
CWC
1
2.0612
2.1063
2.1237
0.4885
0.4209
2.1804
2.0830
0.9017
0.9206
0.9657
1.4027
Cuadro 2: Comparacion cuantitativa entre modelos lineales, difusos y neuronales para prediccion de la forma y(i0 + t|t) con t = 1, . . . , 96 de la data de validacion e i0 = {1, 4, 96, 192}
pasos de prediccion.
27
ticas
ctrica
5.
Conclusiones
Como se ha estudiado en este trabajo, la confiabilidad de los modelos no solamente esta

dado por la capacidad predecir adecuadamente la media para un horizonte determinado, sino
el poder adicionar los intervalos de confianza de prediccion correspondientes al analisis. En
esta experiencia se ha trabajado con series de tiempos reales, y se han generado distintos
modelos de prediccion incluyendo modelos lineales, difusos y neuronales. Cada uno de estos
modelos presentan ventajas y desventajas dependiendo del horizonte de prediccion al cual
se este trabajando, en donde se ha encontrado que modelo lineales predicen de una manera
mas confiable que los modelos difusos y neuronales para horizontes peque
nos, mientras que
los modelos neuronales destacan para predicciones de mas largo plazo. Cabe mencionar que
la data utilizada tena periodicidades importantes ( cada 96 pasos), las cuales fueron aprendidas por todos los modelos utilizando la cantidad adecuada de regresores en las entradas.
Finalmente es importante mencionar que los resultados a largo plazo pueden ser mejorados
utilizando funcionales que con predicciones a mas de un paso.
28
ticas
ctrica
Referencias
[1] George EP Box, Gwilym M Jenkins, and Gregory C Reinsel. Time series analysis: forecasting and control, volume 734. John Wiley & Sons, 2011.
[2] Richard Dybowski and S Roberts. Confidence intervals and prediction intervals for feedforward neural networks. Clinical Applications of Artificial Neural Networks, pages 298
326, 2001.
[3] Abbas Khosravi, Saeid Nahavandi, Doug Creighton, and Amir F Atiya. Comprehensive
review of neural network-based prediction intervals and new advances. Neural Networks,
IEEE Transactions on, 22(9):13411356, 2011.
[4] I. Skrjanc.
Fuzzy confidence interval for ph titration curve. Appl. Math. Model, pages
4083-4090, 2011.
29

Intervalos de Prediccion

Cargado por

Copyright:

Formatos disponibles

Intervalos de Prediccion

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Intervalos de Prediccion

Cargado por

Copyright:

Formatos disponibles

ticas

Facultad de Ciencias Fsicas y Matema

Se considera que todo sistema lineal se puede escribir de la siguiente forma:

donde i es el parametro i-esimo que pondera la entrada xi del sistema, y Nr es la cantidad

donde z 1 es el operador de retardo, A(z 1 ) = 1+a1 z 1 +a2 z 2 + +aNa z Na , C(z 1 ) =

Se especifica el modelo y se estiman sus parametros. Cuando se identifican modelos

donde z 1 es el operador retardo unitario, Yt es la se

la estimacion optima de parametros esta dada por:

x1 (1) . . . xNr (1)

donde s es la desviacion estandar de y (1) , . . . , y (N ) , x es la media de x(1) , . . . , x(N ) y t0.025[N 2]

El modelo de intervalos difusos es una metodologa para aproximacion de sistemas no

Modelos no-lineales difusos Takagi-Sugeno

Takagi-Sugeno es una estrategia de identificacion difusa mas utilizada para establecer el

Donde Nr es la cantidad de reglas y wr es el grado de activacion de la regla r dado en

Donde x es el conjunto de variables de interes del modelo. Usando esta definicion en la

Tomando en consideracion la Ecuacion (11) y definiendo el error ei que se genera entre el

donde ei es un ruido blanco, de varianza igual a 2 (xi ) dependiente de la entrada del

La idea del intervalo de confianza de un modelo difuso es encontrar un funcion difusa

donde t,M n es el percentil de una distribucion t student para 100(1 2) porcentaje

donde, xi es la entrada i-esima de la neurona , Wi es el ponderador i-esimo, b es el sesgo

Figura 1: Arquitectura de una red neuronal tpica.

Entrenamiento de redes neuronales para predicci

donde Nd es la cantidad de datos disponibles, xl es el vector de entrada l-esimo evaluado en

en donde es el factor de aprendizaje, t es el vector de parametros en la iteracion t y

consecutivamente para Wij es:

En la seccion anterior, en terminos estadsticos solo se esta haciendo una prediccion de la

E(y|x) y una varianza Var(y|x), un intervalo de prediccion con un 95 % de confianza esta

De esta manera el intervalo de prediccion del 95 % sera:

El calculo de 2 puede realizarse tambien mediante el algoritmo de gradiente descendente,

con lo cual el intervalo de confianza del 95 % se calcula como:

Root Mean Squared Error (RMSE)

en donde n es la cantidad de datos, yi es la data de validacion e yi es la respectiva prediccion.

Mean Absolute Percentage Error (MAPE)

en donde n es la cantidad de datos, yi es la data de validacion e yi es la respectiva prediccion.

Mean Absolute Error (MAE)

en donde n es la cantidad de datos, yi es la data de validacion e yi es la respectiva prediccion.

Prediction Interval Coverage Probability (PICP)

donde ci se define como:

donde Li y Ui son los intervalos de confianza de prediccion superiores e inferiores respectivamente.

Normalizing Mean Prediction Interval Width (NMPIW)

Ui y Li son los intervalos de prediccion superiores e inferiores respectivamente, R es el maximo

Coverage Width-based Criterion (CWC)

Sample Partial Autocorrelations

Sample Partial Autocorrelation Function

Sample Autocorrelation Function

Sample Partial Autocorrelations

Sample Partial Autocorrelation Function

QQ Plot of Sample Data versus Standard Normal

Sample Autocorrelation Function

Sample Partial Autocorrelation Function

Figura 4: Graficos de analisis que validan el modelo ARIMA escogido.

Potencia consumida [W]

Potencia consumida [W]

Potencia consumida [W]

Potencia consumida [W]

Potencia consumida [W]

Debido a que en el analisis de autocorrelacion del set de datos de entrenamiento arroja

Potencia consumida [W]

Potencia consumida [W]