paint-brush
Red neuronal profunda para la predicción de la temperatura de la superficie del mar: método propuestopor@oceanography
107 lecturas

Red neuronal profunda para la predicción de la temperatura de la superficie del mar: método propuesto

Demasiado Largo; Para Leer

En este artículo, los investigadores mejoran la predicción de la TSM transfiriendo conocimiento físico de observaciones históricas a modelos numéricos.
featured image - Red neuronal profunda para la predicción de la temperatura de la superficie del mar: método propuesto
Oceanography: Everything You Need to Study the Ocean HackerNoon profile picture
0-item

Autores:

(1) Yuxin Meng;

(2) Feng Gao;

(3) Eric Rigall;

(4) Ran Dong;

(5) Junyu Dong;

(6) Qiandu.

Tabla de enlaces

III. MÉTODO PROPUESTO

El modelo numérico puede predecir la distribución espacial de la TSM y sus teleconexiones globales en conjunto. Funciona bien con pistas cortas para la predicción de TSM. Sin embargo, sostenemos que transferir el conocimiento físico a partir de los datos observados puede mejorar aún más el rendimiento del modelo numérico para la predicción de la TSM. Con este fin, adoptamos GAN para aprender el conocimiento físico de los datos observados.


Zhu et al. [53] propusieron un método de inversión GAN que no solo reconstruye fielmente los datos de entrada, sino que también garantiza que el código latente invertido sea semánticamente significativo. Demostraron que aprender los valores de píxeles de la imagen de destino por sí solo es insuficiente y que las características aprendidas no pueden representar la imagen a nivel semántico. Inspirándonos en este trabajo, diseñamos un codificador en GAN para aprender conocimiento físico a partir de los datos observados, denominado red anterior. Esta red anterior no solo aprende los valores de píxeles de los datos observados del objetivo, sino que también captura la información física. Mejora efectivamente la precisión de la predicción de SST.


A continuación, presentamos el método propuesto de la siguiente manera: 1) Descripción general del método, 2) Red anterior, 3) Predicción de SST con datos mejorados.


A. Descripción general del método


En esta subsección, resumimos el método de predicción de SST propuesto y describimos en detalle la entrada y salida de cada etapa. Como se ilustra en la Fig. 2, el método de predicción de SST propuesto consta de dos etapas: entrenamiento previo de la red y predicción de SST con datos mejorados.


1) Formación previa en redes. Esta etapa consta de tres pasos. En el primer paso, la SST observada (datos GHRST) se utiliza para el entrenamiento del modelo GAN. En el segundo paso, el generador previamente entrenado y los datos GHRSST se utilizan para entrenar el codificador. En el tercer paso, el generador y el codificador previamente entrenados se combinan en la red anterior. La red anterior se utiliza para transferir el conocimiento físico de los datos observados al modelo numérico. Luego, el modelo numérico SST (datos HYCOM) se introduce en la red anterior para mejorar sus representaciones de características.


2) Predicción de SST con datos mejorados. Los datos mejorados por la física se introducen en el modelo ConvLSTM para la predicción de SST. La TSM del día siguiente, los 3 días siguientes y los 7 días siguientes se predicen por separado.


Cabe señalar que la mayoría de los trabajos existentes [26] [27] solo utilizan los datos observados para el entrenamiento de ConvLSTM. Por el contrario, nuestro método aprovecha los datos mejorados por la física para el entrenamiento de ConvLSTM. A continuación, describimos en detalle el entrenamiento previo de la red y la predicción de SST con datos mejorados.


B. Etapa 1: Capacitación previa en red


Construimos una red previa para aprender el conocimiento físico de los datos observados y mantener constante su información semántica/física después del entrenamiento. Como se ilustra en la Fig. 2, el entrenamiento de red previo se compone de tres pasos: entrenamiento del modelo GAN, entrenamiento del codificador y generación de datos mejorada por la física. A continuación proporcionamos descripciones detalladas de cada paso.


Entrenamiento del modelo GAN. El modelo GAN se utiliza para aprender la distribución de datos a partir de la SST observada. La función objetivo es la siguiente:



El proceso de entrenamiento del modelo GAN se resume en el Algoritmo 1. Entrenamos el modelo sobre la SST observada hasta que el generador G captura las características físicas de los datos de SST observados.



donde F(·) representa la extracción de características a través de la red VGG. La red VGG representa la red propuesta por Visual Geometry Group [54] y es una red neuronal convolucional profunda clásica.


El entrenamiento del codificador se describe en el Algoritmo 2. Los parámetros del generador G son fijos, mientras que los parámetros del codificador E y del discriminador D se actualizan según la ecuación. 2 y la ecuación. 3, respectivamente.


La motivación de la Etapa 1 es construir una red previa que pueda rectificar los componentes incorrectos en los datos del modelo numérico. Para este fin, primero diseñamos un modelo GAN que captura la distribución de datos de la SST observada y puede generar datos de SST de alta calidad. Posteriormente, el codificador se entrena para garantizar que los códigos latentes generados conserven la información semántica/física en la SST observada. Sostenemos que a través del aprendizaje adversario, la red anterior (que consta del codificador y el generador) puede rectificar las partes incorrectas en los datos de entrada, ya que el conocimiento físico ha sido integrado en la red anterior. En consecuencia, en el tercer paso, cuando los datos del modelo numérico se introducen en la red anterior, el conocimiento físico incorporado puede corregir los componentes incorrectos en los datos del modelo numérico.




C. Etapa 2: Predicción de SST con datos mejorados


ConvLSTM es una herramienta eficaz para predecir datos espaciotemporales. Es una red neuronal recurrente que incorpora bloques convolucionales tanto en las transiciones de entrada a estado como de estado a estado. A diferencia de la capa LSTM tradicional, ConvLSTM no solo preserva la relación secuencial sino que también extrae características espaciales de los datos. De esta manera, podemos aprovecharlo para capturar características espacio-temporales sólidas. La función objetivo de ConvLSTM se formula de la siguiente manera:



Los datos de SST mejorados por la física se introducen en el modelo ConvLSTM para la predicción de SST de la siguiente manera:



Los pesos obtenidos por el generador se reutilizan en el Algoritmo 2, donde solo se fijan los pesos del generador. El codificador introducido y el discriminador pasan por otro proceso de entrenamiento sobre la SST observada. Sus pesos se actualizan según la ecuación. 2 y la ecuación. 3, respectivamente. Después del entrenamiento, el código generado por el codificador incorporaría el conocimiento físico aprendido.


Finalmente, adquirimos los datos reforzados en base al conocimiento físico utilizando el modelo previamente entrenado anterior. los pesos de



el generador y el codificador del algoritmo 2 se reutilizan y el modelo numérico SST se explota para producir datos de modelo numérico reforzados con la física.


En el algoritmo 3, los datos mejorados con conocimiento físico se aprovechan para entrenar un modelo ConvLSTM espacio-temporal para la predicción de SST. En este documento, la TSM del día siguiente, los próximos 3 días y los próximos 7 días se predicen por separado. Para esta parte, realizamos un estudio de ablación para utilizar los datos reforzados de manera efectiva.


Este documento está disponible en arxiv bajo licencia CC 4.0.