Convnets modernos, squeezenet, Xception, con Keras y TPU

1. Descripción general

En este lab, aprenderás sobre la arquitectura convolucional moderna y usarás tus conocimientos para implementar un convnet sencillo pero eficaz llamado "squeezenet".

En este lab, se incluyen las explicaciones teóricas necesarias sobre las redes neuronales convolucionales y se trata de un buen punto de partida para los desarrolladores que están aprendiendo sobre el aprendizaje profundo.

Este lab es la parte 4 del curso “Keras en TPU” . Puedes hacerlo en el siguiente orden o de forma independiente.

Canalizaciones de datos con velocidades de TPU: tf.data.Dataset y TFRecords
Tu primer modelo de Keras con aprendizaje por transferencia
Redes neuronales convolucionales, con Keras y TPU
[ESTE LAB] Convnets modernos, squeezenet, Xception, con Keras y TPU

Qué aprenderás

Dominar el estilo funcional de Keras
Pasos para compilar un modelo mediante la arquitectura squeezenet
Usar TPU para entrenar rápido e iterar en tu arquitectura
Implementar la magnificación de datos con tf.data.dataset
Para ajustar un modelo grande previamente entrenado (Xception) en TPU

Comentarios

Si notas que falta algo en este codelab, comunícate con nosotros. Se pueden proporcionar comentarios a través de los problemas de GitHub [feedback link].

2. Guía de inicio rápido de Google Colaboratory

Este lab usa Google Colaboratory y no requiere configuración de tu parte. Colaboratory es una plataforma de bloc de notas en línea con fines educativos. Ofrece entrenamiento gratuito sobre CPU, GPU y TPU.

Puedes abrir este notebook de muestra y ejecutarlo en algunas celdas para familiarizarte con Colaboratory.

Welcome to Colab.ipynb

Selecciona un backend de TPU

En el menú de Colab, selecciona Entorno de ejecución > Cambia el tipo de entorno de ejecución y, luego, selecciona TPU. En este codelab, usarás una potente TPU (unidad de procesamiento tensorial) respaldada para el entrenamiento acelerado por hardware. La conexión al entorno de ejecución se realizará automáticamente en la primera ejecución, o bien puedes usar el botón “Conectar” en la esquina superior derecha.

Ejecución del notebook

Para ejecutar las celdas una a la vez, haz clic en una celda y usa Mayúsculas + Intro. También puedes ejecutar todo el notebook con Entorno de ejecución > Ejecutar todo

Índice

Todos los notebooks tienen un índice. Puedes abrirlo con la flecha negra que está a la izquierda.

Celdas ocultas

Algunas celdas solo mostrarán el título. Esta es una función de notebook específica de Colab. Puedes hacer doble clic en ellos para ver el código que contiene, pero, por lo general, no es muy interesante. Por lo general, las funciones de asistencia o visualización. Aún debes ejecutar estas celdas para que se definan las funciones que contiene.

Autenticación

Colab puede acceder a tus buckets privados de Google Cloud Storage, siempre y cuando te autentiques con una cuenta autorizada. El fragmento de código anterior activará un proceso de autenticación.

3. [INFO] ¿Qué son las unidades de procesamiento tensorial (TPU)?

En pocas palabras

El código para entrenar un modelo en TPU en Keras (y recurrir a GPU o CPU si no hay TPU disponible):

try: # detect TPUs
    tpu = tf.distribute.cluster_resolver.TPUClusterResolver.connect()
    strategy = tf.distribute.TPUStrategy(tpu)
except ValueError: # detect GPUs
    strategy = tf.distribute.MirroredStrategy() # for CPU/GPU or multi-GPU machines

# use TPUStrategy scope to define model
with strategy.scope():
  model = tf.keras.Sequential( ... )
  model.compile( ... )

# train model normally on a tf.data.Dataset
model.fit(training_dataset, epochs=EPOCHS, steps_per_epoch=...)

Hoy usaremos TPU para crear y optimizar un clasificador de flores a velocidades interactivas (minutos por ejecución de entrenamiento).

¿Por qué elegir las TPU?

Las GPU modernas se organizan en torno a "núcleos" programables, una arquitectura muy flexible que les permite manejar una variedad de tareas, como renderización 3D, aprendizaje profundo, simulaciones físicas, etcétera. Por otro lado, las TPU combinan un procesador vectorial clásico con una unidad de multiplicación de matrices dedicada y se destacan en cualquier tarea en la que predominan las multiplicaciones de matrices grandes, como las redes neuronales.

Ilustración: una capa de red neuronal densa como una multiplicación de matrices, con un lote de ocho imágenes procesadas a través de la red neuronal a la vez. Analiza la multiplicación de una línea por una columna para verificar que efectivamente se realice una suma ponderada de todos los valores de píxeles de una imagen. Las capas convolucionales también se pueden representar como multiplicaciones de matrices, aunque es un poco más complicado ( la explicación se encuentra en la sección 1).

El hardware

MXU y VPU

Un núcleo de TPU v2 está formado por una unidad de multiplicación de matrices (MXU) que ejecuta multiplicaciones de matrices y una unidad de procesamiento vectorial (VPU) para todas las demás tareas, como activaciones, softmax, etc. La VPU maneja los cálculos float32 e int32. Por otro lado, la MXU opera en un formato de punto flotante de precisión mixta de 16 a 32 bits.

Punto flotante de precisión mixto y bfloat16

La MXU calcula las multiplicaciones de matrices con las entradas de bfloat16 y las salidas de float32. Las acumulaciones intermedias se realizan con precisión float32.

Por lo general, el entrenamiento de redes neuronales es resistente al ruido que genera una precisión reducida de punto flotante. Hay casos en los que el ruido incluso ayuda a la convergencia del optimizador. La precisión de punto flotante de 16 bits se ha utilizado tradicionalmente para acelerar los cálculos, pero los formatos float16 y float32 tienen rangos muy diferentes. Reducir la precisión de float32 a float16 suele generar un exceso y subdesbordamiento. Las soluciones existen, pero normalmente se requiere trabajo adicional para que float16 funcione.

Es por eso que Google introdujo el formato bfloat16 en las TPU. bfloat16 es un float32 truncado con exactamente los mismos bits y rango de exponente que float32. Esto, sumado al hecho de que las TPU calculan multiplicaciones de matrices en precisión mixta con entradas bfloat16 pero resultados float32, significa que, por lo general, no se necesitan cambios en el código para beneficiarse de las mejoras en el rendimiento de la precisión reducida.

Array sistólico

La MXU implementa multiplicaciones de matrices en hardware usando un “array sistólico” en la que los elementos de datos fluyen por un array de unidades de procesamiento de hardware. (En medicina, "sistólica" se refiere a las contracciones cardíacas y al flujo sanguíneo, en este caso, al flujo de datos).

El elemento básico de una multiplicación de matrices es un producto escalar entre una línea de una matriz y una columna de la otra (consulta la ilustración en la parte superior de esta sección). Para una multiplicación de matrices Y=X*W, un elemento del resultado sería:

Y[2,0] = X[2,0]*W[0,0] + X[2,1]*W[1,0] + X[2,2]*W[2,0] + ... + X[2,n]*W[n,0]

En una GPU, se programaría este producto punto en un "núcleo" de GPU. y ejecutarla en muchos “núcleos” disponibles en paralelo para intentar calcular cada valor de la matriz resultante a la vez. Si la matriz resultante es grande de 128 × 128, requeriría 128 × 128=16,000 “núcleos” esté disponible, lo que generalmente no es posible. Las GPU más grandes tienen alrededor de 4,000 núcleos. Por otro lado, una TPU usa el hardware mínimo para las unidades de procesamiento en la MXU: solo multiplicadores de acumuladores bfloat16 x bfloat16 => float32, nada más. Son tan pequeñas que una TPU puede implementar 16,000 en una MXU de 128 × 128 y procesar esta multiplicación de matrices de una sola vez.

Ilustración: array sistólico de MXU. Los elementos de procesamiento son multiplicadores y acumuladores. Los valores de una matriz se cargan en el array (puntos rojos). Los valores de la otra matriz fluyen por el array (puntos grises). Las líneas verticales propagan los valores hacia arriba. Las líneas horizontales propagan sumas parciales. Se deja como un ejercicio para que el usuario verifique que, a medida que los datos fluyen a través del array, se obtiene el resultado de la multiplicación de matrices que sale del lado derecho.

Además, mientras los productos escalar se calculan en una MXU, las sumas intermedias simplemente fluyen entre unidades de procesamiento adyacentes. No es necesario que se almacenen y recuperen en la memoria o incluso desde un archivo de registro. El resultado final es que la arquitectura del array sistólico de TPU tiene una ventaja de densidad y potencia significativa, además de una ventaja de velocidad no insignificante en comparación con una GPU, cuando se calculan multiplicaciones de matrices.

Cloud TPU

Cuando solicitas uno " Cloud TPU v2” en Google Cloud Platform, obtiene una máquina virtual (VM) que tiene una placa de TPU conectada con PCI. La placa de TPU tiene cuatro chips TPU de doble núcleo. Cada núcleo de TPU cuenta con una VPU (unidad de procesamiento vectorial) y una MXU (unidad de multiplicación de matriz) de 128 x 128. Esta “Cloud TPU” por lo general, se conecta a través de la red a la VM que lo solicitó. El panorama completo se ve de la siguiente manera:

Ilustración: Tu VM con una “Cloud TPU” conectada a la red acelerador. “La Cloud TPU” está compuesta por una VM con una placa de TPU conectada a PCI y cuatro chips TPU de doble núcleo.

Pods de TPU

En los centros de datos de Google, las TPU están conectadas a una interconexión de computación de alto rendimiento (HPC) que puede hacer que parezcan un acelerador muy grande. Google los llama Pods, que pueden abarcar hasta 512 núcleos TPU v2 o 2,048 núcleos TPU v3.

Ilustración: un pod de TPU v3. Placas y bastidores de TPU conectados a través de la interconexión de HPC

Durante el entrenamiento, los gradientes se intercambian entre los núcleos de la TPU con el algoritmo Allreduce ( buena explicación de Allreduce aquí). El modelo que se está entrenando puede aprovechar el hardware entrenando con tamaños de lotes grandes.

Ilustración: Sincronización de gradientes durante el entrenamiento con el algoritmo de reducción completa en la red HPC de malla toroidal 2D de Google TPU.

El software

Entrenamiento del tamaño de lotes grandes

El tamaño de lote ideal para las TPU es de 128 elementos de datos por núcleo de TPU, pero el hardware ya puede mostrar un buen uso de 8 elementos de datos por núcleo de TPU. Recuerda que una Cloud TPU tiene 8 núcleos.

En este codelab, usaremos la API de Keras. En Keras, el lote que especifiques será el tamaño del lote global para toda la TPU. Tus lotes se dividirán automáticamente en 8 y se ejecutarán en los 8 núcleos de la TPU.

Para obtener más sugerencias sobre el rendimiento, consulta la Guía de rendimiento de TPU. En el caso de los tamaños de lote muy grandes, puede ser necesario tener especial cuidado en algunos modelos. Consulta LARSOptimizer para obtener más detalles.

Detrás de escena: XLA

Los programas de TensorFlow definen grafos de procesamiento. La TPU no ejecuta directamente el código de Python, sino el grafo de procesamiento definido por el programa de TensorFlow. De forma interna, un compilador llamado XLA (Compilador de álgebra lineal acelerado) transforma el grafo de TensorFlow de los nodos de procesamiento en código máquina de TPU. Este compilador también realiza muchas optimizaciones avanzadas en el código y el diseño de la memoria. La compilación se realiza automáticamente a medida que el trabajo se envía a la TPU. No tienes que incluir XLA en tu cadena de compilación de forma explícita.

Ilustración: Para ejecutarse en TPU, el grafo de cómputo definido por tu programa de Tensorflow primero se traduce a una representación de XLA (compilador de álgebra lineal acelerado) y, luego, XLA lo compila en código máquina de TPU.

Usa TPU en Keras

A partir de TensorFlow 2.1, las TPU son compatibles con la API de Keras. La compatibilidad con Keras funciona en TPU y pods de TPU. A continuación, te mostramos un ejemplo que funciona con TPU, GPU y CPU:

try: # detect TPUs
    tpu = tf.distribute.cluster_resolver.TPUClusterResolver.connect()
    strategy = tf.distribute.TPUStrategy(tpu)
except ValueError: # detect GPUs
    strategy = tf.distribute.MirroredStrategy() # for CPU/GPU or multi-GPU machines

# use TPUStrategy scope to define model
with strategy.scope():
  model = tf.keras.Sequential( ... )
  model.compile( ... )

# train model normally on a tf.data.Dataset
model.fit(training_dataset, epochs=EPOCHS, steps_per_epoch=...)

En este fragmento de código:

TPUClusterResolver().connect() encuentra la TPU en la red. Funciona sin parámetros en la mayoría de los sistemas de Google Cloud (trabajos de AI Platform, Colaboratory, Kubeflow y VMs de aprendizaje profundo creadas a través de la utilidad "Aspera up"). Estos sistemas saben dónde está su TPU gracias a una variable de entorno TPU_NAME. Si creas una TPU manualmente, configura el entorno TPU_NAME. var. en la VM desde la que lo estás usando o llama a TPUClusterResolver con parámetros explícitos: TPUClusterResolver(tp_uname, zone, project)
TPUStrategy es la parte que implementa la distribución y “all-reduce” de sincronización de gradientes.
La estrategia se aplica a través de un alcance. El modelo debe definirse dentro de la estrategia scope().
La función tpu_model.fit espera un objeto tf.data.Dataset como entrada para el entrenamiento de TPU.

Tareas comunes de portabilidad de TPU

Si bien existen muchas formas de cargar datos en un modelo de TensorFlow, para las TPU, es necesario usar la API de tf.data.Dataset.
Las TPU son muy rápidas y la transferencia de datos a menudo se convierte en un cuello de botella cuando se ejecutan en ellas. En la Guía de rendimiento de la TPU, encontrarás herramientas que puedes usar para detectar cuellos de botella de datos y otras sugerencias de rendimiento.
Los números int8 o int16 se tratan como int32. La TPU no tiene hardware de números enteros que funcione en menos de 32 bits.
Algunas operaciones de TensorFlow no son compatibles. La lista está aquí. La buena noticia es que esta limitación solo se aplica al código de entrenamiento, es decir, la propagación hacia adelante y atrás en el modelo. Aún puedes usar todas las operaciones de TensorFlow en tu canalización de entrada de datos, ya que se ejecutarán en la CPU.
tf.py_func no es compatible con TPU.

4. [INFO] Conceptos básicos del clasificador de redes neuronales

En pocas palabras

Si ya conoces todos los términos en negrita del siguiente párrafo, puedes pasar al siguiente ejercicio. Si recién estás comenzando en el aprendizaje profundo, entonces bienvenido y sigue leyendo.

Para los modelos creados como una secuencia de capas, Keras ofrece la API secuencial. Por ejemplo, un clasificador de imágenes que usa tres capas densas se puede escribir en Keras de la siguiente manera:

model = tf.keras.Sequential([ tf.keras.layers.Flatten(input_shape=[192, 192, 3]), tf.keras.layers.Dense(500, activation="relu"), tf.keras.layers.Dense(50, activation="relu"), tf.keras.layers.Dense(5, activation='softmax') # classifying into 5 classes ]) # this configures the training of the model. Keras calls it "compiling" the model. model.compile( optimizer='adam', loss= 'categorical_crossentropy', metrics=['accuracy']) # % of correct answers # train the model model.fit(dataset, ... )

Red neuronal densa

Esta es la red neuronal más simple para clasificar imágenes. Está formada por "neuronas". organizados en capas. La primera capa procesa datos de entrada y envía sus salidas a otras capas. Se denomina “denso” ya que cada neurona está conectada a todas las neuronas de la capa anterior.

Puedes incorporar una imagen a esta red compactando los valores RGB de todos sus píxeles en un vector largo y usándolo como entradas. No es la mejor técnica para el reconocimiento de imágenes, pero la mejoraremos más adelante.

Neuronas, activaciones y RELU

Una "neurona" calcula una suma ponderada de todas sus entradas y agrega un valor llamado "sesgo" y envía el resultado a través de la llamada “función de activación”. Al principio, se desconocen los pesos y el sesgo. Se inicializarán al azar y se “aprenderán”. entrenando la red neuronal con muchos datos conocidos.

La función de activación más popular se denomina RELU para la unidad lineal rectificada. Es una función muy simple, como puedes ver en el gráfico anterior.

Activación de softmax

La red anterior termina con una capa de 5 neuronas porque clasificaremos las flores en 5 categorías (rosa, tulipán, diente de león, margarita, girasol). Las neuronas en capas intermedias se activan con la función de activación RELU clásica. Sin embargo, en la última capa, queremos calcular números entre 0 y 1 que representen la probabilidad de que esta flor sea una rosa, un tulipán, etcétera. Para esto, usaremos una función de activación denominada “softmax”.

La aplicación de softmax a un vector se realiza tomando la exponencial de cada elemento y luego normalizando el vector, generalmente con el uso de la norma L1 (suma de valores absolutos) para que los valores sumen 1 y puedan interpretarse como probabilidades.

¿Por qué es "softmax" llamada softmax? La exponencial es una función que aumenta abruptamente. Aumentará las diferencias entre las salidas de las neuronas. Luego, mientras normalizas el vector, el elemento más grande, que domina la norma, se normalizará a un valor cercano a 1, mientras que todos los demás elementos terminarán divididos por un valor grande y se normalizarán a algo cercano a 0. El vector resultante muestra claramente cuál es la clase ganadora, el “max”, pero conserva el orden relativo original de sus valores; por eso, se llama “soft”.

Pérdida de la entropía cruzada

Ahora que nuestra red neuronal produce predicciones a partir de imágenes de entrada, debemos medir qué tan buenas son, es decir, la distancia entre lo que nos dice la red y las respuestas correctas, a menudo llamadas “etiquetas”. Recuerda que tenemos etiquetas correctas para todas las imágenes del conjunto de datos.

Cualquier distancia funcionaría, pero para los problemas de clasificación la llamada "distancia de entropía cruzada" es el más efectivo. A esto lo llamaremos error o “pérdida”. función:

"One-hot" codificación significa que representas la etiqueta "3) diente de león" usando un vector de 5 valores, todos ceros excepto el tercer valor, que es 1. Este vector representa una probabilidad del 100% de ser un diente de león. Nuestra red neuronal también genera sus predicciones como un vector de 5 valores de probabilidad. Son fáciles de comparar.

Descenso de gradientes

“Capacitación” La red neuronal en realidad significa usar imágenes y etiquetas de entrenamiento para ajustar los pesos y los sesgos con el fin de minimizar la función de pérdida de la entropía cruzada. Funciona de la siguiente manera.

La entropía cruzada es una función de pesos, sesgos, píxeles de la imagen de entrenamiento y su clase conocida.

Si calculamos las derivadas parciales de la entropía cruzada con respecto a todos los pesos y todos los sesgos, obtenemos un “gradiente”, calculado para una determinada imagen, etiqueta y valor actual de pesos y sesgos. Recuerda que podemos tener millones de pesos y sesgos, por lo que calcular el gradiente suena como mucho trabajo. Por suerte, TensorFlow lo hace por nosotros. La propiedad matemática de un gradiente es que apunta hacia arriba. Como queremos ir donde la entropía cruzada es baja, vamos en la dirección opuesta. Actualizamos los pesos y los sesgos por una fracción del gradiente. Luego hacemos lo mismo una y otra vez con los siguientes lotes de imágenes y etiquetas de entrenamiento, en un bucle de entrenamiento. Se espera que esto converja en un lugar donde la entropía cruzada sea mínima, aunque nada garantiza que este mínimo sea único.

“Tasa de aprendizaje”: No puedes actualizar tus pesos y sesgos por la longitud completa del gradiente en cada iteración. Sería como intentar llegar al fondo de un valle mientras usas botas de siete ligas. Estarías saltando de un lado del valle al otro. Para llegar al fondo, debes realizar pasos más pequeños, es decir, usar solo una fracción del gradiente, por lo general, en el rango de 1/1,000. Esta fracción se denomina “tasa de aprendizaje”.

Impulso y minilotes

Puedes calcular tu gradiente en una sola imagen de ejemplo y actualizar los pesos y sesgos de inmediato, pero hacerlo en un lote de, por ejemplo, 128 imágenes da como resultado un gradiente que representa mejor las restricciones impuestas por las diferentes imágenes de ejemplo y, por lo tanto, es probable que converja hacia la solución más rápido. El tamaño del minilote es un parámetro ajustable.

Esta técnica, a veces llamada "descenso de gradientes estocástico" tiene otra ventaja más pragmática: trabajar con lotes también significa trabajar con matrices más grandes y, por lo general, estas son más fáciles de optimizar en GPU y TPU.

Sin embargo, la convergencia puede ser un poco caótica y hasta puede detenerse si el vector de gradiente es solo ceros. ¿Eso significa que encontramos un mínimo? No en todos los casos. Un componente de gradiente puede ser cero en un mínimo o máximo. En un vector gradiente con millones de elementos, si todos son ceros, la probabilidad de que cada cero corresponda a un mínimo y ninguno de ellos a un punto máximo es bastante pequeña. En un espacio de muchas dimensiones, los puntos de montaje son bastante comunes y no queremos detenernos en ellos.

Ilustración: una silla de montar. El gradiente es 0, pero no es un mínimo en todas las direcciones. (Atribución de imagen Wikimedia: de Nicoguaro - trabajo propio, CC BY 3.0)

La solución es agregar algo de impulso al algoritmo de optimización para que pueda navegar más allá de la silla de montar sin detenerse.

La biblioteca de Tensorflow proporciona una amplia variedad de optimizadores, comenzando por tf.train.GradientDescentOptimizer. Los optimizadores más populares y avanzados que tienen un impulso integrado son tf.train.RMSPropOptimizer o tf.train.AdamOptimizer.

Glosario

lote o minilote: el entrenamiento siempre se realiza en lotes de datos de entrenamiento y etiquetas. Eso ayuda a que el algoritmo converja. El "lote" suele ser la primera de los tensores de datos. Por ejemplo, un tensor de forma [100, 192, 192, 3] contiene 100 imágenes de 192 x 192 píxeles con tres valores por píxel (RGB).

pérdida de entropía cruzada: Es una función de pérdida especial que se usa con frecuencia en los clasificadores.

Capa densa: Es una capa de neuronas en la que cada neurona está conectada a todas las neuronas en la capa anterior.

atributos: A veces, las entradas de una red neuronal se denominan "atributos". El arte de descubrir qué partes de un conjunto de datos (o combinaciones de partes) alimentar a una red neuronal para obtener buenas predicciones se denomina “ingeniería de atributos”.

labels: otro nombre para las "clases" o respuestas correctas en un problema de clasificación supervisado

tasa de aprendizaje: fracción del gradiente por la cual se actualizan los pesos y los sesgos en cada iteración del ciclo de entrenamiento

logits: las salidas de una capa de neuronas antes de que se aplique la función de activación se denominan “logits”. El término proviene de la "función logística" también conocida como la "función sigmoidea" que solía ser la función de activación más popular. "Resultados de neuronas antes de la función logística" se acortó a “logits”.

pérdida: la función de error que compara los resultados de la red neuronal con las respuestas correctas

neuron: Calcula la suma ponderada de sus entradas, agrega un sesgo y alimenta el resultado a través de una función de activación.

Codificación one-hot: La clase 3 de 5 se codifica como un vector de 5 elementos, todos ceros, excepto el tercero, que es 1.

relu: unidad lineal rectificada. Es una función de activación popular para las neuronas.

sigmoidea: Es otra función de activación que solía ser popular y que sigue siendo útil en casos especiales.

softmax: Es una función de activación especial que actúa sobre un vector, aumenta la diferencia entre el componente más grande y todos los demás, y también normaliza el vector para tener una suma de 1 de modo que pueda interpretarse como un vector de probabilidades. Se usa como el último paso en los clasificadores.

tensor: Un “tensor” es como una matriz, pero con un número arbitrario de dimensiones. Un tensor unidimensional es un vector. Un tensor de 2 dimensiones es una matriz. Y, luego, puedes tener tensores con 3, 4, 5 o más dimensiones.

5. [INFO] Redes neuronales convolucionales

En pocas palabras

Si ya conoces todos los términos en negrita del siguiente párrafo, puedes pasar al siguiente ejercicio. Si estás comenzando con redes neuronales convolucionales, continúa leyendo.

Ilustración: Filtrado de una imagen con dos filtros sucesivos compuestos por pesos aprendebles de 4x4x3=48 cada uno.

Las redes neuronales convolucionales aplican una serie de filtros programables a la imagen de entrada. Una capa convolucional se define por el tamaño del filtro (o kernel), la cantidad de filtros aplicados y el stride. La entrada y la salida de una capa convolucional tienen tres dimensiones (ancho, alto, cantidad de canales) y comienzan con la imagen de entrada (ancho, alto, canales RGB). Cuando se apilan capas convolucionales, el ancho y la altura de la salida se pueden ajustar con un stride >1 o con una operación de max-pooling. La profundidad de la salida (nb de canales) se ajusta con más o menos filtros.

Así es como se ve una red neuronal convolucional simple en Keras:

model = tf.keras.Sequential([ # input: images of size 192x192x3 pixels (the three stands for RGB channels) tf.keras.layers.Conv2D(kernel_size=3, filters=24, padding='same', activation='relu', input_shape=[192, 192, 3]), tf.keras.layers.Conv2D(kernel_size=3, filters=24, padding='same', activation='relu'), tf.keras.layers.MaxPooling2D(pool_size=2), tf.keras.layers.Conv2D(kernel_size=3, filters=12, padding='same', activation='relu'), tf.keras.layers.MaxPooling2D(pool_size=2), tf.keras.layers.Conv2D(kernel_size=3, filters=6, padding='same', activation='relu'), tf.keras.layers.Flatten(), # classifying into 5 categories tf.keras.layers.Dense(5, activation='softmax') ]) model.compile( optimizer='adam', loss= 'categorical_crossentropy', metrics=['accuracy'])

Introducción a las redes neuronales convolucionales

En una capa de una red convolucional, una "neurona" realiza una suma ponderada de los píxeles que se encuentran sobre ella, solo en una región pequeña de la imagen. Agrega un sesgo y alimenta la suma a través de una función de activación, al igual que lo haría una neurona en una capa densa regular. Esta operación se repite en toda la imagen con los mismos pesos. Recuerda que en las capas densas, cada neurona tenía sus propios pesos. Aquí, un solo "parche" de pesos se desliza por la imagen en ambas direcciones (una "convolución"). La salida tiene tantos valores como píxeles en la imagen (aunque se necesita algo de relleno en los bordes). Es una operación de filtrado que utiliza un filtro de pesos 4x4x3=48.

Sin embargo, 48 pesos no serán suficientes. Para agregar más grados de libertad, repetimos la misma operación con un nuevo conjunto de pesos. Esto produce un nuevo conjunto de resultados de filtro. Llamémosla un "canal". de salidas por analogía con los canales R, G y B en la imagen de entrada.

Los dos (o más) conjuntos de pesos se pueden sumar como un tensor agregando una dimensión nueva. Esto nos da la forma genérica del tensor de pesos de una capa convolucional. Dado que la cantidad de canales de entrada y salida son parámetros, podemos comenzar a apilar y encadenar capas convolucionales.

Ilustración: una red neuronal convolucional transforma "cubos" de datos en otros "cubos" de datos.

Convoluciones zancadas, reducción máxima

Si realizamos las convoluciones con un segmento de 2 o 3, también podemos reducir el cubo de datos resultante en sus dimensiones horizontales. Existen dos formas comunes de hacerlo:

Convolución de zancadas: un filtro que se desliza como el anterior, pero con un segmento superior a 1

Reducción máxima: una ventana deslizante que aplica la operación MAX (generalmente en parches de 2 x 2, que se repite cada 2 píxeles)

Ilustración: Deslizar la ventana de procesamiento 3 píxeles da como resultado menos valores de salida. Las convoluciones zancadas o la reducción máxima (máx. en una ventana de 2 × 2 con deslizamiento de 2 zancadas) son una forma de reducir el cubo de datos en las dimensiones horizontales.

"Max-pooling" pueden ayudarnos a entender de forma intuitiva cómo funcionan las redes convolucionales: si se supone que, durante el entrenamiento, los parches de pesos evolucionan en filtros que reconocen formas básicas (líneas horizontales y verticales, curvas, ...) entonces una forma de reducir la información útil es mantener a través de las capas los resultados donde se reconoció una forma con la máxima intensidad. En la práctica, en una capa de grupo máximo, las salidas de neuronas se procesan en grupos de 2 × 2 y solo se conserva el valor máximo.

Clasificador convolucional

Por último, adjuntamos un encabezado de clasificación aplanando el último cubo de datos y alimentándolo a través de una capa densa activada por softmax. Un clasificador convolucional típico puede verse de la siguiente manera:

Ilustración: un clasificador de imágenes que usa capas convolucionales y de softmax. Utiliza filtros de 3 × 3 y 1 × 1. Las capas maxpool toman el máximo de grupos de 2 x 2 datos. El cabezal de clasificación se implementa con una capa densa con activación de softmax.

En Keras

La pila convolucional ilustrada anteriormente se puede escribir en Keras de la siguiente manera:

model = tf.keras.Sequential([ # input: images of size 192x192x3 pixels (the three stands for RGB channels) tf.keras.layers.Conv2D(kernel_size=3, filters=32, padding='same', activation='relu', input_shape=[192, 192, 3]), tf.keras.layers.Conv2D(kernel_size=1, filters=32, padding='same', activation='relu'), tf.keras.layers.MaxPooling2D(pool_size=2), tf.keras.layers.Conv2D(kernel_size=3, filters=32, padding='same', activation='relu'), tf.keras.layers.Conv2D(kernel_size=1, filters=32, padding='same', activation='relu'), tf.keras.layers.MaxPooling2D(pool_size=2), tf.keras.layers.Conv2D(kernel_size=3, filters=32, padding='same', activation='relu'), tf.keras.layers.Conv2D(kernel_size=1, filters=32, padding='same', activation='relu'), tf.keras.layers.MaxPooling2D(pool_size=2), tf.keras.layers.Conv2D(kernel_size=3, filters=32, padding='same', activation='relu'), tf.keras.layers.Conv2D(kernel_size=1, filters=32, padding='same', activation='relu'), tf.keras.layers.MaxPooling2D(pool_size=2), tf.keras.layers.Conv2D(kernel_size=3, filters=16, padding='same', activation='relu'), tf.keras.layers.Conv2D(kernel_size=1, filters=8, padding='same', activation='relu'), tf.keras.layers.Flatten(), # classifying into 5 categories tf.keras.layers.Dense(5, activation='softmax') ]) model.compile( optimizer='adam', loss= 'categorical_crossentropy', metrics=['accuracy'])

El parámetro de relleno en capas convolucionales puede tener dos valores:

“same”: relleno con ceros para producir resultados del mismo ancho/alto que la entrada

"válido": Sin relleno, solo usa píxeles reales

6. [NEW INFO] Arquitecturas convolucionales modernas

En pocas palabras

Redes de convoluciones modernas que comienzan con " El origen" y " Inception v2", suele usar “módulos” donde se prueban diferentes capas convolucionales a la vez en la misma entrada, se concatenan sus salidas y la red decide, mediante el entrenamiento, qué capa fue la más útil.

Ilustración: un "módulo" convolucional ¿Qué es lo mejor en este punto? ¿Una capa de grupo máximo seguida de una capa convolucional de 1 x 1 o una combinación diferente de capas? Pruébalos todos, concatena los resultados y deja que la red decida. A la derecha: " inception arquitectura convolucional que usa esos módulos.

En Keras, para crear modelos en los que el flujo de datos pueda ramificarse hacia adentro y afuera, debes usar el modelo “funcional” y el estilo del modelo. A continuación, se muestra un ejemplo:

l = tf.keras.layers # syntax shortcut y = l.Conv2D(filters=32, kernel_size=3, padding='same', activation='relu', input_shape=[192, 192, 3])(x) # x=input image # module start: branch out y1 = l.Conv2D(filters=32, kernel_size=1, padding='same', activation='relu')(y) y3 = l.Conv2D(filters=32, kernel_size=3, padding='same', activation='relu')(y) y = l.concatenate([y1, y3]) # output now has 64 channels # module end: concatenation # many more layers ... # Create the model by specifying the input and output tensors. # Keras layers track their connections automatically so that's all that's needed. z = l.Dense(5, activation='softmax')(y) model = tf.keras.Model(x, z)

Otros trucos económicos

Filtros pequeños de 3 × 3

En esta ilustración, puedes ver el resultado de dos filtros 3x3 consecutivos. Intenta rastrear qué datos contribuyeron al resultado: estos dos filtros consecutivos de 3×3 calculan alguna combinación de una región de 5×5. No es exactamente la misma combinación que calcularía un filtro de 5 × 5, pero vale la pena intentarlo porque dos filtros de 3 × 3 consecutivos son más económicos que un solo filtro de 5 × 5.

¿Convoluciones de 1 × 1?

En términos matemáticos, un número "1x1" la convolución es una multiplicación por una constante, no un concepto muy útil. Sin embargo, en las redes neuronales convolucionales, recuerda que el filtro se aplica a un cubo de datos, no solo a una imagen 2D. Por lo tanto, el error "1x1" el filtro calcula una suma ponderada de una columna de datos 1x1 (ver la ilustración) y a medida que la deslizas por los datos, obtienes una combinación lineal de los canales de la entrada. Esto es realmente útil. Si consideras los canales como el resultado de operaciones de filtrado individuales, por ejemplo, un filtro para "orejas puntiagudas" y otro para "bigotes" y una tercera para "ojos iluminados" luego, "1x1" la capa convolucional calculará múltiples combinaciones lineales posibles de estas funciones, lo que podría ser útil cuando se busca un "gato". Además de eso, las capas de 1 x 1 usan menos pesos.

7. Apretón de manos

Una forma sencilla de reunir estas ideas se mostró en la sección "Squeezenet" papel. Los autores sugieren un diseño de módulos convolucionales muy simple, que usa solo capas convolucionales de 1x1 y 3x3.

Ilustración: Arquitectura de squeezenet basada en "módulos de fuego". Alternan una capa de 1 x 1 que "apriete" los datos entrantes en la dimensión vertical seguidos de dos capas convolucionales paralelas de 1 x 1 y 3 x 3 que se "expanden" la profundidad de los datos nuevamente.

Actividad práctica

Continúa en tu notebook anterior y compila una red neuronal convolucional inspirada en Squeezenet. Deberás cambiar el código del modelo al “estilo funcional” de Keras.

Keras_Flowers_TPU (playground).ipynb

Información adicional

En estas capacitaciones, aumenta la cantidad de EPOCH a 35.

En este ejercicio, te resultará útil definir una función auxiliar para un módulo squeezenet:

def fire(x, squeeze, expand): y = l.Conv2D(filters=squeeze, kernel_size=1, padding='same', activation='relu')(x) y1 = l.Conv2D(filters=expand//2, kernel_size=1, padding='same', activation='relu')(y) y3 = l.Conv2D(filters=expand//2, kernel_size=3, padding='same', activation='relu')(y) return tf.keras.layers.concatenate([y1, y3]) # this is to make it behave similarly to other Keras layers def fire_module(squeeze, expand): return lambda x: fire(x, squeeze, expand) # usage: x = l.Input(shape=[192, 192, 3]) y = fire_module(squeeze=24, expand=48)(x) # typically, squeeze is less than expand y = fire_module(squeeze=32, expand=64)(y) ... model = tf.keras.Model(x, y)

Esta vez, el objetivo es lograr una exactitud del 80%.

Qué puedes probar

Comienza con una sola capa convolucional, luego continúa con "fire_modules" y cambia con MaxPooling2D(pool_size=2) capas. Puedes experimentar con 2 a 4 capas de reducción máxima en la red y también con 1, 2 o 3 módulos de activación consecutivos entre el máximo de capas de reducción.

En los módulos de fuego, el comando "squeeze" parámetro de configuración suele ser más pequeño que el parámetro. En realidad, estos parámetros son cantidades de filtros. Por lo general, pueden ser de entre 8 y 196. Puedes experimentar con arquitecturas en las que la cantidad de filtros aumente gradualmente a través de la red o arquitecturas sencillas en las que todos los módulos activados tengan la misma cantidad de filtros.

A continuación, se muestra un ejemplo:

x = tf.keras.layers.Input(shape=[*IMAGE_SIZE, 3]) # input is 192x192 pixels RGB y = tf.keras.layers.Conv2D(kernel_size=3, filters=32, padding='same', activation='relu')(x) y = fire_module(24, 48)(y) y = tf.keras.layers.MaxPooling2D(pool_size=2)(y) y = fire_module(24, 48)(y) y = tf.keras.layers.MaxPooling2D(pool_size=2)(y) y = fire_module(24, 48)(y) y = tf.keras.layers.GlobalAveragePooling2D()(y) y = tf.keras.layers.Dense(5, activation='softmax')(y) model = tf.keras.Model(x, y)

En este punto, es posible que notes que tus experimentos no van tan bien y que el objetivo de precisión del 80% parece remoto. Es hora de un par de trucos económicos más.

Normalización por lotes

La norma por lotes ayudará con los problemas de convergencia que experimentas. Habrá explicaciones detalladas sobre esta técnica en el próximo taller. Por ahora, úsala como una caja negra "mágica". auxiliar agregando esta línea después de cada capa convolucional en tu red, incluidas las capas dentro de la función fire_module:

y = tf.keras.layers.BatchNormalization(momentum=0.9)(y) # please adapt the input and output "y"s to whatever is appropriate in your context

El parámetro de momentum se debe disminuir de su valor predeterminado de 0.99 a 0.9 porque nuestro conjunto de datos es pequeño. Por ahora, no importa este detalle.

magnificación de datos

Obtendrás un par de puntos porcentuales más si aumentas los datos con transformaciones sencillas, como giros de izquierda a derecha de los cambios de saturación:

Esto es muy fácil de hacer en TensorFlow con la API de tf.data.Dataset. Define una nueva función de transformación para tus datos:

def data_augment(image, label): image = tf.image.random_flip_left_right(image) image = tf.image.random_saturation(image, lower=0, upper=2) return image, label

Luego, utilízalo en tu transformación de datos final (celda “Conjuntos de datos de entrenamiento y validación”, función “get_batched_dataset”):

dataset = dataset.repeat() # existing line # insert this if augment_data: dataset = dataset.map(data_augment, num_parallel_calls=AUTO) dataset = dataset.shuffle(2048) # existing line

No olvides hacer que la magnificación de datos sea opcional y agregar el código necesario para asegurarte de que solo se aumente el conjunto de datos de entrenamiento. No tiene sentido aumentar el conjunto de datos de validación.

Una precisión del 80% en 35 ciclos de entrenamiento ahora debería estar al alcance.

Solución

Este es el notebook de la solución. Puedes usarla si no puedes avanzar.

Keras_Flowers_TPU_squeezenet.ipynb

Temas abordados

🤔 El “estilo funcional” de Keras personalizados.

🤓 Arquitectura Squeezenet

🤓 Magnificación de datos con tf.data.datset

Tómate un momento para revisar esta lista de verificación en tu cabeza.

8. Xception se ajustó

Convoluciones separables

Recientemente, había cobrado popularidad una forma diferente de implementar capas convolucionales: las convoluciones que se pueden separar en profundidad. Lo sé, es un trago, pero el concepto es bastante simple. Se implementan en TensorFlow y Keras como tf.keras.layers.SeparableConv2D.

Una convolución separable también ejecuta un filtro en la imagen, pero usa un conjunto distinto de pesos para cada canal de la imagen de entrada. Le sigue con una "convolución 1 x 1", una serie de productos escalar que da como resultado una suma ponderada de los canales filtrados. Con nuevos pesos cada vez, tantas recombinaciones ponderadas de los canales se calculan según sea necesario.

Ilustración: Convoluciones separables. Fase 1: Convoluciones con un filtro independiente para cada canal. Fase 2: Recombinaciones lineales de canales Se repite con un nuevo conjunto de pesos hasta que se alcanza la cantidad deseada de canales de salida. La fase 1 también se puede repetir, con pesos nuevos cada vez, pero en la práctica rara vez es así.

Las convoluciones separables se usan en las arquitecturas de redes convolucionales más recientes: MobileNetV2, Xception y EfficientNet, Por cierto, MobileNetV2 es lo que usaste anteriormente para el aprendizaje por transferencia.

Son más baratas que las convoluciones regulares y se ha demostrado que son igualmente eficaces en la práctica. A continuación, se muestra el conteo de peso del ejemplo ilustrado anteriormente:

Capa convolucional: 4 x 4 x 3 x 5 = 240

Capa convolucional separable: 4 x 4 x 3 + 3 x 5 = 48 + 15 = 63

Se deja como un ejercicio para que el lector calcule el número de multiplicaciones necesarias para aplicar cada estilo de escalas de capas convolucionales de manera similar. Las convoluciones separables son más pequeñas y mucho más efectivas en términos de procesamiento.

Actividad práctica

Reinicia desde el “aprendizaje por transferencia” notebook de Playground, pero esta vez selecciona Xception como modelo previamente entrenado. Xception solo usa convoluciones separables. Deja todos los pesos entrenables. Ajustaremos las ponderaciones previamente entrenadas de nuestros datos en lugar de usar las capas previamente entrenadas como tales.

Keras Flowers transfer learning (playground).ipynb

Objetivo: Precisión > 95% (No, en serio, es posible)

Este es el ejercicio final, requiere un poco más de código y trabajo en ciencia de datos.

Información adicional sobre el ajuste

Xception está disponible en los modelos estándar previamente entrenados en tf.keras.application.* No olvides dejar todos los pesos entrenables esta vez.

pretrained_model = tf.keras.applications.Xception(input_shape=[*IMAGE_SIZE, 3], include_top=False) pretrained_model.trainable = True

Para obtener buenos resultados cuando ajustas un modelo, debes prestar atención a la tasa de aprendizaje y usar un programa de tasa de aprendizaje con un período de adaptación. Para ello, puedes escribir lo siguiente:

Comenzar con una tasa de aprendizaje estándar interrumpiría las ponderaciones previamente entrenadas del modelo. Iniciarlos de forma progresiva hasta que el modelo se haya unido a tus datos pueda modificarlos de forma razonable. Después de la rampa, puedes continuar con una tasa de aprendizaje constante o una que decaiga exponencialmente.

En Keras, la tasa de aprendizaje se especifica con una devolución de llamada en la que puedes calcular la tasa de aprendizaje adecuada para cada ciclo de entrenamiento. Keras pasará la tasa de aprendizaje correcta al optimizador para cada ciclo de entrenamiento.

def lr_fn(epoch): lr = ... return lr lr_callback = tf.keras.callbacks.LearningRateScheduler(lr_fn, verbose=True) model.fit(..., callbacks=[lr_callback])

Solución

Este es el notebook de la solución. Puedes usarla si no puedes avanzar.

07_Keras_Flowers_TPU_xception_fine_tuned_best.ipynb

Temas abordados

🤔 Convolución separable de profundidad

🤓 Programas de tasa de aprendizaje

{8/} Optimizar un modelo previamente entrenado

Tómate un momento para revisar esta lista de verificación en tu cabeza.

9. ¡Felicitaciones!

Creaste tu primera red neuronal convolucional moderna y la entrenaste con una exactitud del 90%, iterando en un entrenamiento sucesivo en solo minutos gracias a las TPU. Aquí concluye los 4 “codelabs de Keras en TPU”:

Canalizaciones de datos con velocidades de TPU: tf.data.Dataset y TFRecords

Tu primer modelo de Keras con aprendizaje por transferencia

Redes neuronales convolucionales, con Keras y TPU

[ESTE LAB] Convnets modernos, squeezenet, Xception, con Keras y TPU

TPU en la práctica

Las TPU y las GPU están disponibles en AI Platform de Cloud:

En VMs de aprendizaje profundo

En AI Platform Notebooks

En trabajos de AI Platform Training

Por último, nos encanta recibir comentarios. Infórmanos si notas algún error en este lab o si crees que deberíamos mejorar. Se pueden proporcionar comentarios a través de los problemas de GitHub [feedback link].

El autor: Martin Görner
Twitter: @martin_gorner

www.tensorflow.org