Réseaux convnets modernes, Squeezenet et Xception, avec Keras et des TPU

1. Présentation

Dans cet atelier, vous allez découvrir l'architecture convolutive moderne et utiliser vos connaissances pour implémenter un convnet simple mais efficace appelé "squeezenet".

Cet atelier comprend les explications théoriques nécessaires concernant les réseaux de neurones convolutifs. Il constitue un bon point de départ pour les développeurs qui se familiarisent avec le deep learning.

Cet atelier constitue la quatrième partie de la série "Keras sur TPU". Vous pouvez les effectuer dans l'ordre suivant ou indépendamment.

ca8cc21f6838eccc.png

Points abordés

  • Maîtriser le style fonctionnel Keras
  • Créer un modèle à l'aide de l'architecture SqueezeNet
  • Utiliser des TPU pour entraîner rapidement votre architecture et itérer dessus
  • Implémenter l'augmentation des données avec tf.data.dataset
  • Affiner un grand modèle pré-entraîné (Xception) sur TPU

Commentaires

Si vous remarquez quelque chose d'anormal dans cet atelier de programmation, veuillez nous en informer. Vous pouvez nous faire part de vos commentaires via GitHub [lien de commentaires].

2. Guide de démarrage rapide de Google Colaboratory

Cet atelier utilise Google Colaboratory et ne nécessite aucune configuration de votre part. Colaboratory est une plate-forme de notebook en ligne à des fins pédagogiques. Il propose un entraînement sans frais sur les processeurs, les GPU et les TPU.

688858c21e3beff2.png

Vous pouvez ouvrir cet exemple de notebook et exécuter quelques cellules pour vous familiariser avec Colaboratory.

c3df49e90e5a654f.png Welcome to Colab.ipynb

Sélectionner un backend TPU

8832c6208c99687d.png

Dans le menu Colab, sélectionnez Environnement d'exécution > Modifier le type d'exécution, puis sélectionnez "TPU". Dans cet atelier de programmation, vous allez utiliser un TPU (Tensor Processing Unit) puissant compatible avec l'entraînement accéléré par matériel. La connexion à l'environnement d'exécution se fera automatiquement lors de la première exécution. Vous pouvez également utiliser le bouton "Connecter" en haut à droite.

Exécution du notebook

76d05caa8b4db6da.png

Exécutez les cellules une par une en cliquant sur une cellule et en appuyant sur Maj+Entrée. Vous pouvez également exécuter l'intégralité du notebook avec Runtime > Run all (Environnement d'exécution > Exécuter tout).

Sommaire

429f106990037ec4.png

Tous les notebooks comportent une table des matières. Vous pouvez l'ouvrir à l'aide de la flèche noire située à gauche.

Cellules masquées

edc3dba45d26f12a.png

Certaines cellules n'affichent que leur titre. Il s'agit d'une fonctionnalité de notebook propre à Colab. Vous pouvez double-cliquer dessus pour voir le code à l'intérieur, mais ce n'est généralement pas très intéressant. Elles sont généralement compatibles avec les fonctions de visualisation ou de compatibilité. Vous devez quand même exécuter ces cellules pour que les fonctions qu'elles contiennent soient définies.

Authentification

cdd4b41413100543.png

Colab peut accéder à vos buckets Google Cloud Storage privés à condition que vous vous authentifiiez avec un compte autorisé. L'extrait de code ci-dessus déclenche un processus d'authentification.

3. [INFO] Que sont les Tensor Processing Units (TPU) ?

En résumé

f88cf6facfc70166.png

Code permettant d'entraîner un modèle sur un TPU dans Keras (et de passer au GPU ou au CPU si un TPU n'est pas disponible) :

try: # detect TPUs
    tpu = tf.distribute.cluster_resolver.TPUClusterResolver.connect()
    strategy = tf.distribute.TPUStrategy(tpu)
except ValueError: # detect GPUs
    strategy = tf.distribute.MirroredStrategy() # for CPU/GPU or multi-GPU machines

# use TPUStrategy scope to define model
with strategy.scope():
  model = tf.keras.Sequential( ... )
  model.compile( ... )

# train model normally on a tf.data.Dataset
model.fit(training_dataset, epochs=EPOCHS, steps_per_epoch=...)

Aujourd'hui, nous allons utiliser des TPU pour créer et optimiser un classificateur de fleurs à des vitesses interactives (minutes par session d'entraînement).

688858c21e3beff2.png

Pourquoi utiliser des TPU ?

Les GPU modernes sont organisés autour de "noyaux" programmables, une architecture très flexible qui leur permet de gérer diverses tâches telles que le rendu 3D, le deep learning, les simulations physiques, etc. À l'inverse, les TPU associent un processeur vectoriel classique à une unité de multiplication matricielle dédiée et excellent dans toute tâche où de grandes multiplications de matrices dominent, comme les réseaux de neurones.

8eb3e718b8e2ed08.png

Illustration: couche de réseau de neurones dense sous forme de multiplication matricielle, avec un lot de huit images traitées simultanément via le réseau de neurones. Veuillez effectuer une multiplication sur une ligne par colonne pour vérifier qu'il s'agit bien d'une somme pondérée de toutes les valeurs en pixels d'une image. Les couches convolutives peuvent également être représentées sous forme de multiplications matricielles, bien que ce soit un peu plus compliqué (explication ici, dans la section 1).

Matériel

MXU et VPU

Un cœur TPU v2 se compose d'une unité de multiplication de matrices (MXU) qui exécute des multiplications de matrices et d'une unité de traitement vectoriel (VPU) pour toutes les autres tâches telles que les activations, les softmax, etc. La VPU gère les calculs float32 et int32. En revanche, l'unité matricielle fonctionne dans un format à virgule flottante 16 à 32 bits à précision mixte.

7d68944718f76b18.png

Valeurs à virgule flottante de précision mixte et bfloat16

L'unité matricielle calcule les multiplications matricielles à l'aide des entrées bfloat16 et des sorties float32. Les accumulations intermédiaires sont effectuées avec une précision de type float32.

19c5fc432840c714.png

L'entraînement des réseaux de neurones est généralement résistant au bruit introduit par une précision réduite à virgule flottante. Dans certains cas, le bruit aide même l'optimiseur à converger. La précision à virgule flottante 16 bits est traditionnellement utilisée pour accélérer les calculs, mais les formats float16 et float32 ont des plages très différentes. Réduire la précision de float32 à float16 entraîne généralement des dépassements et des sous-dépassements. Des solutions existent, mais un travail supplémentaire est généralement nécessaire pour faire fonctionner float16.

C'est pourquoi Google a introduit le format bfloat16 dans les TPU. bfloat16 est une valeur float32 tronquée avec exactement les mêmes bits d'exposant et la même plage que float32. En plus du fait que les TPU calculent les multiplications matricielles en précision mixte avec des entrées bfloat16 mais en sorties float32, aucune modification du code n'est généralement nécessaire pour bénéficier des gains de performances liés à une précision réduite.

Tableau systolique

L'unité matricielle implémente les multiplications matricielles dans le matériel à l'aide d'une architecture dite "tableau systolique" dans laquelle les éléments de données circulent à travers un tableau d'unités de calcul matérielles. (En médecine, le terme « systolique » fait référence aux contractions cardiaques et au flux sanguin, ici au flux de données.)

L'élément de base d'une multiplication matricielle est un produit scalaire entre une ligne d'une matrice et une colonne de l'autre matrice (voir l'illustration en haut de cette section). Pour une multiplication matricielle Y=X*W, un élément du résultat serait :

Y[2,0] = X[2,0]*W[0,0] + X[2,1]*W[1,0] + X[2,2]*W[2,0] + ... + X[2,n]*W[n,0]

Sur un GPU, on programme ce produit scalaire dans un "cœur" de GPU, puis on l'exécute en parallèle sur autant de "cœurs" que possible pour essayer de calculer toutes les valeurs de la matrice résultante en même temps. Si la matrice obtenue a une taille de 128 x 128, il faudrait disposer de 128 x 128=16 000 cœurs pour être disponible, ce qui n'est généralement pas possible. Les GPU les plus grands comptent environ 4 000 cœurs. En revanche, un TPU utilise le strict minimum de matériel pour les unités de calcul de l'unité matricielle: seulement bfloat16 x bfloat16 => float32 accumulateurs de multiplication, rien d'autre. Elles sont si petites qu'un TPU peut en implémenter 16 000 dans une unité MXU 128 x 128 et traiter cette multiplication matricielle en une seule fois.

f1b283fc45966717.gif

Illustration : tableau systolique de l'unité matricielle. Les éléments de calcul sont des multiplicateurs-accumulateurs. Les valeurs d'une matrice sont chargées dans le tableau (points rouges). Les valeurs de l'autre matrice traversent le tableau (points gris). Les lignes verticales propagent les valeurs vers le haut. Les lignes horizontales propagent les sommes partielles. Il est laissé à l'utilisateur de vérifier que, lorsque les données traversent le tableau, le résultat de la multiplication matricielle sort du côté droit.

De plus, pendant que les produits scalaires sont calculés dans une unité matricielle, les sommes intermédiaires circulent simplement entre les unités de calcul adjacentes. Ils n'ont pas besoin d'être stockés et récupérés vers/depuis la mémoire ou même un fichier d'enregistrement. Au final, l'architecture de tableau systolique des TPU présente un avantage significatif en termes de densité et de puissance, ainsi qu'un avantage non négligeable en termes de vitesse par rapport à un GPU lors du calcul des multiplications matricielles.

Cloud TPU

Lorsque vous demandez un Cloud TPU v2 sur Google Cloud Platform, vous obtenez une machine virtuelle (VM) équipée d'une carte TPU connectée via PCI. La carte TPU comporte quatre puces TPU à deux cœurs. Chaque cœur de TPU comprend une unité vectorielle (VPU) et une unité matricielle (MXU) de 128 x 128. Ce "Cloud TPU" est ensuite généralement connecté via le réseau à la VM qui l'a demandé. Voici à quoi ressemble l'image complète :

dfce5522ed644ece.png

Illustration: votre VM avec un accélérateur "Cloud TPU" en réseau. "The Cloud TPU" est lui-même composé d'une VM avec une carte TPU PCI et quatre puces TPU à deux cœurs.

Pods TPU

Dans les centres de données de Google, les TPU sont connectés à une interconnexion de calcul hautes performances (HPC, High Performance Computing), ce qui peut les faire apparaître comme un très grand accélérateur. Google les appelle des pods. Ils peuvent comporter jusqu'à 512 cœurs de TPU v2 ou 2 048 cœurs de TPU v3.

2ec1e0d341e7fc34.jpeg

Illustration: un pod TPU v3. Cartes et racks TPU connectés via une interconnexion HPC.

Pendant l'entraînement, les gradients sont échangés entre les cœurs de TPU à l'aide de l'algorithme all-reduce ( une bonne explication ici). Le modèle en cours d'entraînement peut tirer parti du matériel en s'entraînant sur des lots de grande taille.

d97b9cc5d40fdb1d.gif

Illustration : synchronisation des gradients pendant l'entraînement à l'aide de l'algorithme all-reduce sur le réseau HPC à maillage toroïdal 2D du TPU de Google.

Logiciel

Formation avec de grands lots

La taille de lot idéale pour les TPU est de 128 éléments de données par cœur de TPU, mais le matériel peut déjà afficher une bonne utilisation à partir de 8 éléments de données par cœur de TPU. Rappelez-vous qu'un Cloud TPU possède huit cœurs.

Dans cet atelier de programmation, nous allons utiliser l'API Keras. Dans Keras, le lot que vous spécifiez correspond à la taille de lot globale pour l'ensemble du TPU. Vos lots seront automatiquement divisés en huit et exécutés sur les huit cœurs du TPU.

da534407825f01e3.png

Pour obtenir d'autres conseils sur les performances, consultez le guide des performances des TPU. Pour les très grands lots, une attention particulière peut être nécessaire dans certains modèles. Pour en savoir plus, consultez LARSOptimizer.

En arrière-plan : XLA

Les programmes TensorFlow définissent des graphes de calcul. Le TPU n'exécute pas directement du code Python, mais le graphe de calcul défini par votre programme TensorFlow. En arrière-plan, un compilateur appelé XLA (Acceleated Linear Algebra compiler) transforme le graphe TensorFlow des nœuds de calcul en code de machine TPU. Ce compilateur effectue également de nombreuses optimisations avancées sur votre code et la disposition de votre mémoire. La compilation se produit automatiquement lorsque le travail est envoyé au TPU. Vous n'avez pas besoin d'inclure explicitement XLA dans votre chaîne de compilation.

edce61112cd57972.png

Illustration: Pour s'exécuter sur TPU, le graphe de calcul défini par votre programme TensorFlow est d'abord traduit en représentation XLA (acceleated Linear Algebra compiler), puis compilé par XLA en code machine TPU.

Utiliser des TPU dans Keras

Les TPU sont compatibles avec l'API Keras à partir de TensorFlow 2.1. La compatibilité avec Keras fonctionne sur les TPU et les pods TPU. Voici un exemple qui fonctionne sur les TPU, les GPU et les processeurs :

try: # detect TPUs
    tpu = tf.distribute.cluster_resolver.TPUClusterResolver.connect()
    strategy = tf.distribute.TPUStrategy(tpu)
except ValueError: # detect GPUs
    strategy = tf.distribute.MirroredStrategy() # for CPU/GPU or multi-GPU machines

# use TPUStrategy scope to define model
with strategy.scope():
  model = tf.keras.Sequential( ... )
  model.compile( ... )

# train model normally on a tf.data.Dataset
model.fit(training_dataset, epochs=EPOCHS, steps_per_epoch=...)

Dans cet extrait de code :

  • TPUClusterResolver().connect() trouve le TPU sur le réseau. Elle fonctionne sans paramètres sur la plupart des systèmes Google Cloud (tâches AI Platform, Colaboratory, Kubeflow, VM de deep learning créées via l'utilitaire "gsutil up"). Ces systèmes savent où se trouve leur TPU grâce à une variable d'environnement TPU_NAME. Si vous créez un TPU manuellement, définissez la variable d'environnement TPU_NAME sur la VM à partir de laquelle vous l'utilisez ou appelez TPUClusterResolver avec des paramètres explicites: TPUClusterResolver(tp_uname, zone, project)
  • TPUStrategy est la partie qui implémente l'algorithme de synchronisation de gradient "all-reduce" ;
  • La stratégie est appliquée via un champ d'application. Le modèle doit être défini dans le champ d'application de la stratégie (scope()).
  • La fonction tpu_model.fit attend un objet tf.data.Dataset en entrée pour l'entraînement TPU.

Tâches de port TPU courantes

  • Bien qu'il existe de nombreuses façons de charger des données dans un modèle TensorFlow, pour les TPU, l'utilisation de l'API tf.data.Dataset est requise.
  • Les TPU sont très rapides et l'ingestion de données devient souvent le goulot d'étranglement lors de leur exécution. Vous trouverez des outils permettant de détecter les goulots d'étranglement des données et d'autres conseils de performances dans le guide des performances des TPU.
  • Les nombres int8 ou int16 sont traités comme des int32. Le TPU n'a pas de matériel entier fonctionnant sur moins de 32 bits.
  • Certaines opérations TensorFlow ne sont pas compatibles. Cliquez ici pour consulter la liste. La bonne nouvelle est que cette limitation ne s'applique qu'au code d'entraînement, c'est-à-dire à la propagation avant et arrière de votre modèle. Vous pouvez toujours utiliser toutes les opérations TensorFlow dans votre pipeline d'entrée de données, car il sera exécuté sur le processeur.
  • tf.py_func n'est pas compatible avec TPU.

4. [INFO] Présentation des classificateurs de réseaux de neurones

En résumé

Si vous connaissez déjà tous les termes en gras du paragraphe suivant, vous pouvez passer à l'exercice suivant. Si vous débutez dans le deep learning, bienvenue. Veuillez poursuivre la lecture.

Pour les modèles créés sous la forme d'une séquence de couches, Keras propose l'API Sequential. Par exemple, un classificateur d'images utilisant trois couches denses peut être écrit en Keras comme suit:

model = tf.keras.Sequential([
    tf.keras.layers.Flatten(input_shape=[192, 192, 3]),
    tf.keras.layers.Dense(500, activation="relu"),
    tf.keras.layers.Dense(50, activation="relu"),
    tf.keras.layers.Dense(5, activation='softmax') # classifying into 5 classes
])

# this configures the training of the model. Keras calls it "compiling" the model.
model.compile(
  optimizer='adam',
  loss= 'categorical_crossentropy',
  metrics=['accuracy']) # % of correct answers

# train the model
model.fit(dataset, ... )

688858c21e3beff2.png

Réseau de neurones dense

Il s'agit du réseau de neurones le plus simple pour la classification des images. Elle est constituée de "neurones" disposés en couches. La première couche traite les données d'entrée et transmet ses sorties à d'autres couches. Elle est qualifiée de "dense", car chaque neurone est connecté à tous les neurones de la couche précédente.

c21bae6dade487bc.png

Vous pouvez alimenter un tel réseau en aplatissant les valeurs RVB de tous ses pixels dans un vecteur long et en les utilisant comme entrées. Ce n'est pas la meilleure technique pour la reconnaissance d'images, mais nous l'améliorerons plus tard.

Neurones, activations, ReLU

Un "neurone" calcule une somme pondérée de toutes ses entrées, ajoute une valeur appelée "biais" et alimente le résultat via une "fonction d'activation". Dans un premier temps, les pondérations et les biais sont inconnus. Elles seront initialisées de manière aléatoire et "apprises" en entraînant le réseau de neurones sur de nombreuses données connues.

644f4213a4ee70e5.png

La fonction d'activation la plus populaire est appelée RELU, ou unité de rectification linéaire. Comme vous pouvez le voir sur le graphique ci-dessus, il s'agit d'une fonction très simple.

Activation Softmax

Le réseau ci-dessus se termine par une couche à cinq neurones, car nous classons les fleurs en cinq catégories (rose, tulipe, pissenlit, marguerite, tournesol). Les neurones des couches intermédiaires sont activés à l'aide de la fonction d'activation RELU classique. Dans la dernière couche, nous voulons cependant calculer des nombres compris entre 0 et 1 représentant la probabilité que cette fleur soit une rose, une tulipe, etc. Pour cela, nous allons utiliser une fonction d'activation appelée "softmax".

Pour appliquer la fonction softmax à un vecteur, vous devez prendre l'exponentielle de chaque élément, puis normaliser le vecteur, généralement à l'aide de la norme L1 (somme des valeurs absolues) afin que les valeurs totalisent 1 et puissent être interprétées comme des probabilités.

ef0d98c0952c262d.png d51252f75894479e.gif

Perte d'entropie croisée

Maintenant que notre réseau de neurones produit des prédictions à partir des images d'entrée, nous devons mesurer leur qualité, c'est-à-dire la distance entre ce que le réseau nous dit et les bonnes réponses, souvent appelées "libellés". N'oubliez pas que nous disposons d'étiquettes correctes pour toutes les images de l'ensemble de données.

N'importe quelle distance conviendrait, mais pour les problèmes de classification, la "distance d'entropie croisée" est la plus efficace. Nous l'appellerons notre fonction d'erreur ou "perte" :

7bdf8753d20617fb.png

Descente de gradient

"Entraîner" le réseau de neurones consiste en fait à utiliser des images et des étiquettes d'entraînement pour ajuster les pondérations et les biais afin de minimiser la fonction de perte d'entropie croisée. Voici comment cela fonctionne.

L'entropie croisée est une fonction des pondérations, des biais, des pixels de l'image d'entraînement et de sa classe connue.

Si nous calculons les dérivées partielles de l'entropie croisée par rapport à l'ensemble des pondérations et des biais, nous obtenons un "gradient" calculé pour une image, une étiquette et une valeur actuelle donnée de pondérations et de biais. N'oubliez pas que nous pouvons avoir des millions de poids et de biais. Le calcul du gradient semble donc être une tâche ardue. Heureusement, Tensorflow s'en charge pour nous. La propriété mathématique d'un dégradé est qu'il pointe "vers le haut". Puisque nous voulons aller là où l'entropie croisée est faible, nous allons dans la direction opposée. Nous mettons à jour les pondérations et les biais selon une fraction du gradient. Ensuite, nous faisons la même chose encore et encore en utilisant les lots suivants d'images et d'étiquettes d'entraînement dans une boucle d'entraînement. Espérons que cela aboutit à un point où l'entropie croisée est minimale, bien que rien ne garantit que ce minimum soit unique.

gradient descent2.png

Mini-lot et momentum

Vous pouvez calculer votre gradient à partir d'un exemple d'image et mettre immédiatement à jour les pondérations et les biais. Toutefois, avec un lot de 128 images, par exemple, vous obtenez un gradient qui représente mieux les contraintes imposées par différentes images d'exemple. Il est donc susceptible de converger plus rapidement vers la solution. La taille du mini-lot est un paramètre ajustable.

Cette technique, parfois appelée "descente de gradient stochastique", présente un autre avantage plus pragmatique: travailler avec des lots implique également de travailler avec des matrices plus grandes, qui sont généralement plus faciles à optimiser sur les GPU et les TPU.

La convergence peut encore être un peu chaotique et peut même s'arrêter si le vecteur de gradient n'est que des zéros. Cela signifie-t-il que nous avons trouvé un minimum ? Non. Un composant de dégradé peut avoir une valeur minimale ou maximale égale à zéro. Avec un vecteur de gradient contenant des millions d'éléments, si tous sont des zéros, la probabilité que chaque zéro corresponde à un minimum et qu'aucun ne corresponde à un point maximal est assez faible. Dans un espace comportant de nombreuses dimensions, les points d'arrêt sont assez courants et nous ne voulons pas nous en arrêter là.

52e824fe4716c4a0.png

Illustration : point de selle. Le gradient est de 0, mais il ne s'agit pas d'un minimum dans toutes les directions. (Attribution de l'image Wikimedia: By Nicoguaro - Own work, CC BY 3.0)

La solution consiste à donner une dynamique à l'algorithme d'optimisation afin qu'il puisse passer en selle sans s'arrêter.

Glossaire

lot ou mini-lot: l'entraînement est toujours effectué sur des lots de données d'entraînement et d'étiquettes. Cela contribue à la convergence de l'algorithme. La dimension "lot" est généralement la première dimension des tenseurs de données. Par exemple, un Tensor de forme [100, 192, 192, 3] contient 100 images de 192 x 192 pixels avec trois valeurs par pixel (RVB).

perte d'entropie croisée: fonction de perte spéciale, souvent utilisée dans les classificateurs.

couche dense: couche de neurones où chaque neurone est connecté à tous les neurones de la couche précédente.

caractéristiques : les entrées d'un réseau de neurones sont parfois appelées "caractéristiques". L'art de déterminer quelles parties d'un ensemble de données (ou combinaisons de parties) doivent être transmises à un réseau de neurones pour obtenir de bonnes prédictions s'appelle l'ingénierie des caractéristiques.

labels: autre nom pour les "classes" ou réponses correctes concernant un problème de classification supervisée

Taux d'apprentissage: fraction du gradient par laquelle les pondérations et les biais sont mis à jour à chaque itération de la boucle d'entraînement.

Logits : les sorties d'une couche de neurones avant l'application de la fonction d'activation sont appelées "logits". Ce terme vient de "fonction logistique" ou "fonction sigmoïde" qui était autrefois la fonction d'activation la plus populaire. "Sorties des neurones avant la fonction logistique" a été raccourci en "logits".

perte : fonction d'erreur qui compare les sorties du réseau de neurones aux bonnes réponses

neurone: calcule la somme pondérée de ses entrées, ajoute un biais et alimente le résultat via une fonction d'activation.

Encodage one-hot: la classe 3 sur 5 est encodée sous la forme d'un vecteur de cinq éléments, tous des zéros à l'exception du troisième, qui est égal à 1.

relu : unité de rectification linéaire. Fonction d'activation populaire pour les neurones.

sigmoïde : autre fonction d'activation qui était populaire autrefois et qui est toujours utile dans des cas particuliers.

softmax: fonction d'activation spéciale qui agit sur un vecteur, augmente la différence entre la composante la plus grande et les autres, et normalise également le vecteur pour obtenir une somme égale à 1, de sorte qu'il puisse être interprété comme un vecteur de probabilités. Il s'agit de la dernière étape des classificateurs.

tensor : un "tensor" est comme une matrice, mais avec un nombre arbitraire de dimensions. Un tenseur unidimensionnel est un vecteur. Un tenseur à deux dimensions est une matrice. Vous pouvez également avoir des tenseurs à trois, quatre, cinq dimensions ou plus.

5. [INFO] Réseaux de neurones convolutifs

En résumé

Si vous connaissez déjà tous les termes en gras du paragraphe suivant, vous pouvez passer à l'exercice suivant. Si vous débutez avec les réseaux de neurones convolutifs, poursuivez votre lecture.

convolutional.gif

Illustration : filtrage d'une image avec deux filtres successifs composés chacun de 4x4x3 = 48 poids enregistrables.

Voici à quoi ressemble un réseau de neurones convolutif simple dans Keras :

model = tf.keras.Sequential([
  # input: images of size 192x192x3 pixels (the three stands for RGB channels)
  tf.keras.layers.Conv2D(kernel_size=3, filters=24, padding='same', activation='relu', input_shape=[192, 192, 3]),
  tf.keras.layers.Conv2D(kernel_size=3, filters=24, padding='same', activation='relu'),
  tf.keras.layers.MaxPooling2D(pool_size=2),
  tf.keras.layers.Conv2D(kernel_size=3, filters=12, padding='same', activation='relu'),
  tf.keras.layers.MaxPooling2D(pool_size=2),
  tf.keras.layers.Conv2D(kernel_size=3, filters=6, padding='same', activation='relu'),
  tf.keras.layers.Flatten(),
  # classifying into 5 categories
  tf.keras.layers.Dense(5, activation='softmax')
])

model.compile(
  optimizer='adam',
  loss= 'categorical_crossentropy',
  metrics=['accuracy'])

688858c21e3beff2.png

Introduction aux réseaux de neurones convolutifs

Dans une couche d'un réseau convolutif, un "neurone" effectue une somme pondérée des pixels juste au-dessus, sur une petite zone de l'image uniquement. Il ajoute un biais et alimente la somme via une fonction d'activation, comme le ferait un neurone dans une couche dense régulière. Cette opération est ensuite répétée sur toute l'image avec les mêmes pondérations. Souvenez-vous que dans les couches denses, chaque neurone avait ses propres pondérations. Ici, un seul "patch" de poids glisse sur l'image dans les deux sens (une "convolution"). La sortie comporte autant de valeurs qu'il y a de pixels dans l'image (un remplissage est toutefois nécessaire au niveau des bords). Il s'agit d'une opération de filtrage utilisant un filtre de 4x4x3=48 pondérations.

En revanche, 48 pondérations ne seront pas suffisantes. Pour ajouter davantage de degrés de liberté, nous répétons la même opération avec un nouvel ensemble de pondérations. Vous obtenez ainsi un nouvel ensemble de sorties de filtre. Appelons-le "canal" de sorties,par analogie avec les canaux R,V et B de l'image d'entrée.

Capture d'écran 29/07/2016 - 16.02.37.png

Les deux (ou plusieurs) ensembles de poids peuvent être résumés en un seul tenseur en ajoutant une nouvelle dimension. Cela nous donne la forme générique du tenseur de poids pour une couche convolutive. Étant donné que le nombre de canaux d'entrée et de sortie sont des paramètres, nous pouvons commencer à empiler et à enchaîner des couches convolutives.

d1b557707bcd1cb9.png

Illustration : un réseau de neurones convolutifs transforme des "cubes" de données en d'autres "cubes" de données.

Convolutions avec pas, pooling max

En effectuant les convolutions avec un pas de 2 ou 3, nous pouvons également réduire le cube de données obtenu dans ses dimensions horizontales. Pour ce faire, vous pouvez procéder de deux façons :

  • Convolusion avec pas: filtre coulissant comme ci-dessus, mais avec un pas supérieur à 1
  • Max pooling: fenêtre mobile qui applique l'opération MAX (généralement sur des patches 2x2, répétés tous les deux pixels)

2b2d4263bb8470b.gif

Illustration: le fait de faire glisser la fenêtre de calcul de 3 pixels réduit le nombre de valeurs de sortie. Les convolutions avec pas ou le pooling maximal (max sur une fenêtre 2x2 glissante d'un pas de 2) permettent de réduire le cube de données dans les dimensions horizontales.

Classificateur cvolutif

Enfin, nous ajoutons une tête de classification en aplatissant le dernier cube de données et en le transmettant via une couche dense activée par softmax. Un classificateur convolutif type peut se présenter comme suit:

4a61aaffb6cba3d1.png

Illustration: un classificateur d'images utilisant des couches convolutives et softmax. Elle utilise les filtres 3x3 et 1x1. Les couches maxpool prennent la valeur maximale de groupes de points de données 2x2. La tête de classification est implémentée avec une couche dense avec activation softmax.

Dans Keras

La pile de convolution illustrée ci-dessus peut être écrite en Keras comme suit :

model = tf.keras.Sequential([
  # input: images of size 192x192x3 pixels (the three stands for RGB channels)    
  tf.keras.layers.Conv2D(kernel_size=3, filters=32, padding='same', activation='relu', input_shape=[192, 192, 3]),
  tf.keras.layers.Conv2D(kernel_size=1, filters=32, padding='same', activation='relu'),
  tf.keras.layers.MaxPooling2D(pool_size=2),
  tf.keras.layers.Conv2D(kernel_size=3, filters=32, padding='same', activation='relu'),
  tf.keras.layers.Conv2D(kernel_size=1, filters=32, padding='same', activation='relu'),
  tf.keras.layers.MaxPooling2D(pool_size=2),
  tf.keras.layers.Conv2D(kernel_size=3, filters=32, padding='same', activation='relu'),
  tf.keras.layers.Conv2D(kernel_size=1, filters=32, padding='same', activation='relu'),
  tf.keras.layers.MaxPooling2D(pool_size=2),
  tf.keras.layers.Conv2D(kernel_size=3, filters=32, padding='same', activation='relu'),
  tf.keras.layers.Conv2D(kernel_size=1, filters=32, padding='same', activation='relu'),
  tf.keras.layers.MaxPooling2D(pool_size=2),
  tf.keras.layers.Conv2D(kernel_size=3, filters=16, padding='same', activation='relu'),
  tf.keras.layers.Conv2D(kernel_size=1, filters=8, padding='same', activation='relu'),
  tf.keras.layers.Flatten(),
  # classifying into 5 categories
  tf.keras.layers.Dense(5, activation='softmax')
])

model.compile(
  optimizer='adam',
  loss= 'categorical_crossentropy',
  metrics=['accuracy'])

6. [NOUVELLE INFO] Architectures convolutives modernes

En résumé

7968830b57b708c0.png

Illustration : "module" de convolution. Quelle est la meilleure option à ce stade ? Une couche max-pooling suivie d'une couche convolutive 1x1 ou une autre combinaison de couches ? Essayez-les tous, concatenatez les résultats et laissez le réseau décider. À droite: l'architecture convolutive " inception" utilisant ces modules.

Dans Keras, pour créer des modèles dans lesquels le flux de données peut se ramifier, vous devez utiliser le style de modèle "fonctionnel". Voici un exemple :

l = tf.keras.layers # syntax shortcut

y = l.Conv2D(filters=32, kernel_size=3, padding='same',
             activation='relu', input_shape=[192, 192, 3])(x) # x=input image

# module start: branch out
y1 = l.Conv2D(filters=32, kernel_size=1, padding='same', activation='relu')(y)
y3 = l.Conv2D(filters=32, kernel_size=3, padding='same', activation='relu')(y)
y = l.concatenate([y1, y3]) # output now has 64 channels
# module end: concatenation

# many more layers ...

# Create the model by specifying the input and output tensors.
# Keras layers track their connections automatically so that's all that's needed.
z = l.Dense(5, activation='softmax')(y)
model = tf.keras.Model(x, z)

688858c21e3beff2.png

Autres astuces à petit prix

Petits filtres 3x3

40a7b15fb7dbe75c.png

Dans cette illustration, vous pouvez voir le résultat de deux filtres 3x3 consécutifs. Essayez de déterminer quels points de données ont contribué au résultat : ces deux filtres 3x3 consécutifs calculent une combinaison d'une région 5x5. Il ne s'agit pas exactement de la même combinaison qu'un filtre 5x5, mais cela vaut la peine d'essayer, car deux filtres 3x3 consécutifs sont moins chers qu'un seul filtre 5x5.

Des convolutions 1x1 ?

fd7cac16f8ecb423.png

En termes mathématiques, une convolution "1x1" est une multiplication par une constante, ce n'est pas un concept très utile. Toutefois, dans les réseaux de neurones convolutifs, rappelez-vous que le filtre est appliqué à un cube de données, et pas seulement à une image 2D. Par conséquent, un filtre "1x1" calcule une somme pondérée d'une colonne de données 1x1 (voir illustration). Lorsque vous le faites glisser sur les données, vous obtenez une combinaison linéaire des canaux de l'entrée. C'est vraiment utile. Si vous considérez les canaux comme les résultats d'opérations de filtrage individuelles, par exemple un filtre pour "oreilles pointues", un autre pour "moustaches" et un troisième pour "yeux fendus", une couche convolutive "1x1" calculera plusieurs combinaisons linéaires possibles de ces caractéristiques, ce qui peut être utile lorsque vous recherchez un "chat". En plus de cela, les couches 1x1 utilisent moins de pondérations.

7. Pression

L'article Squeezenet offre une méthode simple pour assembler ces idées. Les auteurs suggèrent une conception de module de convolution très simple, n'utilisant que des couches de convolution 1x1 et 3x3.

1730ac375379269b.png

Illustration: architecture squeezenet basée sur des modules de déclenchement. Elles alternent une couche 1x1 qui "compresse" les données entrantes dans la dimension verticale, suivie de deux couches convolutives 1x1 et 3x3 parallèles qui "étendent" à nouveau la profondeur des données.

Pratique

Poursuivez dans votre notebook précédent et créez un réseau de neurones convolutif inspiré de SqueezeNet. Vous devrez remplacer le code du modèle par le "style fonctionnel" Keras.

c3df49e90e5a654f.png Keras_Flowers_TPU (playground).ipynb

Informations supplémentaires

Pour cet exercice, il est utile de définir une fonction d'assistance pour un module SqueezeNet :

def fire(x, squeeze, expand):
  y = l.Conv2D(filters=squeeze, kernel_size=1, padding='same', activation='relu')(x)
  y1 = l.Conv2D(filters=expand//2, kernel_size=1, padding='same', activation='relu')(y)
  y3 = l.Conv2D(filters=expand//2, kernel_size=3, padding='same', activation='relu')(y)
  return tf.keras.layers.concatenate([y1, y3])

# this is to make it behave similarly to other Keras layers
def fire_module(squeeze, expand):
  return lambda x: fire(x, squeeze, expand)

# usage:
x = l.Input(shape=[192, 192, 3])
y = fire_module(squeeze=24, expand=48)(x) # typically, squeeze is less than expand
y = fire_module(squeeze=32, expand=64)(y)
...
model = tf.keras.Model(x, y)

L'objectif cette fois est d'atteindre une précision de 80 %.

À essayer

Commencez par une seule couche convolutive, puis ajoutez "fire_modules" en alternant avec des couches MaxPooling2D(pool_size=2). Vous pouvez tester entre deux et quatre couches de pooling maximum dans le réseau, ainsi qu'un, deux ou trois modules Fire consécutifs entre les couches de pooling maximales.

Dans les modules de tir, le paramètre "squeeze" doit généralement être inférieur au paramètre "expand". Ces paramètres correspondent en fait à des nombres de filtres. Elles peuvent être comprises entre 8 et 196, généralement. Vous pouvez tester des architectures dans lesquelles le nombre de filtres augmente progressivement dans le réseau, ou des architectures simples dans lesquelles tous les modules de déclenchement ont le même nombre de filtres.

Voici un exemple :

x = tf.keras.layers.Input(shape=[*IMAGE_SIZE, 3]) # input is 192x192 pixels RGB

y = tf.keras.layers.Conv2D(kernel_size=3, filters=32, padding='same', activation='relu')(x)
y = fire_module(24, 48)(y)
y = tf.keras.layers.MaxPooling2D(pool_size=2)(y)
y = fire_module(24, 48)(y)
y = tf.keras.layers.MaxPooling2D(pool_size=2)(y)
y = fire_module(24, 48)(y)
y = tf.keras.layers.GlobalAveragePooling2D()(y)
y = tf.keras.layers.Dense(5, activation='softmax')(y)

model = tf.keras.Model(x, y)

À ce stade, vous remarquerez peut-être que vos tests ne se déroulent pas très bien et que l'objectif de précision de 80% semble lointain. Il est temps de découvrir quelques autres astuces.

Normalisation par lot

La norme de traitement par lot vous aidera à résoudre les problèmes de convergence que vous rencontrez. Vous trouverez des explications détaillées sur cette technique dans le prochain atelier. Pour l'instant, veuillez l'utiliser comme assistant "magique" de boîte noire en ajoutant cette ligne après chaque couche convolutive de votre réseau, y compris les couches de votre fonction "fire_module" :

y = tf.keras.layers.BatchNormalization(momentum=0.9)(y)
# please adapt the input and output "y"s to whatever is appropriate in your context

La valeur par défaut du paramètre d'élan est de 0,99. Nous devons la réduire à 0,9, car notre ensemble de données est petit. Peu importe ce détail pour l'instant.

Augmentation des données

Vous obtiendrez encore quelques points de pourcentage en augmentant les données avec des transformations simples, comme des changements de saturation à gauche et à droite:

4ed2958e09b487ca.png

ad795b70334e0d6b.png

Cela est très facile à faire dans TensorFlow avec l'API tf.data.Dataset. Définissez une nouvelle fonction de transformation pour vos données:

def data_augment(image, label):
    image = tf.image.random_flip_left_right(image)
    image = tf.image.random_saturation(image, lower=0, upper=2)
    return image, label

Utilisez-le ensuite dans votre dernière transformation de données (cellule "ensembles de données d'entraînement et de validation", fonction "get_batched_dataset") :

dataset = dataset.repeat() # existing line
# insert this
if augment_data:
  dataset = dataset.map(data_augment, num_parallel_calls=AUTO)
dataset = dataset.shuffle(2048) # existing line

N'oubliez pas de rendre l'augmentation des données facultative et d'ajouter le code nécessaire pour vous assurer que seul l'ensemble de données d'entraînement est augmenté. Il n'est pas judicieux d'enrichir l'ensemble de données de validation.

Une précision de 80 % en 35 époques devrait désormais être à portée de main.

Solution

Voici le notebook de la solution. Vous pouvez l'utiliser si vous êtes bloqué.

c3df49e90e5a654f.png Keras_Flowers_TPU_squeezenet.ipynb

Points abordés

  • 🤔 Modèles de "style fonctionnel" Keras
  • 🤓 Architecture de Squeezenet
  • 🤓 Augmentation des données avec tf.data.dataset

Veuillez prendre un moment pour passer en revue cette liste de contrôle.

8. Xception affiné

Convolutions séparables

Une autre méthode d'implémentation des couches convolutives s'est récemment fait connaître: les convolutions séparables en profondeur. Je sais, c'est une bouchée, mais le concept est assez simple. Elles sont implémentées dans TensorFlow et Keras en tant que tf.keras.layers.SeparableConv2D.

Une convolution séparable exécute également un filtre sur l'image, mais elle utilise un ensemble distinct de poids pour chaque canal de l'image d'entrée. Il est suivi d'une "convolution 1x1", une série de produits scalaires qui aboutit à une somme pondérée des canaux filtrés. Avec de nouvelles pondérations à chaque fois, autant de recombinaisons pondérées des canaux sont calculées que nécessaire.

615720b803bf8dda.gif

Illustration : convolutions séparables. Phase 1 : convolutions avec un filtre distinct pour chaque canal. Phase 2: recombinaisons linéaires de canaux. Répété avec un nouvel ensemble de poids jusqu'à ce que le nombre souhaité de canaux de sortie soit atteint. La phase 1 peut également être répétée, avec de nouvelles pondérations à chaque fois, mais en pratique, cela est rarement le cas.

Les convolutions séparables sont utilisées dans les architectures de réseaux convolutifs les plus récentes: MobileNetV2, Xception et EffectiveNet. À ce propos, MobileNetV2 est celui que vous avez utilisé précédemment pour l'apprentissage par transfert.

Elles sont moins chères que les convolutions standards et se sont avérées tout aussi efficaces dans la pratique. Voici le poids correspondant à l'exemple illustré ci-dessus:

Couche convolutive: 4 x 4 x 3 x 5 = 240

Couche convolutive séparable : 4 x 4 x 3 + 3 x 5 = 48 + 15 = 63

Il est laissé au lecteur de calculer le nombre de multiplications requises pour appliquer chaque style de mise à l'échelle de la couche convolutive de manière similaire. Les convolutions séparables sont plus petites et beaucoup plus efficaces en termes de calcul.

Pratiquer

Redémarrez à partir du notebook de l'atelier "Apprentissage par transfert", mais cette fois, sélectionnez Xception comme modèle pré-entraîné. Xception n'utilise que des convolutions séparables. Laissez toutes les pondérations pouvant être entraînées. Nous allons ajuster les poids pré-entraînés sur nos données au lieu d'utiliser les couches pré-entraînées telles quelles.

c3df49e90e5a654f.png Keras Flowers transfer learning (playground).ipynb

Objectif : précision supérieure à 95 % (oui, c'est possible !)

Comme il s'agit du dernier exercice, il nécessite un peu plus de code et de travail de data science.

Informations supplémentaires sur l'affinage

Xception est disponible dans les modèles pré-entraînés standards de tf.keras.application.* N'oubliez pas de laisser tous les poids pouvant être entraînés cette fois-ci.

pretrained_model = tf.keras.applications.Xception(input_shape=[*IMAGE_SIZE, 3],
                                                  include_top=False)
pretrained_model.trainable = True

Pour obtenir de bons résultats lorsque vous affinez un modèle, vous devez prêter attention au taux d'apprentissage et utiliser une programmation de taux d'apprentissage avec une période d'optimisation. Exemple :

9b1af213b2b36d47.png

Commencer avec un taux d'apprentissage standard perturberait les pondérations pré-entraînées du modèle. Le démarrage progressif les conserve jusqu'à ce que le modèle ait saisi vos données et puisse les modifier de manière appropriée. Après la montée en puissance, vous pouvez continuer avec un taux d'apprentissage constant ou exponentiel.

Dans Keras, le taux d'apprentissage est spécifié via un rappel dans lequel vous pouvez calculer le taux d'apprentissage approprié pour chaque époque. Keras transmet le taux d'apprentissage approprié à l'optimiseur pour chaque époque.

def lr_fn(epoch):
  lr = ...
  return lr

lr_callback = tf.keras.callbacks.LearningRateScheduler(lr_fn, verbose=True)

model.fit(..., callbacks=[lr_callback])

Solution

Voici le notebook de la solution. Vous pouvez l'utiliser si vous êtes bloqué.

c3df49e90e5a654f.png 07_Keras_Flowers_TPU_xception_fine_tuned_best.ipynb

Points abordés

  • 🤔 Convolution séparable en profondeur
  • 🤓 Planifications des taux d'apprentissage
  • ➜ Affiner un modèle pré-entraîné

Veuillez prendre un moment pour passer en revue cette liste de contrôle.

9. Félicitations !

Vous avez créé votre premier réseau de neurones convolutif moderne et l'avez entraîné à une justesse supérieure à 90 %. Vous avez itéré l'entraînement successif en quelques minutes seulement grâce aux TPU. Voici qui conclut les quatre ateliers de programmation Keras sur TPU :

TPU en pratique

Les TPU et les GPU sont disponibles sur Cloud AI Platform:

Enfin, vos commentaires nous intéressent. N'hésitez pas à nous contacter si vous remarquez quelque chose d'anormal dans cet atelier ou si vous pensez qu'il doit être amélioré. Vous pouvez envoyer vos commentaires via les problèmes GitHub [ lien de commentaires].

HR.png

Martin Görner ID small.jpg
Auteur : Martin Görner
Twitter : @martin_gorner

logo TensorFlow.jpg
www.tensorflow.org