Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Mạng nơron tích chập, với Keras và TPU

1. Tổng quan

Trong phòng thí nghiệm này, bạn sẽ tìm hiểu cách lắp ráp lớp tích chập vào một mô hình mạng nơ-ron có thể nhận dạng hoa. Lần này, bạn sẽ tự xây dựng mô hình từ đầu và sử dụng sức mạnh của TPU để huấn luyện mô hình trong vài giây và lặp lại thiết kế của mô hình.

Lớp học lập trình này bao gồm những giải thích lý thuyết cần thiết về mạng nơ-ron tích chập và là điểm xuất phát phù hợp cho những nhà phát triển tìm hiểu về học sâu.

Lớp học này là Phần 3 của loạt bài "Keras trên TPU". Bạn có thể thực hiện các bước này theo thứ tự sau hoặc thực hiện độc lập.

Quy trình xử lý dữ liệu tốc độ TPU: tf.data.Dataset và TFRecords
Mô hình Keras đầu tiên của bạn, có sử dụng phương pháp học chuyển giao
[LỚP HỌC NÀY] Mạng nơron tích chập, có Keras và TPU
Mạng nơron tích chập hiện đại, squeezenet, Xception, sử dụng Keras và TPU

Kiến thức bạn sẽ học được

Để tạo một thuật toán phân loại hình ảnh tích chập bằng mô hình Keras Sequential.
Để huấn luyện mô hình Keras trên TPU
Để tinh chỉnh mô hình bằng cách chọn các lớp tích chập phù hợp.

Phản hồi

Nếu bạn thấy có vấn đề trong lớp học lập trình này, vui lòng cho chúng tôi biết. Bạn có thể gửi ý kiến phản hồi thông qua các vấn đề trên GitHub [ đường liên kết phản hồi].

2. Hướng dẫn bắt đầu nhanh về Google Colaboratory

Phòng thí nghiệm này sử dụng Google Colaboratory và bạn không cần thiết lập gì. Colaboratory là một nền tảng sổ tay trực tuyến cho mục đích giáo dục. Nền tảng này cung cấp khoá đào tạo miễn phí về CPU, GPU và TPU.

Bạn có thể mở sổ tay mẫu này và chạy qua một vài ô để làm quen với Colaboratory.

Welcome to Colab.ipynb

Chọn một phần phụ trợ TPU

Trong trình đơn Colab, hãy chọn Thời gian chạy > Thay đổi loại thời gian chạy rồi chọn TPU. Trong lớp học lập trình này, bạn sẽ sử dụng một TPU (Tensor Processing Unit) mạnh mẽ được hỗ trợ để huấn luyện có tăng tốc phần cứng. Quá trình kết nối với thời gian chạy sẽ diễn ra tự động trong lần thực thi đầu tiên hoặc bạn có thể sử dụng nút "Kết nối" ở góc trên bên phải.

Thực thi sổ tay

Thực thi từng ô bằng cách nhấp vào một ô và sử dụng tổ hợp phím Shift-ENTER. Bạn cũng có thể chạy toàn bộ sổ tay bằng cách chọn Thời gian chạy > Chạy tất cả

Mục lục

Tất cả sổ tay đều có mục lục. Bạn có thể mở trình đơn này bằng cách nhấn vào mũi tên màu đen ở bên trái.

Các ô bị ẩn

Một số ô sẽ chỉ hiển thị tiêu đề. Đây là một tính năng sổ tay dành riêng cho Colab. Bạn có thể nhấp đúp vào các tệp này để xem mã bên trong, nhưng thường thì mã này không có gì thú vị. Thường là các hàm hỗ trợ hoặc trực quan hoá. Bạn vẫn cần chạy các ô này để xác định các hàm bên trong.

Xác thực

Colab có thể truy cập vào các bộ chứa riêng tư của bạn trên Google Cloud Storage, miễn là bạn xác thực bằng một tài khoản được uỷ quyền. Đoạn mã ở trên sẽ kích hoạt một quy trình xác thực.

3. [THÔNG TIN] Tensor Processing Unit (TPU) là gì?

Tóm lại

Mã để huấn luyện một mô hình trên TPU trong Keras (và quay lại GPU hoặc CPU nếu không có TPU):

try: # detect TPUs
    tpu = tf.distribute.cluster_resolver.TPUClusterResolver.connect()
    strategy = tf.distribute.TPUStrategy(tpu)
except ValueError: # detect GPUs
    strategy = tf.distribute.MirroredStrategy() # for CPU/GPU or multi-GPU machines

# use TPUStrategy scope to define model
with strategy.scope():
  model = tf.keras.Sequential( ... )
  model.compile( ... )

# train model normally on a tf.data.Dataset
model.fit(training_dataset, epochs=EPOCHS, steps_per_epoch=...)

Hôm nay, chúng ta sẽ sử dụng TPU để xây dựng và tối ưu hoá một trình phân loại hoa ở tốc độ tương tác (vài phút cho mỗi lần chạy huấn luyện).

Tại sao nên dùng TPU?

GPU hiện đại được sắp xếp xung quanh các "lõi" có thể lập trình, một kiến trúc rất linh hoạt cho phép chúng xử lý nhiều tác vụ như kết xuất 3D, học sâu, mô phỏng vật lý, v.v. Mặt khác, TPU kết hợp bộ xử lý vectơ cổ điển với một đơn vị nhân ma trận chuyên dụng và vượt trội ở mọi tác vụ mà phép nhân ma trận lớn chiếm ưu thế, chẳng hạn như mạng nơ-ron.

Minh hoạ: một lớp mạng nơron dày đặc dưới dạng phép nhân ma trận, với một lô gồm 8 hình ảnh được xử lý cùng lúc thông qua mạng nơron. Vui lòng chạy phép nhân một hàng x một cột để xác minh rằng phép nhân này thực sự đang tính tổng có trọng số của tất cả các giá trị pixel của một hình ảnh. Các lớp tích chập cũng có thể được biểu diễn dưới dạng phép nhân ma trận mặc dù phức tạp hơn một chút ( giải thích tại đây, trong phần 1).

Phần cứng

MXU và VPU

Một lõi TPU phiên bản 2 được tạo thành từ Đơn vị nhân ma trận (MXU) chạy các phép nhân ma trận và Đơn vị xử lý vectơ (VPU) cho tất cả các tác vụ khác, chẳng hạn như kích hoạt, softmax, v.v. VPU xử lý các phép tính float32 và int32. Mặt khác, MXU hoạt động ở định dạng dấu phẩy động 16-32 bit có độ chính xác hỗn hợp.

Dấu phẩy động có độ chính xác hỗn hợp và bfloat16

MXU tính toán phép nhân ma trận bằng cách sử dụng đầu vào bfloat16 và đầu ra float32. Các phép tích luỹ trung gian được thực hiện với độ chính xác float32.

Quá trình huấn luyện mạng nơ-ron thường không bị ảnh hưởng bởi nhiễu do độ chính xác của số có dấu phẩy động giảm. Có những trường hợp nhiễu thậm chí còn giúp trình tối ưu hoá hội tụ. Độ chính xác của dấu phẩy động 16 bit thường được dùng để tăng tốc các phép tính, nhưng định dạng float16 và float32 có phạm vi rất khác nhau. Việc giảm độ chính xác từ float32 xuống float16 thường dẫn đến tình trạng tràn số và thiếu số. Các giải pháp hiện có nhưng thường cần thêm công việc để float16 hoạt động.

Đó là lý do Google giới thiệu định dạng bfloat16 trong TPU. bfloat16 là một float32 bị cắt bớt với chính xác các bit số mũ và dải giá trị như float32. Điều này, cộng với việc TPU tính toán các phép nhân ma trận với độ chính xác hỗn hợp bằng đầu vào bfloat16 nhưng đầu ra float32, có nghĩa là thông thường, bạn không cần thay đổi mã để hưởng lợi từ hiệu suất tăng lên do độ chính xác giảm.

Mảng tâm thu

MXU triển khai các phép nhân ma trận trong phần cứng bằng cách sử dụng cái gọi là cấu trúc "mảng tâm thu", trong đó các phần tử dữ liệu truyền qua một mảng các đơn vị tính toán phần cứng. (Trong y học, "tâm thu" đề cập đến sự co bóp của tim và lưu lượng máu, ở đây là lưu lượng dữ liệu.)

Phần tử cơ bản của phép nhân ma trận là tích vô hướng giữa một hàng của ma trận này và một cột của ma trận kia (xem hình minh hoạ ở đầu phần này). Đối với phép nhân ma trận Y=X*W, một phần tử của kết quả sẽ là:

Y[2,0] = X[2,0]*W[0,0] + X[2,1]*W[1,0] + X[2,2]*W[2,0] + ... + X[2,n]*W[n,0]

Trên GPU, người ta sẽ lập trình tích vô hướng này vào một "lõi" GPU, sau đó thực thi tích vô hướng này trên nhiều "lõi" nhất có thể song song để cố gắng tính toán mọi giá trị của ma trận kết quả cùng một lúc. Nếu ma trận kết quả có kích thước 128x128, thì cần có 128x128=16.000 "lõi" và điều này thường không thể thực hiện được. Các GPU lớn nhất có khoảng 4.000 lõi. Mặt khác, TPU sử dụng phần cứng tối thiểu cho các đơn vị tính toán trong MXU: chỉ có bfloat16 x bfloat16 => float32 bộ nhân tích luỹ, không có gì khác. Các đơn vị này nhỏ đến mức một TPU có thể triển khai 16.000 đơn vị trong một MXU 128x128 và xử lý phép nhân ma trận này trong một lần.

Hình minh hoạ: mảng tâm thu MXU. Các phần tử điện toán là bộ tích luỹ nhân. Các giá trị của một ma trận được tải vào mảng (các dấu chấm màu đỏ). Các giá trị của ma trận khác sẽ chảy qua mảng (các dấu chấm màu xám). Các đường thẳng đứng truyền các giá trị lên trên. Các đường kẻ ngang truyền tổng số cộng từng phần. Người dùng cần tự xác minh rằng khi luồng dữ liệu truyền qua mảng, bạn sẽ nhận được kết quả của phép nhân ma trận ở phía bên phải.

Ngoài ra, trong khi các tích vô hướng đang được tính toán trong một MXU, các tổng trung gian chỉ đơn giản là chảy giữa các đơn vị tính toán liền kề. Chúng không cần được lưu trữ và truy xuất đến/từ bộ nhớ hoặc thậm chí là một tệp đăng ký. Kết quả cuối cùng là kiến trúc mảng tâm thu TPU có mật độ và công suất vượt trội đáng kể, cũng như tốc độ vượt trội không thể bỏ qua so với GPU khi tính toán phép nhân ma trận.

Cloud TPU

Khi yêu cầu một " Cloud TPU phiên bản 2" trên Google Cloud Platform, bạn sẽ nhận được một máy ảo (VM) có một bảng TPU được gắn PCI. Bảng TPU có 4 chip TPU lõi kép. Mỗi lõi TPU có một VPU (Vector Processing Unit) và một MXU (MatriX multiply Unit) 128x128. Sau đó, "Cloud TPU" này thường được kết nối qua mạng với VM đã yêu cầu. Vậy bức tranh toàn cảnh sẽ có dạng như sau:

Hình minh hoạ: máy ảo của bạn có một trình tăng tốc "Cloud TPU" được gắn vào mạng. "Cloud TPU" được tạo thành từ một máy ảo có bảng TPU được gắn PCI với 4 chip TPU lõi kép trên đó.

Nhóm TPU

Trong các trung tâm dữ liệu của Google, TPU được kết nối với một hệ thống kết nối điện toán hiệu năng cao (HPC) có thể khiến chúng xuất hiện dưới dạng một bộ tăng tốc rất lớn. Google gọi chúng là các nhóm và chúng có thể bao gồm tối đa 512 lõi TPU phiên bản 2 hoặc 2048 lõi TPU phiên bản 3.

Hình minh hoạ: một nhóm TPU phiên bản 3. Các bảng và giá đỡ TPU được kết nối thông qua HPC interconnect.

Trong quá trình huấn luyện, các độ dốc được trao đổi giữa các lõi TPU bằng cách sử dụng thuật toán giảm tất cả ( giải thích rõ ràng về thuật toán giảm tất cả tại đây). Mô hình đang được huấn luyện có thể tận dụng phần cứng bằng cách huấn luyện trên các kích thước lô lớn.

Hình minh hoạ: quá trình đồng bộ hoá các độ dốc trong quá trình huấn luyện bằng thuật toán giảm tất cả trên mạng HPC dạng lưới hình xuyến 2 chiều của TPU của Google.

Phần mềm

Huấn luyện kích thước lô lớn

Kích thước lô lý tưởng cho TPU là 128 mục dữ liệu trên mỗi lõi TPU, nhưng phần cứng đã có thể cho thấy mức sử dụng tốt từ 8 mục dữ liệu trên mỗi lõi TPU. Hãy nhớ rằng một Cloud TPU có 8 lõi.

Trong lớp học lập trình này, chúng ta sẽ sử dụng API Keras. Trong Keras, lô mà bạn chỉ định là kích thước lô chung cho toàn bộ TPU. Các lô của bạn sẽ tự động được chia thành 8 và chạy trên 8 lõi của TPU.

Để biết thêm các mẹo về hiệu suất, hãy xem Hướng dẫn về hiệu suất TPU. Đối với các kích thước lô rất lớn, bạn có thể cần phải đặc biệt chú ý đến một số mô hình, hãy xem LARSOptimizer để biết thêm thông tin chi tiết.

Tìm hiểu sâu: XLA

Các chương trình Tensorflow xác định đồ thị tính toán. TPU không chạy trực tiếp mã Python mà chạy biểu đồ tính toán do chương trình Tensorflow của bạn xác định. Về cơ bản, một trình biên dịch có tên là XLA (trình biên dịch Đại số tuyến tính được tăng tốc) sẽ chuyển đổi biểu đồ Tensorflow của các nút tính toán thành mã máy TPU. Trình biên dịch này cũng thực hiện nhiều hoạt động tối ưu hoá nâng cao trên mã và bố cục bộ nhớ của bạn. Quá trình biên dịch sẽ diễn ra tự động khi công việc được gửi đến TPU. Bạn không cần phải đưa XLA vào chuỗi bản dựng một cách rõ ràng.

Hình minh hoạ: để chạy trên TPU, biểu đồ tính toán do chương trình Tensorflow của bạn xác định trước tiên sẽ được dịch sang biểu diễn XLA (trình biên dịch Đại số tuyến tính tăng tốc), sau đó được XLA biên dịch thành mã máy TPU.

Sử dụng TPU trong Keras

TPU được hỗ trợ thông qua API Keras kể từ Tensorflow 2.1. Hỗ trợ Keras trên TPU và nhóm TPU. Sau đây là một ví dụ hoạt động trên TPU, (các) GPU và CPU:

try: # detect TPUs
    tpu = tf.distribute.cluster_resolver.TPUClusterResolver.connect()
    strategy = tf.distribute.TPUStrategy(tpu)
except ValueError: # detect GPUs
    strategy = tf.distribute.MirroredStrategy() # for CPU/GPU or multi-GPU machines

# use TPUStrategy scope to define model
with strategy.scope():
  model = tf.keras.Sequential( ... )
  model.compile( ... )

# train model normally on a tf.data.Dataset
model.fit(training_dataset, epochs=EPOCHS, steps_per_epoch=...)

Trong đoạn mã này:

TPUClusterResolver().connect() tìm thấy TPU trên mạng. Công cụ này hoạt động mà không cần tham số trên hầu hết các hệ thống của Google Cloud (các công việc trên Nền tảng Trí tuệ nhân tạo, Colaboratory, Kubeflow, VM học sâu được tạo thông qua tiện ích "ctpu up"). Các hệ thống này biết vị trí của TPU nhờ biến môi trường TPU_NAME. Nếu bạn tạo TPU theo cách thủ công, hãy đặt biến môi trường TPU_NAME trên VM mà bạn đang sử dụng hoặc gọi TPUClusterResolver bằng các tham số rõ ràng: TPUClusterResolver(tp_uname, zone, project)
TPUStrategy là phần triển khai thuật toán đồng bộ hoá độ dốc "giảm tất cả" và phân phối.
Chiến lược này được áp dụng thông qua một phạm vi. Mô hình phải được xác định trong phạm vi chiến lược().
Hàm tpu_model.fit dự kiến sẽ có một đối tượng tf.data.Dataset để làm dữ liệu đầu vào cho quá trình huấn luyện TPU.

Các thao tác di chuyển TPU thường gặp

Mặc dù có nhiều cách để tải dữ liệu trong mô hình Tensorflow, nhưng đối với TPU, bạn phải sử dụng API tf.data.Dataset.
TPU có tốc độ rất cao và việc nhập dữ liệu thường trở thành điểm tắc nghẽn khi chạy trên các TPU này. Bạn có thể sử dụng các công cụ để phát hiện điểm tắc nghẽn dữ liệu và các mẹo khác về hiệu suất trong Hướng dẫn về hiệu suất TPU.
Các số int8 hoặc int16 được coi là int32. TPU không có phần cứng số nguyên hoạt động trên dưới 32 bit.
Một số thao tác Tensorflow không được hỗ trợ. Danh sách có tại đây. Tin vui là hạn chế này chỉ áp dụng cho mã huấn luyện, tức là lượt truyền xuôi và truyền ngược qua mô hình của bạn. Bạn vẫn có thể sử dụng tất cả các thao tác Tensorflow trong quy trình nhập dữ liệu vì thao tác này sẽ được thực thi trên CPU.
tf.py_func không được hỗ trợ trên TPU.

4. [THÔNG TIN] Phân loại mạng nơron 101

Tóm lại

Nếu đã biết tất cả các thuật ngữ được in đậm trong đoạn văn tiếp theo, bạn có thể chuyển sang bài tập tiếp theo. Nếu bạn chỉ mới bắt đầu tìm hiểu về học sâu, thì xin chào mừng bạn và vui lòng đọc tiếp.

Trình phân loại mạng nơ-ron được tạo thành từ một số lớp nơ-ron. Đối với việc phân loại hình ảnh, đây có thể là các lớp dày đặc hoặc thường xuyên hơn là các lớp tích chập. Các lớp này thường được kích hoạt bằng hàm kích hoạt relu. Lớp cuối cùng sử dụng nhiều nơ-ron như số lượng lớp và được kích hoạt bằng softmax. Đối với việc phân loại, cross-entropy là hàm tổn thất thường dùng nhất, so sánh nhãn được mã hoá one-hot (tức là câu trả lời chính xác) với xác suất do mạng nơ-ron dự đoán. Để giảm thiểu tổn thất, tốt nhất là bạn nên chọn một trình tối ưu hoá có động lượng, chẳng hạn như AdamOptimizer và huấn luyện trên các lô hình ảnh và nhãn huấn luyện.

Đối với các mô hình được tạo dưới dạng một chuỗi các lớp, Keras cung cấp API tuần tự. Ví dụ: bạn có thể viết một trình phân loại hình ảnh sử dụng 3 lớp dày đặc trong Keras như sau:

model = tf.keras.Sequential([
    tf.keras.layers.Flatten(input_shape=[192, 192, 3]),
    tf.keras.layers.Dense(500, activation="relu"),
    tf.keras.layers.Dense(50, activation="relu"),
    tf.keras.layers.Dense(5, activation='softmax') # classifying into 5 classes
])

# this configures the training of the model. Keras calls it "compiling" the model.
model.compile(
  optimizer='adam',
  loss= 'categorical_crossentropy',
  metrics=['accuracy']) # % of correct answers

# train the model
model.fit(dataset, ... )

Mạng nơ-ron dày đặc

Đây là mạng nơ-ron đơn giản nhất để phân loại hình ảnh. Mạng này được tạo thành từ các "nơ-ron" được sắp xếp theo các lớp. Lớp đầu tiên xử lý dữ liệu đầu vào và chuyển đầu ra của lớp đó vào các lớp khác. Lớp này được gọi là "dày đặc" vì mỗi nơ-ron đều được kết nối với tất cả các nơ-ron trong lớp trước đó.

Bạn có thể đưa một hình ảnh vào mạng như vậy bằng cách làm phẳng các giá trị RGB của tất cả các pixel trong hình ảnh đó thành một vectơ dài và sử dụng vectơ đó làm dữ liệu đầu vào. Đây không phải là kỹ thuật tốt nhất để nhận dạng hình ảnh nhưng chúng tôi sẽ cải thiện kỹ thuật này sau.

Nơron, lượt kích hoạt, RELU

Một "nơ-ron" tính tổng có trọng số của tất cả các đầu vào, thêm một giá trị gọi là "độ lệch" và truyền kết quả thông qua một "hàm kích hoạt". Ban đầu, bạn không biết trọng số và độ lệch. Chúng sẽ được khởi tạo ngẫu nhiên và "học" bằng cách huấn luyện mạng nơ-ron trên nhiều dữ liệu đã biết.

Hàm kích hoạt phổ biến nhất được gọi là RELU cho Rectified Linear Unit. Đây là một hàm rất đơn giản như bạn có thể thấy trên biểu đồ ở trên.

Hàm kích hoạt Softmax

Mạng lưới trên kết thúc bằng một lớp 5 nơ-ron vì chúng ta đang phân loại hoa thành 5 danh mục (hoa hồng, hoa tulip, hoa bồ công anh, hoa cúc, hoa hướng dương). Các nơ-ron ở các lớp trung gian được kích hoạt bằng hàm kích hoạt RELU cổ điển. Tuy nhiên, ở lớp cuối cùng, chúng ta muốn tính toán các số từ 0 đến 1, biểu thị xác suất của bông hoa này là hoa hồng, hoa tulip, v.v. Để làm được điều này, chúng ta sẽ sử dụng một hàm kích hoạt có tên là "softmax".

Việc áp dụng softmax trên một vectơ được thực hiện bằng cách lấy hàm mũ của từng phần tử rồi chuẩn hoá vectơ, thường là sử dụng chuẩn L1 (tổng giá trị tuyệt đối) để các giá trị cộng lại thành 1 và có thể được diễn giải là xác suất.

Hàm mất mát cross-entropy

Giờ đây, khi mạng nơ-ron tạo ra các dự đoán từ hình ảnh đầu vào, chúng ta cần đo lường mức độ chính xác của các dự đoán đó, tức là khoảng cách giữa những gì mạng nơ-ron cho chúng ta biết và câu trả lời chính xác (thường được gọi là "nhãn"). Hãy nhớ rằng chúng tôi có nhãn chính xác cho tất cả hình ảnh trong tập dữ liệu.

Bất kỳ khoảng cách nào cũng có thể dùng được, nhưng đối với các vấn đề về phân loại, "khoảng cách cross-entropy" là hiệu quả nhất. Chúng ta sẽ gọi đây là hàm lỗi hoặc "tổn thất":

Phương pháp giảm độ dốc

"Huấn luyện" mạng nơ-ron thực sự có nghĩa là sử dụng hình ảnh và nhãn huấn luyện để điều chỉnh trọng số và độ chệch nhằm giảm thiểu hàm mất mát cross-entropy. Sau đây là cách hoạt động của tính năng này.

Cross-entropy là một hàm của trọng số, độ lệch, pixel của hình ảnh huấn luyện và lớp đã biết của hình ảnh đó.

Nếu tính đạo hàm riêng của cross-entropy tương đối với tất cả các trọng số và tất cả các độ lệch, chúng ta sẽ thu được một "độ dốc", được tính cho một hình ảnh, nhãn và giá trị hiện tại của trọng số và độ lệch nhất định. Hãy nhớ rằng chúng ta có thể có hàng triệu trọng số và độ lệch, vì vậy việc tính toán độ dốc có vẻ như là một việc tốn nhiều công sức. Rất may là Tensorflow đã làm việc này cho chúng ta. Thuộc tính toán học của một độ dốc là nó hướng "lên". Vì chúng ta muốn đi đến nơi có cross-entropy thấp, nên chúng ta sẽ đi theo hướng ngược lại. Chúng ta cập nhật các trọng số và độ lệch theo một phần của độ dốc. Sau đó, chúng ta sẽ lặp lại quy trình này nhiều lần bằng cách sử dụng các lô hình ảnh và nhãn huấn luyện tiếp theo trong một vòng lặp huấn luyện. Hy vọng rằng điều này sẽ hội tụ đến một nơi có cross-entropy tối thiểu, mặc dù không có gì đảm bảo rằng mức tối thiểu này là duy nhất.

gradient descent2.png

Phân lô nhỏ và động lực

Bạn có thể tính toán độ dốc chỉ trên một hình ảnh mẫu và cập nhật ngay các trọng số và độ lệch, nhưng khi thực hiện trên một lô gồm 128 hình ảnh (ví dụ), bạn sẽ nhận được độ dốc thể hiện tốt hơn các ràng buộc do nhiều hình ảnh mẫu áp đặt và do đó, có khả năng hội tụ về giải pháp nhanh hơn. Kích thước của lô nhỏ là một tham số có thể điều chỉnh.

Kỹ thuật này, đôi khi được gọi là "giảm độ dốc ngẫu nhiên", có một lợi ích thực tế khác: làm việc với các lô cũng có nghĩa là làm việc với các ma trận lớn hơn và những ma trận này thường dễ dàng tối ưu hoá trên GPU và TPU hơn.

Tuy nhiên, quá trình hội tụ vẫn có thể hơi hỗn loạn và thậm chí có thể dừng lại nếu vectơ độ dốc bằng 0. Điều đó có nghĩa là chúng ta đã tìm thấy một giá trị tối thiểu? Không phải lúc nào cũng vậy. Một thành phần gradient có thể bằng 0 ở mức tối thiểu hoặc tối đa. Với một vectơ gradient có hàng triệu phần tử, nếu tất cả đều bằng 0, thì xác suất để mọi số 0 tương ứng với một điểm tối thiểu và không có số 0 nào tương ứng với một điểm tối đa là khá nhỏ. Trong không gian nhiều chiều, điểm yên ngựa khá phổ biến và chúng ta không muốn dừng lại ở đó.

Hình minh hoạ: điểm yên ngựa. Độ dốc bằng 0 nhưng không phải là độ dốc tối thiểu theo mọi hướng. (Thông tin ghi nhận tác giả của hình ảnh Wikimedia: Tác giả Nicoguaro – Tự sáng tạo, CC BY 3.0)

Giải pháp là thêm một số Momentum cho thuật toán tối ưu hoá để thuật toán có thể vượt qua các điểm yên mà không dừng lại.

Bảng thuật ngữ

batch (lô) hoặc mini-batch (lô nhỏ): quá trình huấn luyện luôn được thực hiện trên các lô dữ liệu huấn luyện và nhãn. Việc này giúp thuật toán hội tụ. Phương diện "lô" thường là phương diện đầu tiên của các tensor dữ liệu. Ví dụ: một tensor có hình dạng [100, 192, 192, 3] chứa 100 hình ảnh có kích thước 192x192 pixel với 3 giá trị trên mỗi pixel (RGB).

cross-entropy loss: một hàm mất mát đặc biệt thường được dùng trong các thuật toán phân loại.

lớp dày đặc: một lớp nơ-ron, trong đó mỗi nơ-ron được kết nối với tất cả các nơ-ron trong lớp trước đó.

đặc điểm: đầu vào của một mạng nơ-ron đôi khi được gọi là "đặc điểm". Nghệ thuật tìm ra những phần nào của một tập dữ liệu (hoặc tổ hợp các phần) để đưa vào mạng nơron nhằm nhận được dự đoán chính xác được gọi là "kỹ thuật trích xuất tính chất".

nhãn: một tên gọi khác của "lớp" hoặc câu trả lời chính xác trong một vấn đề phân loại có giám sát

tốc độ học: phần nhỏ của độ dốc mà theo đó các trọng số và độ lệch được cập nhật ở mỗi vòng lặp của vòng lặp huấn luyện.

logits: đầu ra của một lớp nơ-ron trước khi hàm kích hoạt được áp dụng được gọi là "logits". Thuật ngữ này bắt nguồn từ "hàm logistic", còn gọi là "hàm sigmoid", từng là hàm kích hoạt phổ biến nhất. "Đầu ra của nơ-ron trước hàm logistic" được rút ngắn thành "logits".

loss: hàm lỗi so sánh đầu ra của mạng nơ-ron với câu trả lời chính xác

neuron: tính tổng có trọng số của các đầu vào, thêm độ lệch và truyền kết quả thông qua một hàm kích hoạt.

mã one-hot: loại 3 trong số 5 được mã hoá dưới dạng một vectơ gồm 5 phần tử, tất cả đều là 0 ngoại trừ phần tử thứ 3 là 1.

relu: đơn vị tuyến tính được chỉnh sửa. Một hàm kích hoạt phổ biến cho các nơ-ron.

sigmoid: một hàm kích hoạt khác từng phổ biến và vẫn hữu ích trong các trường hợp đặc biệt.

softmax: một hàm kích hoạt đặc biệt hoạt động trên một vectơ, làm tăng sự khác biệt giữa thành phần lớn nhất và tất cả các thành phần khác, đồng thời chuẩn hoá vectơ để có tổng bằng 1, nhờ đó có thể diễn giải vectơ này dưới dạng một vectơ xác suất. Được dùng làm bước cuối cùng trong các trình phân loại.

tensor: "tensor" giống như ma trận nhưng có số lượng chiều tuỳ ý. Tenxơ 1 chiều là một vectơ. Tensor 2 chiều là một ma trận. Sau đó, bạn có thể có các tensor với 3, 4, 5 hoặc nhiều chiều hơn.

5. [THÔNG TIN MỚI] Mạng nơron tích chập

Tóm lại

Nếu đã biết tất cả các thuật ngữ được in đậm trong đoạn văn tiếp theo, bạn có thể chuyển sang bài tập tiếp theo. Nếu bạn chỉ mới bắt đầu tìm hiểu về mạng nơ-ron tích chập, vui lòng đọc tiếp.

Hình minh hoạ: lọc một hình ảnh bằng 2 bộ lọc liên tiếp, mỗi bộ lọc có 4x4x3=48 trọng số có thể học được.

Mạng nơ-ron tích chập áp dụng một loạt bộ lọc có thể học được cho hình ảnh đầu vào. Lớp tích chập được xác định bằng kích thước bộ lọc (hoặc hạt nhân), số lượng bộ lọc được áp dụng và bước sải. Đầu vào và đầu ra của một lớp tích chập có 3 chiều (chiều rộng, chiều cao, số kênh), bắt đầu bằng hình ảnh đầu vào (chiều rộng, chiều cao, các kênh RGB). Khi xếp các lớp tích chập, bạn có thể điều chỉnh chiều rộng và chiều cao của đầu ra bằng cách sử dụng stride > 1 hoặc bằng thao tác gộp tối đa. Độ sâu của đầu ra (số lượng kênh) được điều chỉnh bằng cách sử dụng nhiều hoặc ít bộ lọc hơn.

Đây là giao diện của một mạng nơ-ron tích chập đơn giản trong Keras:

model = tf.keras.Sequential([
  # input: images of size 192x192x3 pixels (the three stands for RGB channels)
  tf.keras.layers.Conv2D(kernel_size=3, filters=24, padding='same', activation='relu', input_shape=[192, 192, 3]),
  tf.keras.layers.Conv2D(kernel_size=3, filters=24, padding='same', activation='relu'),
  tf.keras.layers.MaxPooling2D(pool_size=2),
  tf.keras.layers.Conv2D(kernel_size=3, filters=12, padding='same', activation='relu'),
  tf.keras.layers.MaxPooling2D(pool_size=2),
  tf.keras.layers.Conv2D(kernel_size=3, filters=6, padding='same', activation='relu'),
  tf.keras.layers.Flatten(),
  # classifying into 5 categories
  tf.keras.layers.Dense(5, activation='softmax')
])

model.compile(
  optimizer='adam',
  loss= 'categorical_crossentropy',
  metrics=['accuracy'])

Hướng dẫn cơ bản về mạng nơron tích chập

Trong một lớp của mạng tích chập, một "nơ-ron" sẽ tính tổng có trọng số của các pixel ngay phía trên nó, chỉ trong một vùng nhỏ của hình ảnh. Nó thêm một độ lệch và truyền tổng qua một hàm kích hoạt, giống như một nơ-ron trong lớp dày đặc thông thường. Sau đó, thao tác này được lặp lại trên toàn bộ hình ảnh bằng cách sử dụng cùng một trọng số. Hãy nhớ rằng trong các lớp dày đặc, mỗi nơ-ron đều có trọng số riêng. Ở đây, một "mảng" trọng số duy nhất sẽ trượt trên hình ảnh theo cả hai hướng (một "tích chập"). Đầu ra có nhiều giá trị như số lượng pixel trong hình ảnh (mặc dù cần có một số khoảng đệm ở các cạnh). Đây là một hoạt động lọc, sử dụng bộ lọc có 4x4x3=48 trọng số.

Tuy nhiên, 48 trọng số sẽ không đủ. Để tăng thêm mức độ tự do, chúng ta lặp lại thao tác tương tự với một nhóm trọng số mới. Thao tác này sẽ tạo ra một nhóm đầu ra bộ lọc mới. Hãy gọi đó là "kênh" đầu ra theo cách tương tự như các kênh R,G,B trong hình ảnh đầu vào.

Screen Shot 2016-07-29 at 16.02.37.png

Bạn có thể cộng hai (hoặc nhiều) nhóm trọng số thành một tensor bằng cách thêm một phương diện mới. Điều này cho chúng ta hình dạng chung của tensor trọng số cho một lớp tích chập. Vì số lượng kênh đầu vào và đầu ra là các tham số, nên chúng ta có thể bắt đầu xếp chồng và liên kết các lớp tích chập.

Hình minh hoạ: một mạng nơ-ron tích chập chuyển đổi "các khối" dữ liệu thành "các khối" dữ liệu khác.

Tích chập có bước sải, gộp tối đa

Bằng cách thực hiện các phép tích chập với bước sải là 2 hoặc 3, chúng ta cũng có thể thu nhỏ khối dữ liệu kết quả theo chiều ngang. Có 2 cách phổ biến để thực hiện việc này:

Phép tích chập có bước sải: bộ lọc trượt như trên nhưng có bước sải > 1
Gộp tối đa: một cửa sổ trượt áp dụng thao tác MAX (thường là trên các mảng 2x2, lặp lại sau mỗi 2 pixel)

Minh hoạ: việc trượt cửa sổ tính toán 3 pixel sẽ dẫn đến ít giá trị đầu ra hơn. Các phép tích chập có bước sải hoặc gộp tối đa (tối đa trên cửa sổ 2x2 trượt theo bước sải là 2) là một cách thu nhỏ khối dữ liệu theo chiều ngang.

Bộ phân loại tích chập

Cuối cùng, chúng ta sẽ đính kèm một tiêu đề phân loại bằng cách làm phẳng khối dữ liệu cuối cùng và truyền khối dữ liệu đó qua một lớp dày đặc được kích hoạt bằng softmax. Một bộ phân loại tích chập điển hình có thể có dạng như sau:

Minh hoạ: một trình phân loại hình ảnh sử dụng các lớp tích chập và softmax. Nó sử dụng bộ lọc 3x3 và 1x1. Các lớp maxpool lấy giá trị tối đa của các nhóm gồm 2x2 điểm dữ liệu. Đầu phân loại được triển khai bằng một lớp dày đặc với chế độ kích hoạt softmax.

Trong Keras

Bạn có thể viết ngăn xếp tích chập minh hoạ ở trên trong Keras như sau:

model = tf.keras.Sequential([
  # input: images of size 192x192x3 pixels (the three stands for RGB channels)    
  tf.keras.layers.Conv2D(kernel_size=3, filters=32, padding='same', activation='relu', input_shape=[192, 192, 3]),
  tf.keras.layers.Conv2D(kernel_size=1, filters=32, padding='same', activation='relu'),
  tf.keras.layers.MaxPooling2D(pool_size=2),
  tf.keras.layers.Conv2D(kernel_size=3, filters=32, padding='same', activation='relu'),
  tf.keras.layers.Conv2D(kernel_size=1, filters=32, padding='same', activation='relu'),
  tf.keras.layers.MaxPooling2D(pool_size=2),
  tf.keras.layers.Conv2D(kernel_size=3, filters=32, padding='same', activation='relu'),
  tf.keras.layers.Conv2D(kernel_size=1, filters=32, padding='same', activation='relu'),
  tf.keras.layers.MaxPooling2D(pool_size=2),
  tf.keras.layers.Conv2D(kernel_size=3, filters=32, padding='same', activation='relu'),
  tf.keras.layers.Conv2D(kernel_size=1, filters=32, padding='same', activation='relu'),
  tf.keras.layers.MaxPooling2D(pool_size=2),
  tf.keras.layers.Conv2D(kernel_size=3, filters=16, padding='same', activation='relu'),
  tf.keras.layers.Conv2D(kernel_size=1, filters=8, padding='same', activation='relu'),
  tf.keras.layers.Flatten(),
  # classifying into 5 categories
  tf.keras.layers.Dense(5, activation='softmax')
])

model.compile(
  optimizer='adam',
  loss= 'categorical_crossentropy',
  metrics=['accuracy'])

6. Mạng nơ-ron tích chập tuỳ chỉnh của bạn

Thực hành

Hãy cùng xây dựng và huấn luyện một mạng nơron tích chập từ đầu. Việc sử dụng TPU sẽ giúp chúng tôi lặp lại rất nhanh. Vui lòng mở sổ tay sau, thực thi các ô (Shift-ENTER) và làm theo hướng dẫn bất cứ khi nào bạn thấy nhãn "CẦN THỰC HIỆN".

Keras_Flowers_TPU (playground).ipynb

Mục tiêu là đạt được độ chính xác cao hơn 75% so với mô hình học chuyển giao. Mô hình đó có lợi thế hơn vì đã được huấn luyện trước trên một tập dữ liệu gồm hàng triệu hình ảnh, trong khi chúng ta chỉ có 3670 hình ảnh ở đây. Bạn có thể giảm giá ít nhất bằng mức giá đó không?

Thông tin khác

Có bao nhiêu lớp, kích thước bao nhiêu?

Việc chọn kích thước lớp thiên về nghệ thuật hơn là khoa học. Bạn phải tìm được sự cân bằng phù hợp giữa việc có quá ít và quá nhiều tham số (trọng số và độ lệch). Nếu có quá ít trọng số, mạng nơ-ron sẽ không thể biểu thị độ phức tạp của hình dạng hoa. Nếu có quá nhiều, mô hình có thể dễ bị "quá khớp", tức là chỉ chuyên về hình ảnh huấn luyện và không thể khái quát hoá. Với nhiều tham số, mô hình cũng sẽ huấn luyện chậm. Trong Keras, hàm model.summary() sẽ hiển thị cấu trúc và số lượng tham số của mô hình:

Layer (type)                 Output Shape              Param #   
=================================================================
conv2d (Conv2D)              (None, 192, 192, 16)      448       
_________________________________________________________________
conv2d_1 (Conv2D)            (None, 192, 192, 30)      4350      
_________________________________________________________________
max_pooling2d (MaxPooling2D) (None, 96, 96, 30)        0         
_________________________________________________________________
conv2d_2 (Conv2D)            (None, 96, 96, 60)        16260     
_________________________________________________________________
 ... 
_________________________________________________________________
global_average_pooling2d (Gl (None, 130)               0         
_________________________________________________________________
dense (Dense)                (None, 90)                11790     
_________________________________________________________________
dense_1 (Dense)              (None, 5)                 455       
=================================================================
Total params: 300,033
Trainable params: 300,033
Non-trainable params: 0
_________________________________________________________________

Một vài mẹo:

Việc có nhiều lớp là yếu tố giúp mạng nơ-ron "sâu" hoạt động hiệu quả. Đối với vấn đề nhận dạng hoa đơn giản này, 5 đến 10 lớp là hợp lý.
Sử dụng bộ lọc nhỏ. Thông thường, bộ lọc 3x3 sẽ phù hợp ở mọi nơi.
Bạn cũng có thể dùng bộ lọc 1x1 và chúng có giá thành rẻ. Chúng không thực sự "lọc" bất cứ thứ gì mà chỉ tính toán các tổ hợp tuyến tính của các kênh. Thay thế các bộ lọc đó bằng bộ lọc thực. ("1x1 convolutions" sẽ được đề cập thêm trong phần tiếp theo.)
Đối với một vấn đề phân loại như thế này, hãy giảm mẫu thường xuyên bằng các lớp gộp tối đa (hoặc các lớp tích chập có bước sải > 1). Bạn không quan tâm đến vị trí của bông hoa, mà chỉ quan tâm đến việc đó là hoa hồng hay hoa bồ công anh. Vì vậy, việc mất thông tin x và y không quan trọng và việc lọc các khu vực nhỏ hơn sẽ rẻ hơn.
Số lượng bộ lọc thường tương tự như số lượng lớp ở cuối mạng (tại sao? xem thủ thuật "gộp trung bình toàn cục" bên dưới). Nếu bạn phân loại thành hàng trăm lớp, hãy tăng dần số lượng bộ lọc trong các lớp liên tiếp. Đối với tập dữ liệu hoa có 5 lớp, chỉ lọc bằng 5 bộ lọc sẽ không đủ. Bạn có thể sử dụng cùng một số lượng bộ lọc trong hầu hết các lớp, ví dụ: 32 và giảm số lượng này về cuối.
(Các) lớp dày đặc cuối cùng khá tốn kém. Nó/chúng có thể có trọng số lớn hơn tổng trọng số của tất cả các lớp tích chập. Ví dụ: ngay cả khi có đầu ra rất hợp lý từ khối dữ liệu cuối cùng gồm 24x24x10 điểm dữ liệu, một lớp dày đặc gồm 100 nơ-ron sẽ tốn 24x24x10x100=576.000 trọng số!!! Hãy cố gắng suy nghĩ thấu đáo hoặc thử tính năng gộp trung bình toàn cục (xem bên dưới).

Gộp trung bình toàn cục

Thay vì sử dụng một lớp dày đặc tốn kém ở cuối mạng nơ-ron tích chập, bạn có thể chia "khối" dữ liệu đến thành nhiều phần như số lượng loại bạn có, tính trung bình các giá trị của chúng và đưa các giá trị này qua một hàm kích hoạt softmax. Cách tạo phần đầu phân loại này không tốn trọng số. Trong Keras, cú pháp là tf.keras.layers.GlobalAveragePooling2D().

Giải pháp

Sau đây là sổ tay giải pháp. Bạn có thể sử dụng mã này nếu gặp khó khăn.

Keras_Flowers_TPU (solution).ipynb

Nội dung đã đề cập

🤔 Chơi với các lớp tích chập
🤓 Thử nghiệm với tính năng gộp tối đa, bước sải, tính năng gộp trung bình toàn cục, ...
😀 lặp lại nhanh chóng trên một mô hình thực tế, trên TPU

Vui lòng dành chút thời gian để xem qua danh sách kiểm tra này.

7. Xin chúc mừng!

Bạn đã xây dựng mạng nơ-ron tích chập hiện đại đầu tiên và huấn luyện mạng này đạt độ chính xác trên 80%, đồng thời lặp lại kiến trúc của mạng chỉ trong vài phút nhờ TPU. Vui lòng chuyển sang phòng thí nghiệm tiếp theo để tìm hiểu về các cấu trúc tích chập hiện đại:

Quy trình xử lý dữ liệu tốc độ TPU: tf.data.Dataset và TFRecords
Mô hình Keras đầu tiên của bạn, có sử dụng phương pháp học chuyển giao
[LỚP HỌC NÀY] Mạng nơron tích chập, có Keras và TPU
Mạng nơron tích chập hiện đại, squeezenet, Xception, sử dụng Keras và TPU

TPU trong thực tế

TPU và GPU có trên Cloud AI Platform:

Trên Máy ảo học sâu
Trong AI Platform Notebooks
Trong các công việc AI Platform Training

Cuối cùng, chúng tôi rất mong nhận được ý kiến phản hồi. Vui lòng cho chúng tôi biết nếu bạn thấy có điều gì sai sót trong phòng thí nghiệm này hoặc nếu bạn nghĩ rằng chúng tôi nên cải thiện. Bạn có thể gửi ý kiến phản hồi thông qua các vấn đề trên GitHub [ đường liên kết phản hồi].

Martin Görner ID small.jpg
Tác giả: Martin Görner
Twitter: @martin_gorner

tensorflow logo.jpg
www.tensorflow.org