Phát hiện các đối tượng trong hình ảnh để tạo kết quả tìm kiếm sản phẩm trực quan bằng Bộ công cụ học máy: Android

1. Trước khi bắt đầu

Bạn đã xem bản minh hoạ của Google Ống kính, nơi bạn có thể hướng camera của điện thoại vào một vật thể và tìm nơi để mua thiết bị đó trên mạng chưa? Nếu bạn muốn tìm hiểu cách thêm cùng một tính năng vào ứng dụng, thì lớp học lập trình này là dành cho bạn. Đây là một phần của lộ trình học tập hướng dẫn bạn cách tích hợp tính năng tìm kiếm hình ảnh sản phẩm vào ứng dụng di động.

Trong lớp học lập trình này, bạn sẽ tìm hiểu bước đầu tiên để xây dựng tính năng tìm kiếm hình ảnh sản phẩm: cách phát hiện đối tượng trong hình ảnh và cho phép người dùng chọn đối tượng họ muốn tìm kiếm. Bạn sẽ dùng tính năng Phát hiện và theo dõi đối tượng trong Bộ công cụ học máy để tạo tính năng này.

Bạn có thể tìm hiểu về các bước còn lại, bao gồm cả cách tạo phần phụ trợ tìm kiếm sản phẩm bằng Vision API Product Search, trong lộ trình học tập.

Sản phẩm bạn sẽ tạo ra

Trong lớp học lập trình này, bạn sẽ xây dựng một ứng dụng Android bằng Bộ công cụ học máy. Ứng dụng của bạn sẽ sử dụng API Phát hiện và theo dõi đối tượng của Bộ công cụ học máy để phát hiện các đối tượng trong một hình ảnh nhất định. Sau đó, người dùng sẽ chọn một đối tượng họ muốn tìm kiếm trong cơ sở dữ liệu sản phẩm của chúng tôi.
Cuối cùng, bạn sẽ thấy nội dung tương tự như hình ảnh ở bên phải.

Kiến thức bạn sẽ học được

Cách tích hợp SDK Bộ công cụ học máy vào ứng dụng Android
API Phát hiện và theo dõi đối tượng trong bộ công cụ học máy

Bạn cần có

Phiên bản Android Studio gần đây (v4.1.2 trở lên)
Trình mô phỏng Android Studio hoặc thiết bị Android thực
Mã mẫu
Kiến thức cơ bản về cách phát triển cho Android bằng Kotlin

Lớp học lập trình này tập trung vào Bộ công cụ học máy. Các khái niệm và khối mã khác không được nghiên cứu mà chỉ được cung cấp để bạn sao chép và dán.

2. Bắt đầu thiết lập

Tải mã nguồn xuống

Nhấp vào đường liên kết sau đây để tải toàn bộ mã nguồn cho lớp học lập trình này:

Giải nén tệp zip đã tải xuống. Thao tác này sẽ giải nén thư mục gốc (odml-pathways-main) cùng với tất cả tài nguyên bạn cần. Đối với lớp học lập trình này, bạn chỉ cần có các nguồn trong thư mục con product-search/codelab1/android.

Thư mục con phát hiện đối tượng trong kho lưu trữ mlkit-android chứa hai thư mục:

starter (khởi đầu) – Đoạn mã khởi đầu mà bạn sử dụng cho lớp học lập trình này.
hoàn thiện – Mã đã hoàn tất cho ứng dụng mẫu hoàn chỉnh.

3. Thêm API Phát hiện và theo dõi đối tượng của bộ công cụ học máy vào dự án

Nhập ứng dụng vào Android Studio

Bắt đầu bằng cách nhập ứng dụng starter (khởi đầu) vào Android Studio.

Chuyển đến Android Studio, chọn Import Project (Gradle, Eclipse ADT, v.v.) rồi chọn thư mục starter (khởi động) từ mã nguồn mà bạn đã tải xuống trước đó.

Thêm các phần phụ thuộc cho tính năng Phát hiện và theo dõi đối tượng của Bộ công cụ học máy

Các phần phụ thuộc của Bộ công cụ học máy cho phép bạn tích hợp SDK ODT của Bộ công cụ học máy trong ứng dụng của mình.

Chuyển đến tệp app/build.gradle của dự án và xác nhận rằng phần phụ thuộc đã có ở đó:

build.gradle

dependencies {
  // ...
  implementation 'com.google.mlkit:object-detection:16.2.4'
}

Đồng bộ hoá dự án với các tệp gradle

Để đảm bảo tất cả phần phụ thuộc đều dùng được cho ứng dụng, bạn nên đồng bộ hoá dự án với các tệp gradle.

Chọn Sync Project with Gradle Files (Đồng bộ hoá dự án với tệp Gradle) () trên thanh công cụ Android Studio.

(Nếu nút này bị tắt, hãy đảm bảo bạn chỉ nhập starter/app/build.gradle, chứ không phải toàn bộ kho lưu trữ.)

4. Chạy ứng dụng khởi đầu

Giờ đây, sau khi nhập dự án vào Android Studio và thêm các phần phụ thuộc cho tính năng Phát hiện và theo dõi đối tượng của bộ công cụ học máy, bạn đã sẵn sàng chạy ứng dụng này lần đầu tiên.

Kết nối thiết bị Android với máy chủ lưu trữ qua USB hoặc Khởi động trình mô phỏng Android Studio rồi nhấp vào Run (Chạy) () trên thanh công cụ Android Studio.

Chạy và khám phá ứng dụng

Ứng dụng sẽ chạy trên thiết bị Android của bạn. Lớp học này có một số mã nguyên mẫu để cho phép bạn chụp ảnh hoặc chọn một hình ảnh đặt trước, sau đó cấp dữ liệu vào một quy trình phát hiện và theo dõi đối tượng mà bạn sẽ xây dựng trong lớp học lập trình này. Khám phá ứng dụng một chút trước khi viết mã:

Đầu tiên, có một Nút ( ) ở dưới cùng để

chạy ứng dụng máy ảnh tích hợp trong thiết bị/trình mô phỏng của bạn
chụp ảnh bên trong ứng dụng máy ảnh
nhận hình ảnh đã chụp trong ứng dụng khởi động
hiển thị hình ảnh

Hãy thử tính năng "Chụp ảnh" . Làm theo lời nhắc để chụp ảnh, chấp nhận ảnh và quan sát ảnh hiển thị bên trong ứng dụng khởi động.

Thứ hai, có 3 hình ảnh đặt trước để bạn chọn. Bạn có thể sử dụng những hình ảnh này vào lúc khác để kiểm thử mã phát hiện đối tượng nếu đang chạy trên trình mô phỏng Android.

Chọn một hình ảnh trong số 3 hình ảnh đặt trước.
Đảm bảo rằng hình ảnh hiển thị ở chế độ xem lớn hơn.

5. Thêm tính năng phát hiện đối tượng trên thiết bị

Ở bước này, bạn sẽ thêm chức năng vào ứng dụng khởi đầu để phát hiện các đối tượng trong hình ảnh. Như bạn đã thấy trong bước trước, ứng dụng khởi đầu chứa mã nguyên mẫu để chụp ảnh bằng ứng dụng máy ảnh trên thiết bị. Ngoài ra, bạn có thể thử dùng tính năng phát hiện đối tượng bằng 3 hình ảnh đặt trước trong ứng dụng nếu đang chạy lớp học lập trình trên trình mô phỏng Android.

Khi bạn chọn một hình ảnh, từ các hình ảnh đặt trước hoặc bằng cách chụp ảnh bằng ứng dụng máy ảnh, mã nguyên mẫu sẽ giải mã hình ảnh đó thành một thực thể Bitmap, hiển thị hình ảnh trên màn hình và gọi phương thức runObjectDetection bằng hình ảnh.

Trong bước này, bạn sẽ thêm mã vào phương thức runObjectDetection để phát hiện đối tượng!

Thiết lập và chạy tính năng phát hiện đối tượng trên thiết bị cho một hình ảnh

Chỉ có 3 bước đơn giản với 3 API để thiết lập ODT cho Bộ công cụ học máy

chuẩn bị một hình ảnh: InputImage
tạo một đối tượng trình phát hiện: ObjectDetection.getClient(options)
kết nối 2 đối tượng ở trên: process(image)

Bạn sẽ thực hiện được những việc này bên trong hàm **runObjectDetection(bitmap: Bitmap)**trong tệp MainActivity.kt.

/**
 * ML Kit Object Detection Function
 */
private fun runObjectDetection(bitmap: Bitmap) {
}

Hiện tại, hàm này đang trống. Hãy chuyển sang các bước sau để tích hợp ODT cho Bộ công cụ học máy! Đồng thời, Android Studio sẽ nhắc bạn thêm các lệnh nhập cần thiết

com.google.mlkit.vision.common.InputImage
com.google.mlkit.vision.objects.ObjectDetection
com.google.mlkit.vision.objects.defaults.ObjectDetectorOptions

Bước 1: Tạo InputImage

Bộ công cụ học máy cung cấp một API đơn giản để tạo InputImage từ Bitmap. Sau đó, bạn có thể cấp InputImage cho các API của Bộ công cụ học máy.

// Step 1: create ML Kit's InputImage object
val image = InputImage.fromBitmap(bitmap, 0)

Thêm mã ở trên vào đầu runObjectDetection(bitmap:Bitmap).

Bước 2: Tạo một thực thể của trình phát hiện

Bộ công cụ học máy tuân theo Mẫu thiết kế dành cho trình tạo bản dựng, bạn sẽ truyền cấu hình này đến trình tạo, sau đó thu nạp trình phát hiện từ trình tạo đó. Có 3 tuỳ chọn để định cấu hình (tuỳ chọn in đậm được sử dụng trong lớp học lập trình):

chế độ trình phát hiện (một hình ảnh hoặc luồng)
chế độ phát hiện (phát hiện một hoặc nhiều đối tượng)
chế độ phân loại (bật hoặc tắt)

Lớp học lập trình này dành cho một hình ảnh – phát hiện nhiều đối tượng và hãy thực hiện điều đó:

// Step 2: acquire detector object
val options = ObjectDetectorOptions.Builder()
   .setDetectorMode(ObjectDetectorOptions.SINGLE_IMAGE_MODE)
   .enableMultipleObjects()
   .enableClassification()
   .build()
val objectDetector = ObjectDetection.getClient(options)

Bước 3: Cung cấp(các) hình ảnh cho trình phát hiện

Tính năng phát hiện và phân loại đối tượng là quá trình xử lý không đồng bộ:

bạn gửi hình ảnh đến trình phát hiện (qua process())
trình phát hiện hoạt động khá khó khăn
trình phát hiện báo cáo kết quả lại cho bạn qua lệnh gọi lại

Đoạn mã sau đây sẽ thực hiện việc đó (sao chép và thêm mã này vào mã hiện có bên trong fun runObjectDetection(bitmap:Bitmap)):

// Step 3: feed given image to detector and setup callback
objectDetector.process(image)
   .addOnSuccessListener {
       // Task completed successfully
        debugPrint(it)
   }
   .addOnFailureListener {
       // Task failed with an exception
       Log.e(TAG, it.message.toString())
   }

Sau khi hoàn tất, trình phát hiện sẽ thông báo cho bạn về

Tổng số đối tượng được phát hiện
Mỗi đối tượng phát hiện được sẽ được mô tả bằng

trackingId: một số nguyên bạn dùng để theo dõi nó trong các khung hình (KHÔNG được sử dụng trong lớp học lập trình này)
boundingBox: hộp giới hạn của đối tượng
labels: danh sách(các) nhãn cho đối tượng được phát hiện (chỉ khi tính năng phân loại đang bật)
index (Lấy chỉ mục của nhãn này)
text (Lấy văn bản của nhãn này, bao gồm "Hàng thời trang", "Thực phẩm", "Đồ gia dụng", "Địa điểm", "Thực vật")
confidence (số thực từ 0,0 đến 1,0 với 1,0 có nghĩa là 100%)

Có thể bạn nhận thấy các bản in mã đã phát hiện kết quả tới Logcat bằng debugPrint(). Thêm phương thức này vào lớp MainActivity:

private fun debugPrint(detectedObjects: List<DetectedObject>) {
   detectedObjects.forEachIndexed { index, detectedObject ->
       val box = detectedObject.boundingBox

       Log.d(TAG, "Detected object: $index")
       Log.d(TAG, " trackingId: ${detectedObject.trackingId}")
       Log.d(TAG, " boundingBox: (${box.left}, ${box.top}) - (${box.right},${box.bottom})")
       detectedObject.labels.forEach {
           Log.d(TAG, " categories: ${it.text}")
           Log.d(TAG, " confidence: ${it.confidence}")
       }
   }
}

Bây giờ, bạn có thể chấp nhận hình ảnh để phát hiện!

Chạy lớp học lập trình bằng cách nhấp vào biểu tượng Chạy ( ) trên thanh công cụ Android Studio. Hãy thử chọn một hình ảnh đặt trước hoặc chụp ảnh, sau đó xem cửa sổ logcat( ) bên trong IDE. Bạn sẽ thấy mã tương tự như sau:

D/MLKit Object Detection: Detected object: 0
D/MLKit Object Detection:  trackingId: null
D/MLKit Object Detection:  boundingBox: (481, 2021) - (2426,3376)
D/MLKit Object Detection:  categories: Fashion good
D/MLKit Object Detection:  confidence: 0.90234375
D/MLKit Object Detection: Detected object: 1
D/MLKit Object Detection:  trackingId: null
D/MLKit Object Detection:  boundingBox: (2639, 2633) - (3058,3577)
D/MLKit Object Detection: Detected object: 2
D/MLKit Object Detection:  trackingId: null
D/MLKit Object Detection:  boundingBox: (3, 1816) - (615,2597)
D/MLKit Object Detection:  categories: Home good
D/MLKit Object Detection:  confidence: 0.75390625

điều đó có nghĩa là máy phát hiện thấy 3 vật thể:

là Hàng thời trang và Hàng gia dụng.
không có danh mục nào được trả về cho lớp thứ 2 vì đây là lớp không xác định.
không trackingId (vì đây là chế độ phát hiện hình ảnh đơn)
vị trí bên trong hình chữ nhật boundingBox (ví dụ: (481, 2021) – (2426, 3376))
người phát hiện khá tự tin rằng người thứ nhất là Người dùng hợp thời trang (90%) (đó là một chiếc váy)

Về mặt kỹ thuật là tất cả những gì bạn cần để tính năng Phát hiện đối tượng của Bộ công cụ học máy hoạt động. Giờ đây, bạn đã có thể thành công! Xin chúc mừng!

Về mặt giao diện người dùng, bạn vẫn đang ở giai đoạn khi bắt đầu, nhưng bạn có thể tận dụng các kết quả phát hiện được trên giao diện người dùng, chẳng hạn như vẽ hộp giới hạn để tạo trải nghiệm tốt hơn. Bước tiếp theo là trực quan hoá các kết quả phát hiện được!

6. Xử lý hậu kỳ kết quả phát hiện

Trong các bước trước, bạn đã in kết quả phát hiện được vào logcat: đơn giản và nhanh chóng.

Trong phần này, bạn sẽ sử dụng kết quả trong hình ảnh:

vẽ hộp giới hạn trên hình ảnh
vẽ tên danh mục và mức độ tin cậy bên trong hộp giới hạn

Tìm hiểu các tiện ích trực quan hoá

Có một số mã nguyên mẫu bên trong lớp học lập trình để giúp bạn trực quan hoá kết quả phát hiện. Tận dụng các tiện ích này để đơn giản hoá mã trực quan hoá của chúng tôi:

class ImageClickableView Đây là lớp thành phần hiển thị hình ảnh cung cấp một số tiện ích thuận tiện để trực quan hoá và tương tác với kết quả phát hiện.
fun drawDetectionResults(results: List<DetectedObject>) Phương thức này vẽ các vòng tròn màu trắng ở giữa mỗi đối tượng được phát hiện.
fun setOnObjectClickListener(listener: ((objectImage: Bitmap) -> Unit)) Đây là lệnh gọi lại để nhận hình ảnh bị cắt chỉ chứa đối tượng mà người dùng đã nhấn vào. Bạn sẽ gửi hình ảnh đã cắt này đến phần phụ trợ tìm kiếm hình ảnh trong lớp học lập trình sau này để nhận được kết quả có hình ảnh tương tự. Trong lớp học lập trình này, bạn sẽ chưa sử dụng phương thức này.

Hiện kết quả phát hiện Bộ công cụ học máy

Sử dụng các tiện ích trực quan hoá để hiện kết quả phát hiện đối tượng Bộ công cụ học máy ở đầu hình ảnh đầu vào.

Chuyển đến nơi bạn gọi debugPrint() và thêm đoạn mã sau bên dưới:

runOnUiThread {
    viewBinding.ivPreview.drawDetectionResults(it)
}

Chạy ứng dụng

Bây giờ, hãy nhấp vào biểu tượng Run (Chạy) () trên thanh công cụ Android Studio.

Sau khi ứng dụng tải xong, hãy nhấn Nút có biểu tượng máy ảnh, hướng máy ảnh vào một đối tượng, chụp ảnh, chấp nhận ảnh (trong Ứng dụng máy ảnh) hoặc bạn có thể dễ dàng nhấn vào bất kỳ hình ảnh đặt trước nào. Bạn sẽ thấy kết quả phát hiện; nhấn nút đó một lần nữa hoặc chọn một hình ảnh khác để lặp lại vài lần, rồi trải nghiệm giải pháp ODT mới nhất của Bộ công cụ học máy!

7. Xin chúc mừng!

Bạn đã dùng Bộ công cụ học máy để thêm các chức năng Phát hiện đối tượng vào ứng dụng của mình:

3 bước với 3 API
Tạo hình ảnh đầu vào
Tạo trình phát hiện
Gửi hình ảnh đến trình phát hiện

Đó là tất cả những gì bạn cần để thiết lập và chạy chiến dịch!

Nội dung đã đề cập

Cách thêm tính năng Phát hiện và theo dõi đối tượng của bộ công cụ học máy vào ứng dụng Android
Cách dùng tính năng theo dõi và phát hiện vật thể trên thiết bị trong Bộ công cụ học máy để phát hiện vật thể trong hình ảnh

Các bước tiếp theo

Hãy thử tham gia lớp học lập trình này về cách gửi đối tượng được phát hiện đến phần phụ trợ tìm kiếm sản phẩm và hiển thị kết quả tìm kiếm
Khám phá thêm bằng ODT của Bộ công cụ học máy với nhiều hình ảnh và video trực tiếp hơn để trải nghiệm khả năng phát hiện và độ chính xác và hiệu suất của hoạt động phân loại
Tham khảo lộ trình học tập Tiến bộ hơn nhờ tính năng phát hiện đối tượng để tìm hiểu cách huấn luyện một mô hình tuỳ chỉnh
Đọc các đề xuất của Material Design đối với máy ảnh trực tiếp và hình ảnh tĩnh phát hiện đối tượng
Áp dụng ODT của Bộ công cụ học máy trong ứng dụng Android của riêng bạn

Tìm hiểu thêm

https://developers.google.com/ml-kit/vision/object-detection