Bảo mật dữ liệu được dùng cho các ứng dụng AI

1. Giới thiệu

Tổng quan

Trong phòng thí nghiệm này, bạn sẽ tạo một quy trình tự động dọn dẹp dữ liệu để bảo vệ thông tin nhạy cảm được dùng trong hoạt động phát triển AI. Bạn sử dụng dịch vụ Bảo vệ dữ liệu nhạy cảm của Google Cloud (trước đây là Cloud DLP) để kiểm tra, phân loại và loại bỏ thông tin nhận dạng cá nhân (PII) trên nhiều định dạng dữ liệu, bao gồm cả văn bản không có cấu trúc, bảng có cấu trúc và hình ảnh.

Ngữ cảnh

Bạn là người ủng hộ bảo mật và quyền riêng tư trong nhóm phát triển của mình. Mục tiêu của bạn là thiết lập một quy trình xác định thông tin nhạy cảm và xoá thông tin nhận dạng trước khi cung cấp thông tin đó cho nhà phát triển và mô hình. Nhóm của bạn cần dữ liệu thực tế, chất lượng cao để điều chỉnh và kiểm thử một ứng dụng AI tạo sinh mới, nhưng việc sử dụng dữ liệu thô của khách hàng sẽ gây ra những thách thức đáng kể về quyền riêng tư.

Bảng sau đây liệt kê những rủi ro về quyền riêng tư mà bạn lo ngại nhất cần phải giảm thiểu:

Rủi ro	Giải pháp giảm thiểu
Để lộ thông tin nhận dạng cá nhân trong các tệp văn bản không có cấu trúc (ví dụ: nhật ký trò chuyện hỗ trợ, biểu mẫu phản hồi).	Tạo một mẫu xoá thông tin nhận dạng để thay thế các giá trị nhạy cảm bằng infoType tương ứng, duy trì ngữ cảnh trong khi loại bỏ thông tin nhận dạng.
Mất tiện ích dữ liệu trong các tập dữ liệu có cấu trúc (CSV) khi thông tin nhận dạng cá nhân bị xoá.	Sử dụng các phép biến đổi bản ghi để chọn lọc thông tin nhận dạng (chẳng hạn như tên) và áp dụng các kỹ thuật như che ký tự để giữ lại các ký tự khác trong chuỗi, nhờ đó nhà phát triển vẫn có thể kiểm thử bằng dữ liệu.
Để lộ thông tin nhận dạng cá nhân (PII) từ văn bản được nhúng trong hình ảnh (ví dụ: tài liệu được quét, ảnh người dùng).	Tạo một mẫu xoá thông tin nhận dạng dành riêng cho hình ảnh để biên tập văn bản trong hình ảnh.
Việc che giấu thông tin theo cách thủ công không nhất quán hoặc dễ xảy ra lỗi trên nhiều loại dữ liệu.	Định cấu hình một công việc duy nhất, tự động của tính năng Bảo vệ dữ liệu nhạy cảm để luôn áp dụng đúng mẫu xoá thông tin nhận dạng dựa trên loại tệp mà công việc đó xử lý.

Kiến thức bạn sẽ học được

Trong phòng thực hành này, bạn sẽ tìm hiểu cách:

Xác định một mẫu kiểm tra để phát hiện các loại thông tin nhạy cảm cụ thể (infoTypes).
Xây dựng các quy tắc xoá thông tin nhận dạng riêng biệt cho dữ liệu không có cấu trúc, dữ liệu có cấu trúc và dữ liệu hình ảnh.
Định cấu hình và chạy một công việc duy nhất tự động áp dụng phương pháp biên tập phù hợp dựa trên loại tệp cho nội dung của toàn bộ vùng chứa.
Xác minh quá trình chuyển đổi thành công dữ liệu nhạy cảm ở một vị trí đầu ra an toàn.

2. Thiết lập dự án

Tài khoản Google

Nếu chưa có Tài khoản Google cá nhân, bạn phải tạo một Tài khoản Google.

Sử dụng tài khoản cá nhân thay vì tài khoản do nơi làm việc hoặc trường học cấp.

Đăng nhập vào Google Cloud Console bằng Tài khoản Google cá nhân.

Bật thanh toán

Đổi 5 USD tín dụng Google Cloud (không bắt buộc)

Để tham gia hội thảo này, bạn cần có một Tài khoản thanh toán có sẵn một số tín dụng. Nếu dự định sử dụng hệ thống thanh toán của riêng mình, bạn có thể bỏ qua bước này.

Nhấp vào đường liên kết này rồi đăng nhập bằng Tài khoản Google cá nhân.Bạn sẽ thấy nội dung như sau:
Nhấp vào nút NHẤP VÀO ĐÂY ĐỂ TRUY CẬP VÀO KHOẢN TÍN DỤNG.Thao tác này sẽ đưa bạn đến một trang để thiết lập hồ sơ thanh toán
Nhấp vào Xác nhận. Giờ đây, bạn đã kết nối với một Tài khoản thanh toán dùng thử trên Google Cloud Platform.

Thiết lập tài khoản thanh toán cá nhân

Nếu thiết lập thông tin thanh toán bằng tín dụng Google Cloud, bạn có thể bỏ qua bước này.

Để thiết lập tài khoản thanh toán cá nhân, hãy truy cập vào đây để bật tính năng thanh toán trong Cloud Console.

Một số lưu ý:

Việc hoàn thành bài thực hành này sẽ tốn ít hơn 1 USD cho các tài nguyên trên đám mây.
Bạn có thể làm theo các bước ở cuối bài thực hành này để xoá tài nguyên nhằm tránh bị tính thêm phí.
Người dùng mới đủ điều kiện dùng thử miễn phí 300 USD.

Tạo dự án (không bắt buộc)

Nếu bạn không có dự án hiện tại muốn sử dụng cho lớp học này, hãy tạo một dự án mới tại đây.

3. Bật các API

Định cấu hình Cloud Shell

Sau khi tạo dự án thành công, hãy làm theo các bước sau để thiết lập Cloud Shell.

Khởi chạy Cloud Shell

Truy cập vào shell.cloud.google.com và nếu bạn thấy một cửa sổ bật lên yêu cầu bạn uỷ quyền, hãy nhấp vào Uỷ quyền.

Đặt mã dự án

Thực thi lệnh sau trong cửa sổ dòng lệnh Cloud Shell để đặt Mã dự án chính xác. Thay thế <your-project-id> bằng mã dự án thực tế mà bạn đã sao chép ở bước tạo dự án nêu trên.

gcloud config set project <your-project-id>

Bây giờ, bạn sẽ thấy dự án chính xác được chọn trong thiết bị đầu cuối Cloud Shell.

Bật tính năng Bảo vệ dữ liệu nhạy cảm

Để sử dụng dịch vụ Bảo vệ dữ liệu nhạy cảm và Cloud Storage, bạn cần đảm bảo rằng các API này được bật trong dự án Google Cloud của bạn.

Trong dòng lệnh, hãy bật các API:

gcloud services enable dlp.googleapis.com storage.googleapis.com

Ngoài ra, bạn có thể bật các API này bằng cách chuyển đến phần Bảo mật > Bảo vệ dữ liệu nhạy cảm và Bộ nhớ đám mây trong bảng điều khiển rồi nhấp vào nút Bật nếu được nhắc cho từng dịch vụ.

4. Tạo các vùng lưu trữ chứa dữ liệu nhạy cảm

Tạo một vùng chứa đầu vào và đầu ra

Trong bước này, bạn sẽ tạo 2 vùng chứa: một vùng chứa để lưu trữ dữ liệu nhạy cảm cần được kiểm tra và một vùng chứa khác để Dịch vụ bảo vệ dữ liệu nhạy cảm lưu trữ các tệp đầu ra đã được gỡ bỏ thông tin nhận dạng. Bạn cũng có thể tải các tệp dữ liệu mẫu xuống rồi tải lên nhóm đầu vào.

Trong thiết bị đầu cuối, hãy chạy các lệnh sau để tạo một vùng chứa cho dữ liệu đầu vào và một vùng chứa cho dữ liệu đầu ra, sau đó điền dữ liệu mẫu vào vùng chứa đầu vào từ gs://dlp-codelab-data:
```
PROJECT_ID=$(gcloud config get-value project)
gsutil mb gs://input-$PROJECT_ID
gsutil mb gs://output-$PROJECT_ID
```

Thêm dữ liệu nhạy cảm vào vùng chứa đầu vào

Trong bước này, bạn sẽ tải các tệp dữ liệu mẫu chứa thông tin nhận dạng cá nhân (PII) thử nghiệm xuống từ GitHub rồi tải các tệp đó lên vùng chứa đầu vào.

Trong Cloud Shell, hãy chạy lệnh sau để sao chép kho lưu trữ devrel-demos. Kho lưu trữ này chứa dữ liệu mẫu cần thiết cho phòng thực hành này.

REPO_URL="https://github.com/GoogleCloudPlatform/devrel-demos.git"
TARGET_PATH="security/sample-data"
OUTPUT_FOLDER="sample-data"

git clone --quiet --depth 1 --filter=blob:none --sparse "$REPO_URL" temp_loader
cd temp_loader
git sparse-checkout set "$TARGET_PATH"
cd ..
mv "temp_loader/$TARGET_PATH" "$OUTPUT_FOLDER"
rm -rf temp_loader

Tiếp theo, hãy sao chép dữ liệu mẫu vào vùng chứa đầu vào mà bạn đã tạo trước đó:
```
gsutil -m cp -r sample-data/* gs://input-$PROJECT_ID/
```
Chuyển đến Cloud Storage > Buckets (Cloud Storage > Bộ chứa) rồi nhấp vào bộ chứa đầu vào để xem dữ liệu bạn đã nhập.
Có thể mất một lúc để các tệp và nhóm xuất hiện. Vì vậy, nếu trang trông trống trơn ngay sau khi nhập dữ liệu mẫu, vui lòng đợi một lát rồi làm mới.

5. Tạo mẫu kiểm tra

Trong bài này, bạn sẽ tạo một mẫu cho biết Bảo vệ dữ liệu nhạy cảm cần tìm những gì. Nhờ đó, bạn có thể tập trung kiểm tra infoTypes có liên quan đến dữ liệu và khu vực địa lý của bạn, giúp cải thiện hiệu suất và độ chính xác.

Tạo mẫu kiểm tra

Ở bước này, bạn xác định các quy tắc về những dữ liệu nhạy cảm cần được kiểm tra. Các công việc loại bỏ thông tin nhận dạng của bạn sẽ sử dụng lại mẫu này để đảm bảo tính nhất quán.

Trong trình đơn điều hướng, hãy chuyển đến Bảo vệ dữ liệu nhạy cảm > Cấu hình > Mẫu.
Nhấp vào Tạo mẫu.
Đối với Loại mẫu, hãy chọn Kiểm tra (tìm dữ liệu nhạy cảm).
Đặt Mã mẫu thành pii-finder.
Tiếp tục đến phần Định cấu hình tính năng phát hiện.
Nhấp vào Quản lý infoTypes.
Sử dụng bộ lọc, tìm kiếm infoTypes sau đây rồi đánh dấu vào hộp bên cạnh từng loại:
- CREDIT_CARD_EXPIRATION_DATE
- CREDIT_CARD_NUMBER
- DATE_OF_BIRTH
- DRIVERS_LICENSE_NUMBER
- EMAIL_ADDRESS
- GCP_API_KEY
- GCP_CREDENTIALS
- ORGANIZATION_NAME
- PASSWORD
- PERSON_NAME
- PHONE_NUMBER
- US_SOCIAL_SECURITY_NUMBER
Chọn những chủ đề khác mà bạn cũng quan tâm, rồi nhấp vào Xong.
Kiểm tra bảng kết quả để đảm bảo bạn đã thêm tất cả các infoType này.
Nhấp vào Tạo.

6. Tạo mẫu xoá thông tin nhận dạng

Tiếp theo, bạn tạo 3 mẫu xoá thông tin nhận dạng riêng biệt để xử lý các định dạng dữ liệu khác nhau. Điều này giúp bạn kiểm soát chi tiết quy trình chuyển đổi, áp dụng phương pháp phù hợp nhất cho từng loại tệp. Các mẫu này hoạt động cùng với mẫu kiểm tra mà bạn vừa tạo.

Tạo mẫu cho dữ liệu không có cấu trúc

Mẫu này sẽ xác định cách xoá thông tin nhận dạng của dữ liệu nhạy cảm được tìm thấy trong văn bản dạng tự do, chẳng hạn như nhật ký trò chuyện hoặc biểu mẫu phản hồi. Phương thức đã chọn sẽ thay thế giá trị nhạy cảm bằng tên infoType của giá trị đó, đồng thời vẫn giữ nguyên ngữ cảnh.

Trên trang Mẫu, hãy nhấp vào Tạo mẫu.

Xác định mẫu xoá thông tin nhận dạng:

Thuộc tính	Giá trị (nhập hoặc chọn)
Loại mẫu	Loại bỏ thông tin nhận dạng (xoá dữ liệu nhạy cảm)
Loại chuyển đổi dữ liệu	InfoType
Mã mẫu	`de-identify-unstructured`

Tiếp tục đến bước Định cấu hình chế độ loại bỏ thông tin nhận dạng.
- Trong mục Phương thức biến đổi, hãy chọn Biến đổi: Thay thế bằng tên infoType.
Lý do nên dùng: Đối với văn bản tuỳ ý như email hoặc nhật ký, phương thức này sẽ thay thế dữ liệu nhạy cảm bằng loại dữ liệu đó (ví dụ: "John Doe" trở thành "[PERSON_NAME]"). Thông tin này cho bạn biết lý do dữ liệu bị loại bỏ trong khi vẫn xoá PII.
Nhấp vào Tạo.
Nhấp vào Kiểm tra.
Kiểm thử một thông báo có chứa PII để xem thông báo đó sẽ được chuyển đổi như thế nào:
```
Hi, my name is Alex and my SSN is 555-11-5555. You can reach me at +1-555-555-5555.
```

Tạo mẫu cho dữ liệu có cấu trúc

Mẫu này nhắm đến thông tin nhạy cảm trong tập dữ liệu có cấu trúc, chẳng hạn như tệp CSV. Bạn sẽ định cấu hình để che dấu dữ liệu theo cách vẫn giữ được tính hữu ích của dữ liệu cho mục đích kiểm thử, đồng thời vẫn loại bỏ thông tin nhận dạng khỏi các trường nhạy cảm.

Chuyển về trang Mẫu rồi nhấp vào Tạo mẫu.

Xác định mẫu xoá thông tin nhận dạng:

Thuộc tính	Giá trị (nhập hoặc chọn)
Loại mẫu	Loại bỏ thông tin nhận dạng (xoá dữ liệu nhạy cảm)
Loại chuyển đổi dữ liệu	Ghi âm
Mã mẫu	`de-identify-structured`

Tiếp tục đến phần Định cấu hình quy trình xoá thông tin nhận dạng.Vì mẫu này áp dụng cho dữ liệu có cấu trúc, nên chúng ta thường có thể dự đoán các trường hoặc cột sẽ chứa một số loại dữ liệu nhạy cảm. Bạn biết rằng tệp CSV mà ứng dụng của bạn sử dụng có email người dùng trong user_id và message thường chứa thông tin nhận dạng cá nhân từ các hoạt động tương tác của khách hàng. Bạn không cần lo lắng về việc che giấu agent_id vì đó là nhân viên và các cuộc trò chuyện phải được quy cho họ. Điền thông tin vào phần này như sau:
- (Các) trường hoặc cột cần chuyển đổi: user_id, message.
- Loại biến đổi: Khớp trên infoType
- Phương thức chuyển đổi: nhấp vào Thêm quy tắc chuyển đổi
  - Biến đổi: Mặt nạ có ký tự.
  - Các ký tự cần bỏ qua: Dấu câu của Hoa Kỳ.
Lý do phương thức này hữu ích: Phương thức này giữ lại các ký tự trong một chuỗi, nhờ đó, nhà phát triển vẫn có thể thực hiện các quy trình xác thực dựa trên biểu thức chính quy để kiểm thử. Bạn cũng có thể sử dụng tính năng che dữ liệu với người dùng cuối để chỉ cho họ thấy thông tin cần thiết, chẳng hạn như 4 chữ số cuối của thẻ tín dụng hoặc số điện thoại, mà không tiết lộ toàn bộ giá trị.
Nhấp vào Tạo.

Tạo mẫu cho dữ liệu hình ảnh

Mẫu này được thiết kế để xoá thông tin nhận dạng văn bản nhạy cảm được nhúng trong hình ảnh, chẳng hạn như tài liệu được quét hoặc ảnh do người dùng gửi. Công cụ này tận dụng công nghệ nhận dạng ký tự quang học (OCR) để phát hiện và biên tập thông tin nhận dạng cá nhân.

Chuyển về trang Mẫu rồi nhấp vào Tạo mẫu.

Xác định mẫu xoá thông tin nhận dạng:

Thuộc tính	Giá trị (nhập hoặc chọn)
Loại mẫu	Loại bỏ thông tin nhận dạng (xoá dữ liệu nhạy cảm)
Loại chuyển đổi dữ liệu	Hình ảnh
Mã mẫu	`de-identify-image`

Tiếp tục đến bước Định cấu hình chế độ loại bỏ thông tin nhận dạng.
- InfoType cần chuyển đổi: Mọi InfoType được phát hiện và xác định trong một mẫu kiểm tra hoặc cấu hình kiểm tra không được chỉ định trong các quy tắc khác.
Nhấp vào Tạo.

7. Tạo và chạy một quy trình xoá thông tin nhận dạng

Sau khi xác định các mẫu, giờ đây, bạn có thể tạo một công việc duy nhất áp dụng mẫu xoá thông tin nhận dạng chính xác dựa trên loại tệp mà công việc đó phát hiện và kiểm tra. Tính năng này tự động hoá quy trình bảo vệ dữ liệu nhạy cảm đối với dữ liệu được lưu trữ trong Cloud Storage.

Định cấu hình dữ liệu đầu vào

Trong bước này, bạn chỉ định nguồn dữ liệu cần được gỡ bỏ thông tin nhận dạng. Nguồn dữ liệu này là một bộ chứa Cloud Storage chứa nhiều loại tệp có thông tin nhạy cảm.

Chuyển đến phần Bảo mật > Bảo vệ dữ liệu nhạy cảm thông qua thanh tìm kiếm.
Nhấp vào Kiểm tra trong trình đơn.
Nhấp vào Tạo công việc và trình kích hoạt công việc.

Định cấu hình công việc:

Thuộc tính	Giá trị (nhập hoặc chọn)
Mã công việc	`pii-remover`
Loại bộ nhớ	Google Cloud Storage
Loại vị trí	Quét một nhóm với các quy tắc bao gồm/loại trừ (không bắt buộc)
Tên bộ chứa	`input-[your-project-id]`

Định cấu hình tính năng phát hiện và các thao tác

Giờ đây, bạn sẽ liên kết các mẫu đã tạo trước đó với công việc này, cho biết cho tính năng Bảo vệ dữ liệu nhạy cảm cách kiểm tra thông tin nhận dạng cá nhân và phương pháp xoá thông tin nhận dạng cần áp dụng dựa trên loại nội dung.

Mẫu kiểm tra: projects/[your-project-id]/locations/global/inspectTemplates/pii-finder
Trong mục Thêm hành động, hãy chọn Tạo bản sao đã xoá thông tin nhận dạng và định cấu hình các mẫu biến đổi thành mẫu mà bạn đã tạo.

Một cửa sổ bật lên sẽ xuất hiện để bạn Confirm whether you want to de-identify the findings, hãy nhấp vào TẮT TÍNH NĂNG LẤY MẪU.

Ảnh chụp màn hình cửa sổ bật lên yêu cầu tắt tính năng lấy mẫu

Ảnh chụp màn hình cửa sổ bật lên yêu cầu tắt tính năng lấy mẫu

Thuộc tính	Giá trị (nhập hoặc chọn)
Mẫu giảm khả năng nhận dạng	`projects/[your-project-id]/locations/global/deidentifyTemplates/de-identify-unstructured`
Mẫu xoá thông tin nhận dạng có cấu trúc	`projects/[your-project-id]/locations/global/deidentifyTemplates/de-identify-structured`
Mẫu loại bỏ thông tin trong hình ảnh	`projects/[your-project-id]/locations/global/deidentifyTemplates/de-identify-image`

Định cấu hình vị trí đầu ra của Cloud Storage:
- URL: gs://output-[your-project-id]
Trong phần Lịch biểu, hãy giữ nguyên lựa chọn Không có để chạy tác vụ ngay lập tức.
Nhấp vào Tạo.
Một cửa sổ bật lên sẽ xuất hiện để Confirm job or job trigger create, hãy nhấp vào XÁC NHẬN TẠO.

8. Xác minh kết quả

Bước cuối cùng là xác nhận rằng dữ liệu nhạy cảm đã được chỉnh sửa thành công và chính xác trên tất cả các loại tệp trong vùng lưu trữ đầu ra. Điều này giúp đảm bảo quy trình xoá thông tin nhận dạng hoạt động như mong đợi.

Xem trạng thái của công việc

Theo dõi công việc để đảm bảo công việc hoàn tất thành công và xem xét bản tóm tắt kết quả trước khi kiểm tra các tệp đầu ra.

Trong thẻ Jobs details (Chi tiết công việc), hãy đợi cho đến khi công việc có trạng thái Done (Đã hoàn tất).
Trong phần Tổng quan, hãy xem số lượng kết quả và tỷ lệ phần trăm của từng infoType được phát hiện.
Nhấp vào Cấu hình.
Di chuyển xuống phần Hành động rồi nhấp vào nhóm đầu ra để xem dữ liệu đã được gỡ bỏ thông tin nhận dạng: gs://output-[your-project-id].

So sánh tệp đầu vào và đầu ra

Trong bước này, bạn sẽ kiểm tra thủ công các tệp đã được gỡ bỏ thông tin nhận dạng để xác nhận rằng việc dọn dẹp dữ liệu đã được áp dụng chính xác theo mẫu của bạn.

Hình ảnh: Mở một hình ảnh trong nhóm kết quả. Xác minh rằng tất cả văn bản nhạy cảm đã được che khuất trong tệp đầu ra.
Nhật ký không có cấu trúc: Xem tệp nhật ký từ cả hai nhóm. Xác nhận rằng thông tin nhận dạng cá nhân trong nhật ký đầu ra đã được thay thế bằng tên infoType (ví dụ: [US_SOCIAL_SECURITY_NUMBER]).
Tệp CSV có cấu trúc: Mở tệp CSV từ cả hai nhóm. Xác minh rằng email và số An sinh xã hội của người dùng trong tệp đầu ra đã được che giấu bằng ####@####.com.

Lưu ý: Để xem nội dung tệp, hãy nhấp vào một trong các tệp trong thư mục. Trên trang tiếp theo, hãy nhấp vào đường liên kết bên cạnh URL đã xác thực.

9. Từ phòng thí nghiệm đến thực tế: Cách sử dụng tính năng này trong các dự án của riêng bạn

Các nguyên tắc và cấu hình mà bạn đã áp dụng là bản thiết kế để bảo mật các dự án AI trong thế giới thực trên Google Cloud. Các tài nguyên mà bạn vừa tạo (mẫu kiểm tra, mẫu xoá thông tin nhận dạng và tác vụ tự động) đóng vai trò là mẫu khởi động an toàn cho mọi quy trình thu thập dữ liệu mới.

Quy trình tự động làm sạch dữ liệu: Nguồn dữ liệu an toàn của bạn

Cách bạn sử dụng thông tin này trong quá trình thiết lập

Mỗi khi nhóm của bạn cần nhập dữ liệu thô mới của khách hàng để phát triển AI, bạn sẽ chuyển dữ liệu đó qua một quy trình kết hợp công việc Bảo vệ dữ liệu nhạy cảm mà bạn đã định cấu hình. Thay vì kiểm tra và biên tập theo cách thủ công, bạn có thể tận dụng quy trình tự động này. Điều này đảm bảo rằng các nhà khoa học dữ liệu và mô hình AI chỉ tương tác với dữ liệu đã được gỡ bỏ thông tin nhận dạng, giúp giảm đáng kể các rủi ro về quyền riêng tư.

Kết nối với kênh phát hành công khai

Trong môi trường phát hành, bạn sẽ tiến thêm một bước nữa bằng cách:

Tự động hoá bằng trình kích hoạt tác vụ: Thay vì chạy tác vụ theo cách thủ công, bạn sẽ thiết lập một trình kích hoạt tác vụ bất cứ khi nào một tệp mới được tải lên vùng lưu trữ đầu vào trên Đám mây. Điều này tạo ra một quy trình phát hiện và xoá thông tin nhận dạng hoàn toàn tự động.
Tích hợp với hồ dữ liệu/kho dữ liệu: Dữ liệu đầu ra đã được gỡ bỏ thông tin nhận dạng thường sẽ được đưa vào một hồ dữ liệu bảo mật (ví dụ: trên Cloud Storage) hoặc kho dữ liệu (ví dụ: BigQuery) để phân tích thêm và huấn luyện mô hình, đảm bảo quyền riêng tư được duy trì trong suốt vòng đời của dữ liệu.

Chiến lược xoá thông tin nhận dạng chi tiết: Cân bằng giữa quyền riêng tư và tính hữu ích

Cách bạn sử dụng thông tin này trong quá trình thiết lập

Các mẫu xoá thông tin nhận dạng (không có cấu trúc, có cấu trúc, hình ảnh) mà bạn đã tạo là yếu tố then chốt. Bạn sẽ áp dụng các chiến lược khác biệt tương tự dựa trên nhu cầu cụ thể của các mô hình AI. Nhờ đó, nhóm phát triển của bạn có thể có dữ liệu có tính hữu ích cao cho các mô hình của họ mà không làm ảnh hưởng đến quyền riêng tư.

Kết nối với kênh phát hành công khai

Trong môi trường phát hành, quyền kiểm soát chi tiết này trở nên quan trọng hơn nữa đối với:

infoType và từ điển tuỳ chỉnh: Đối với dữ liệu nhạy cảm có tính đặc thù cao hoặc dành riêng cho miền, bạn sẽ xác định infoType và từ điển tuỳ chỉnh trong tính năng Bảo vệ dữ liệu nhạy cảm. Điều này giúp đảm bảo khả năng phát hiện toàn diện phù hợp với bối cảnh kinh doanh riêng biệt của bạn.
Mã hoá giữ nguyên định dạng (FPE): Đối với những trường hợp mà dữ liệu đã được gỡ bỏ thông tin nhận dạng phải giữ nguyên định dạng ban đầu (ví dụ: số thẻ tín dụng để kiểm thử tích hợp), bạn nên khám phá các kỹ thuật gỡ bỏ thông tin nhận dạng nâng cao như Mã hoá giữ nguyên định dạng. Điều này cho phép kiểm thử mà vẫn đảm bảo quyền riêng tư với các mẫu dữ liệu thực tế.

Giám sát và kiểm tra: Đảm bảo tuân thủ liên tục

Cách bạn sử dụng thông tin này trong quá trình thiết lập

Bạn sẽ liên tục giám sát nhật ký của tính năng Bảo vệ dữ liệu nhạy cảm để đảm bảo rằng mọi hoạt động xử lý dữ liệu đều tuân thủ chính sách quyền riêng tư của bạn và không có thông tin nhạy cảm nào bị vô tình tiết lộ. Việc thường xuyên xem xét bản tóm tắt công việc và kết quả là một phần của quy trình kiểm tra liên tục này.

Kết nối với kênh phát hành công khai

Đối với một hệ thống sản xuất mạnh mẽ, hãy cân nhắc những hành động chính sau:

Gửi kết quả cho Security Command Center: Để quản lý mối đe doạ một cách tích hợp và có chế độ xem tập trung về trạng thái bảo mật, hãy định cấu hình các công việc của Sensitive Data Protection để gửi bản tóm tắt kết quả trực tiếp đến Security Command Center. Thao tác này sẽ hợp nhất các thông tin chi tiết và cảnh báo bảo mật.
Cảnh báo và phản hồi sự cố: Bạn sẽ thiết lập cảnh báo Cloud Monitoring dựa trên kết quả của Sensitive Data Protection hoặc lỗi công việc. Điều này đảm bảo rằng nhóm bảo mật của bạn sẽ được thông báo ngay lập tức về mọi trường hợp vi phạm chính sách hoặc vấn đề xử lý tiềm ẩn, giúp ứng phó nhanh chóng với sự cố.

10. Kết luận

Xin chúc mừng! PII và phân tích dữ liệu ở giai đoạn sau.

Tóm tắt

Trong lớp học lập trình này, bạn đã hoàn thành những việc sau:

Xác định một mẫu kiểm tra để phát hiện các loại thông tin nhạy cảm cụ thể (infoTypes).
Xây dựng các quy tắc xoá thông tin nhận dạng riêng biệt cho dữ liệu không có cấu trúc, dữ liệu có cấu trúc và dữ liệu hình ảnh.
Đã định cấu hình và chạy một công việc duy nhất để tự động áp dụng phương pháp biên tập phù hợp dựa trên loại tệp cho nội dung của toàn bộ vùng chứa.
Xác minh việc chuyển đổi thành công dữ liệu nhạy cảm ở một vị trí đầu ra an toàn.

Các bước tiếp theo

Gửi thông tin phát hiện đến Security Command Center: Để quản lý mối đe doạ một cách tích hợp hơn, hãy định cấu hình thao tác của quy trình để gửi trực tiếp bản tóm tắt thông tin phát hiện đến Security Command Center.
Tự động hoá bằng Cloud Functions: Trong môi trường thực tế, bạn có thể tự động kích hoạt công việc kiểm tra này bất cứ khi nào một tệp mới được tải lên vùng chứa đầu vào bằng cách sử dụng Cloud Functions.