Sử dụng Translation API với Python

1. Tổng quan

1e2217da0416d129.pngS

Translation API cung cấp một giao diện đơn giản và có lập trình để tự động dịch một chuỗi tuỳ ý sang bất kỳ ngôn ngữ nào được hỗ trợ bằng tính năng Dịch máy dùng mạng nơron tiên tiến. Tính năng này cũng có thể được dùng để phát hiện một ngôn ngữ trong trường hợp không xác định được ngôn ngữ nguồn.

Trong hướng dẫn này, bạn sẽ sử dụng Translation API với Python. Các khái niệm được đề cập bao gồm cách liệt kê các ngôn ngữ có sẵn, dịch văn bản và phát hiện ngôn ngữ của một văn bản nhất định.

Kiến thức bạn sẽ học được

  • Cách thiết lập môi trường
  • Cách liệt kê các ngôn ngữ có sẵn
  • Cách dịch văn bản
  • Cách phát hiện ngôn ngữ

Bạn cần có

  • Một dự án trên Google Cloud
  • Một trình duyệt, chẳng hạn như Chrome hoặc Firefox
  • Quen thuộc với Python

Khảo sát

Bạn sẽ sử dụng hướng dẫn này như thế nào?

Chỉ có thể đọc Đọc và hoàn thành bài tập

Bạn đánh giá thế nào về trải nghiệm sử dụng Python?

Người mới tập Trung cấp Thành thạo

Bạn đánh giá thế nào về trải nghiệm khi sử dụng các dịch vụ của Google Cloud?

Người mới tập Trung cấp Thành thạo

2. Thiết lập và yêu cầu

Thiết lập môi trường theo tiến độ riêng

  1. Đăng nhập vào Google Cloud Console rồi tạo dự án mới hoặc sử dụng lại dự án hiện có. Nếu chưa có tài khoản Gmail hoặc Google Workspace, bạn phải tạo một tài khoản.

b35bf95b8bf3d5d8.png

a99b7ace416376c4.png

bd84a6d3004737c5.png

  • Tên dự án là tên hiển thị của những người tham gia dự án này. Đây là một chuỗi ký tự không được API của Google sử dụng. Bạn luôn có thể cập nhật ứng dụng.
  • Mã dự án là duy nhất trong tất cả các dự án Google Cloud và không thể thay đổi (không thể thay đổi sau khi đã đặt). Cloud Console sẽ tự động tạo một chuỗi duy nhất; thường bạn không quan tâm đến sản phẩm đó là gì. Trong hầu hết các lớp học lập trình, bạn sẽ cần tham khảo Mã dự án của mình (thường được xác định là PROJECT_ID). Nếu không thích mã đã tạo, bạn có thể tạo một mã nhận dạng ngẫu nhiên khác. Ngoài ra, bạn có thể thử cách riêng của mình để xem có thể sử dụng hay không. Bạn không thể thay đổi mã này sau bước này và mã vẫn giữ nguyên trong thời gian dự án.
  • Đối với thông tin của bạn, có giá trị thứ ba, Project Number (Số dự án), mà một số API sử dụng. Tìm hiểu thêm về cả ba giá trị này trong tài liệu này.
  1. Tiếp theo, bạn sẽ phải bật tính năng thanh toán trong Cloud Console để sử dụng API/tài nguyên trên đám mây. Việc chạy qua lớp học lập trình này sẽ không tốn nhiều chi phí. Để tắt các tài nguyên nhằm tránh phát sinh việc thanh toán ngoài hướng dẫn này, bạn có thể xoá các tài nguyên bạn đã tạo hoặc xoá dự án. Người dùng mới của Google Cloud đủ điều kiện tham gia chương trình Dùng thử miễn phí 300 USD.

Khởi động Cloud Shell

Mặc dù bạn có thể vận hành Google Cloud từ xa trên máy tính xách tay, nhưng trong lớp học lập trình này, bạn sẽ sử dụng Cloud Shell, một môi trường dòng lệnh chạy trong Đám mây.

Kích hoạt Cloud Shell

  1. Trong Cloud Console, hãy nhấp vào Kích hoạt Cloud Shell 853e55310c205094.pngs.

55efc1aaa7a4d3ad.pngS

Nếu đây là lần đầu tiên khởi động Cloud Shell, bạn sẽ thấy một màn hình trung gian mô tả về Cloud Shell. Nếu bạn nhìn thấy màn hình trung gian, hãy nhấp vào Tiếp tục.

9c92662c6a846a5c.pngS

Quá trình cấp phép và kết nối với Cloud Shell chỉ mất vài phút.

9f0e51b578fecce5.pngs

Máy ảo này được tải tất cả các công cụ phát triển cần thiết. Dịch vụ này cung cấp thư mục gốc có dung lượng ổn định 5 GB và chạy trên Google Cloud, giúp nâng cao đáng kể hiệu suất và khả năng xác thực của mạng. Nhiều (nếu không nói là) tất cả công việc của bạn trong lớp học lập trình này đều có thể thực hiện bằng trình duyệt.

Sau khi kết nối với Cloud Shell, bạn sẽ thấy mình đã được xác thực và dự án được đặt thành mã dự án.

  1. Chạy lệnh sau trong Cloud Shell để xác nhận rằng bạn đã được xác thực:
gcloud auth list

Kết quả lệnh

 Credentialed Accounts
ACTIVE  ACCOUNT
*       <my_account>@<my_domain.com>

To set the active account, run:
    $ gcloud config set account `ACCOUNT`
  1. Chạy lệnh sau trong Cloud Shell để xác nhận rằng lệnh gcloud biết về dự án của bạn:
gcloud config list project

Kết quả lệnh

[core]
project = <PROJECT_ID>

Nếu chưa, bạn có thể thiết lập chế độ này bằng lệnh sau:

gcloud config set project <PROJECT_ID>

Kết quả lệnh

Updated property [core/project].

3. Thiết lập môi trường

Trước khi bạn có thể bắt đầu sử dụng Translation API, hãy chạy lệnh sau trong Cloud Shell để bật API này:

gcloud services enable translate.googleapis.com

Bạn sẽ thấy như sau:

Operation "operations/..." finished successfully.

Giờ đây, bạn đã có thể sử dụng Translation API!

Đặt biến môi trường sau (sẽ được dùng trong ứng dụng của bạn):

export PROJECT_ID=$(gcloud config get-value core/project)

echo "→ PROJECT_ID: $PROJECT_ID"

Chuyển đến thư mục gốc:

cd ~

Tạo một môi trường ảo Python để tách biệt các phần phụ thuộc:

virtualenv venv-translate

Kích hoạt môi trường ảo:

source venv-translate/bin/activate

Cài đặt IPython và thư viện ứng dụng Translation API:

pip install ipython google-cloud-translate

Bạn sẽ thấy như sau:

...
Installing collected packages: ..., ipython, google-cloud-translate
Successfully installed ... google-cloud-translate-3.11.0 ...

Giờ đây, bạn đã sẵn sàng sử dụng thư viện ứng dụng Translation API!

Trong các bước tiếp theo, bạn sẽ sử dụng trình thông dịch Python tương tác có tên IPython mà bạn đã cài đặt trong bước trước. Bắt đầu một phiên bằng cách chạy ipython trong Cloud Shell:

ipython

Bạn sẽ thấy như sau:

Python 3.9.2 (default, Feb 28 2021, 17:03:44)
Type 'copyright', 'credits' or 'license' for more information
IPython 8.12.0 -- An enhanced Interactive Python. Type '?' for help.

In [1]:

Sao chép mã sau vào phiên IPython của bạn:

from os import environ

from google.cloud import translate


PROJECT_ID = environ.get("PROJECT_ID", "")
assert PROJECT_ID
PARENT = f"projects/{PROJECT_ID}"

Bạn đã sẵn sàng đưa ra yêu cầu đầu tiên và liệt kê các ngôn ngữ được hỗ trợ...

4. Liệt kê ngôn ngữ có sẵn

Trong phần này, bạn sẽ liệt kê tất cả ngôn ngữ có trong Translation API.

Để liệt kê các ngôn ngữ có sẵn, hãy sao chép mã sau vào phiên IPython của bạn:

def print_supported_languages(display_language_code: str):
    client = translate.TranslationServiceClient()

    response = client.get_supported_languages(
        parent=PARENT,
        display_language_code=display_language_code,
    )

    languages = response.languages
    print(f" Languages: {len(languages)} ".center(60, "-"))
    for language in languages:
        language_code = language.language_code
        display_name = language.display_name
        print(f"{language_code:10}{display_name}")
    

Gọi hàm:

print_supported_languages("en")

Bạn sẽ thấy như sau:

---------------------- Languages: 136 ----------------------
af        Afrikaans
ak        Akan
sq        Albanian
am        Amharic
ar        Arabic
...
cy        Welsh
xh        Xhosa
yi        Yiddish
yo        Yoruba
zu        Zulu

Hãy xem bạn nhận được gì với ngôn ngữ hiển thị bằng tiếng Pháp:

print_supported_languages("fr")

Bạn sẽ nhận được cùng một danh sách, được sắp xếp theo tên tiếng Pháp, tương tự như sau:

---------------------- Languages: 136 ----------------------
af        Afrikaans
sq        Albanais
de        Allemand
am        Amharique
en        Anglais
...
vi        Vietnamien
xh        Xhosa
yi        Yiddish
yo        Yorouba
zu        Zoulou

Bạn có thể thử bằng một mã ngôn ngữ khác.

Tóm tắt

Ở bước này, bạn đã có thể liệt kê tất cả ngôn ngữ có sẵn trong Translation API. Bạn có thể tìm thấy danh sách đầy đủ các ngôn ngữ được hỗ trợ trên trang hỗ trợ ngôn ngữ.

5. Dịch văn bản

Bạn có thể sử dụng Translation API để dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác. Văn bản được dịch bằng mô hình Dịch máy dùng mạng nơ-ron nhân tạo (NMT). Nếu mô hình NMT không được hỗ trợ cho cặp bản dịch ngôn ngữ yêu cầu, thì mô hình Dịch máy dựa trên cụm từ (PBMT) sẽ được sử dụng. Để biết thêm thông tin về Google Dịch và các mô hình dịch của Google Dịch, hãy xem bài đăng thông báo về NMT.

Để dịch văn bản, hãy sao chép mã sau vào phiên IPython của bạn:

def translate_text(text: str, target_language_code: str) -> translate.Translation:
    client = translate.TranslationServiceClient()

    response = client.translate_text(
        parent=PARENT,
        contents=[text],
        target_language_code=target_language_code,
    )

    return response.translations[0]
    

Gọi hàm để dịch cùng một văn bản bằng nhiều ngôn ngữ:

text = "Hello World!"
target_languages = ["tr", "de", "es", "it", "el", "zh", "ja", "ko"]

print(f" {text} ".center(50, "-"))
for target_language in target_languages:
    translation = translate_text(text, target_language)
    source_language = translation.detected_language_code
    translated_text = translation.translated_text
    print(f"{source_language}  {target_language} : {translated_text}")
    

Bạn sẽ nhận được như sau:

------------------ Hello World! ------------------
en → tr : Selam Dünya!
en → de : Hallo Welt!
en → es : ¡Hola Mundo!
en → it : Ciao mondo!
en → el : Γειά σου Κόσμε!
en → zh : 你好世界!
en → ja : 「こんにちは世界」
en → ko : 안녕하세요 세계!

Tóm tắt

Trong bước này, bạn có thể sử dụng Translation API để dịch văn bản sang nhiều ngôn ngữ. Đọc thêm về cách dịch văn bản.

6. Phát hiện ngôn ngữ

Bạn cũng có thể sử dụng Translation API để phát hiện ngôn ngữ của một chuỗi văn bản.

Sao chép mã sau vào phiên IPython của bạn:

def detect_language(text: str) -> translate.DetectedLanguage:
    client = translate.TranslationServiceClient()

    response = client.detect_language(parent=PARENT, content=text)

    return response.languages[0]
    

Gọi hàm này để phát hiện ngôn ngữ của các câu khác nhau:

sentences = [
    "Selam Dünya!",
    "Hallo Welt!",
    "¡Hola Mundo!",
    "Ciao mondo!",
    "Γειά σου Κόσμε!",
    "你好世界",
    "こんにちは世界",
    "안녕하세요 세계!",
]
for sentence in sentences:
    language = detect_language(sentence)
    confidence = language.confidence
    language_code = language.language_code
    print(
        f"Confidence: {confidence:4.0%}",
        f"Language: {language_code:5}",
        sentence,
        sep=" | ",
    )
    

Bạn sẽ nhận được như sau:

Confidence: 100% | Language: tr    | Selam Dünya!
Confidence:  80% | Language: de    | Hallo Welt!
Confidence: 100% | Language: es    | ¡Hola Mundo!
Confidence: 100% | Language: it    | Ciao mondo!
Confidence: 100% | Language: el    | Γειά σου Κόσμε!
Confidence: 100% | Language: zh-CN | 你好世界!
Confidence: 100% | Language: ja    | 「こんにちは世界」
Confidence: 100% | Language: ko    | 안녕하세요 세계!

Tóm tắt

Ở bước này, bạn đã có thể phát hiện ngôn ngữ của một đoạn văn bản bằng Translation API. Đọc thêm về cách phát hiện ngôn ngữ.

7. Xin chúc mừng!

1e2217da0416d129.pngS

Bạn đã tìm hiểu cách sử dụng Translation API bằng Python!

Dọn dẹp

Để dọn dẹp môi trường phát triển, từ Cloud Shell:

  • Nếu bạn vẫn đang trong phiên IPython, hãy quay lại shell: exit
  • Ngừng sử dụng môi trường ảo Python: deactivate
  • Xoá thư mục môi trường ảo của bạn: cd ~ ; rm -rf ./venv-translate

Cách xoá dự án của bạn trên Google Cloud khỏi Cloud Shell:

  • Truy xuất mã dự án hiện tại của bạn: PROJECT_ID=$(gcloud config get-value core/project)
  • Hãy đảm bảo đây là dự án mà bạn muốn xoá: echo $PROJECT_ID
  • Xoá dự án: gcloud projects delete $PROJECT_ID

Tìm hiểu thêm

Giấy phép

Tác phẩm này được cấp phép theo Giấy phép chung Ghi nhận tác giả Creative Commons 2.0.