Trang này được dịch bởi Cloud Translation API.

Sử dụng API Ngôn ngữ tự nhiên với Python

1. Tổng quan

2c061ec3bc00df22.png.

API ngôn ngữ tự nhiên cho phép bạn trích xuất thông tin từ văn bản không có cấu trúc bằng công nghệ học máy của Google. Trong hướng dẫn này, bạn sẽ tập trung vào việc sử dụng thư viện ứng dụng Python.

Kiến thức bạn sẽ học được

Cách thiết lập môi trường
Cách phân tích quan điểm
Cách phân tích thực thể
Cách phân tích cú pháp
Cách phân loại nội dung
Cách kiểm duyệt văn bản

Bạn cần có

Một dự án trên Google Cloud
Một trình duyệt, chẳng hạn như Chrome hoặc Firefox
Quen thuộc với Python

Khảo sát

Bạn sẽ sử dụng hướng dẫn này như thế nào?

Chỉ có thể đọc

Đọc và hoàn thành bài tập

Bạn đánh giá thế nào về trải nghiệm sử dụng Python?

Người mới tập

Trung cấp

Thành thạo

Bạn đánh giá thế nào về trải nghiệm khi sử dụng các dịch vụ của Google Cloud?

Người mới tập

Trung cấp

Thành thạo

2. Thiết lập và yêu cầu

Thiết lập môi trường theo tiến độ riêng

Đăng nhập vào Google Cloud Console rồi tạo dự án mới hoặc sử dụng lại dự án hiện có. Nếu chưa có tài khoản Gmail hoặc Google Workspace, bạn phải tạo một tài khoản.

295004821bab6a87.pngS

37d264871000675d.png.

96d86d3d5655cdbe.png.

Tên dự án là tên hiển thị của những người tham gia dự án này. Đây là một chuỗi ký tự không được API của Google sử dụng. Bạn luôn có thể cập nhật ứng dụng.
Mã dự án là duy nhất trong tất cả các dự án Google Cloud và không thể thay đổi (không thể thay đổi sau khi đã đặt). Cloud Console sẽ tự động tạo một chuỗi duy nhất; thường bạn không quan tâm đến sản phẩm đó là gì. Trong hầu hết các lớp học lập trình, bạn sẽ cần tham khảo Mã dự án của mình (thường được xác định là PROJECT_ID). Nếu không thích mã đã tạo, bạn có thể tạo một mã nhận dạng ngẫu nhiên khác. Ngoài ra, bạn có thể thử cách riêng của mình để xem có thể sử dụng hay không. Bạn không thể thay đổi mã này sau bước này và mã vẫn giữ nguyên trong thời gian dự án.
Đối với thông tin của bạn, có giá trị thứ ba, Project Number (Số dự án), mà một số API sử dụng. Tìm hiểu thêm về cả ba giá trị này trong tài liệu này.

Tiếp theo, bạn sẽ phải bật tính năng thanh toán trong Cloud Console để sử dụng API/tài nguyên trên đám mây. Việc chạy qua lớp học lập trình này sẽ không tốn nhiều chi phí. Để tắt các tài nguyên nhằm tránh phát sinh việc thanh toán ngoài hướng dẫn này, bạn có thể xoá các tài nguyên bạn đã tạo hoặc xoá dự án. Người dùng mới của Google Cloud đủ điều kiện tham gia chương trình Dùng thử miễn phí 300 USD.

Khởi động Cloud Shell

Mặc dù bạn có thể vận hành Google Cloud từ xa trên máy tính xách tay, nhưng trong lớp học lập trình này, bạn sẽ sử dụng Cloud Shell, một môi trường dòng lệnh chạy trong Đám mây.

Kích hoạt Cloud Shell

Trong Cloud Console, hãy nhấp vào Kích hoạt Cloud Shell .

Nếu đây là lần đầu tiên khởi động Cloud Shell, bạn sẽ thấy một màn hình trung gian mô tả về Cloud Shell. Nếu bạn nhìn thấy màn hình trung gian, hãy nhấp vào Tiếp tục.

Quá trình cấp phép và kết nối với Cloud Shell chỉ mất vài phút.

7833d5e1c5d18f54.pngS

Máy ảo này được tải tất cả các công cụ phát triển cần thiết. Dịch vụ này cung cấp thư mục gốc có dung lượng ổn định 5 GB và chạy trên Google Cloud, giúp nâng cao đáng kể hiệu suất và khả năng xác thực của mạng. Nhiều (nếu không nói là) tất cả công việc của bạn trong lớp học lập trình này đều có thể thực hiện bằng trình duyệt.

Sau khi kết nối với Cloud Shell, bạn sẽ thấy mình đã được xác thực và dự án được đặt thành mã dự án.

Chạy lệnh sau trong Cloud Shell để xác nhận rằng bạn đã được xác thực:

gcloud auth list

Kết quả lệnh

 Credentialed Accounts
ACTIVE  ACCOUNT
*       <my_account>@<my_domain.com>

To set the active account, run:
    $ gcloud config set account `ACCOUNT`

Chạy lệnh sau trong Cloud Shell để xác nhận rằng lệnh gcloud biết về dự án của bạn:

gcloud config list project

Kết quả lệnh

[core]
project = <PROJECT_ID>

Nếu chưa, bạn có thể thiết lập chế độ này bằng lệnh sau:

gcloud config set project <PROJECT_ID>

Kết quả lệnh

Updated property [core/project].

3. Thiết lập môi trường

Trước khi bạn có thể bắt đầu sử dụng API Ngôn ngữ tự nhiên, hãy chạy lệnh sau trong Cloud Shell để bật API này:

gcloud services enable language.googleapis.com

Bạn sẽ thấy như sau:

Operation "operations/..." finished successfully.

Giờ đây, bạn có thể sử dụng API Ngôn ngữ tự nhiên!

Chuyển đến thư mục gốc:

cd ~

Tạo một môi trường ảo Python để tách biệt các phần phụ thuộc:

virtualenv venv-language

Kích hoạt môi trường ảo:

source venv-language/bin/activate

Cài đặt IPython, Pandas và thư viện ứng dụng API Ngôn ngữ tự nhiên:

pip install ipython pandas tabulate google-cloud-language

Bạn sẽ thấy như sau:

...
Installing collected packages: ... pandas ... ipython ... google-cloud-language
Successfully installed ... google-cloud-language-2.11.0 ...

Giờ đây, bạn đã sẵn sàng sử dụng thư viện ứng dụng Natural Language API!

Trong các bước tiếp theo, bạn sẽ sử dụng trình thông dịch Python tương tác có tên IPython mà bạn đã cài đặt trong bước trước. Bắt đầu một phiên bằng cách chạy ipython trong Cloud Shell:

ipython

Bạn sẽ thấy như sau:

Python 3.9.2 (default, Feb 28 2021, 17:03:44)
Type 'copyright', 'credits' or 'license' for more information
IPython 8.15.0 -- An enhanced Interactive Python. Type '?' for help.

In [1]:

4. Phân tích cảm xúc

Phân tích tình cảm xem xét văn bản đã cho và xác định các ý kiến cảm xúc phổ biến trong văn bản đó, đặc biệt để xác định ý kiến được thể hiện là tích cực, tiêu cực hay trung lập, ở cả câu và ở cấp độ tài liệu. Việc này được thực hiện bằng phương thức analyze_sentiment trả về AnalyzeSentimentResponse.

Sao chép mã sau vào phiên IPython của bạn:

from google.cloud import language

def analyze_text_sentiment(text: str) -> language.AnalyzeSentimentResponse:
    client = language.LanguageServiceClient()
    document = language.Document(
        content=text,
        type_=language.Document.Type.PLAIN_TEXT,
    )
    return client.analyze_sentiment(document=document)

def show_text_sentiment(response: language.AnalyzeSentimentResponse):
    import pandas as pd

    columns = ["score", "sentence"]
    data = [(s.sentiment.score, s.text.content) for s in response.sentences]
    df_sentence = pd.DataFrame(columns=columns, data=data)

    sentiment = response.document_sentiment
    columns = ["score", "magnitude", "language"]
    data = [(sentiment.score, sentiment.magnitude, response.language)]
    df_document = pd.DataFrame(columns=columns, data=data)

    format_args = dict(index=False, tablefmt="presto", floatfmt="+.1f")
    print(f"At sentence level:\n{df_sentence.to_markdown(**format_args)}")
    print()
    print(f"At document level:\n{df_document.to_markdown(**format_args)}")

Phân tích:

# Input
text = """
Python is a very readable language, which makes it easy to understand and maintain code.
It's simple, very flexible, easy to learn, and suitable for a wide variety of tasks.
One disadvantage is its speed: it's not as fast as some other programming languages.
"""

# Send a request to the API
analyze_sentiment_response = analyze_text_sentiment(text)

# Show the results
show_text_sentiment(analyze_sentiment_response)

Bạn sẽ thấy kết quả như sau:

At sentence level:
   score | sentence
---------+------------------------------------------------------------------------------------------
    +0.8 | Python is a very readable language, which makes it easy to understand and maintain code.
    +0.9 | It's simple, very flexible, easy to learn, and suitable for a wide variety of tasks.
    -0.4 | One disadvantage is its speed: it's not as fast as some other programming languages.

At document level:
   score |   magnitude | language
---------+-------------+------------
    +0.4 |        +2.2 | en

Hãy dành một chút thời gian để kiểm tra câu của chính bạn.

Để biết thông tin về những ngôn ngữ được API Ngôn ngữ tự nhiên hỗ trợ, hãy xem phần Hỗ trợ ngôn ngữ.
score của cảm xúc dao động trong khoảng từ -1.0 (tiêu cực) đến +1.0 (tích cực) và tương ứng với cảm nhận tổng thể từ thông tin đã cho.
magnitude của cảm xúc dao động từ 0.0 đến +inf và cho biết mức độ cảm tính tổng thể trong thông tin được chọn. Bạn cung cấp càng nhiều thông tin thì cường độ càng cao.
Để biết thêm thông tin về cách diễn giải các giá trị quan điểm score và magnitude được đưa vào bản phân tích, hãy xem bài viết Diễn giải các giá trị phân tích quan điểm.
Mỗi phản hồi của API sẽ trả về ngôn ngữ được phát hiện tự động của tài liệu (bằng ISO-639-1). Dữ liệu này hiển thị tại đây và sẽ được bỏ qua trong các ví dụ phân tích tiếp theo.

Tóm tắt

Ở bước này, bạn đã có thể phân tích quan điểm đối với một chuỗi văn bản!

5. Phân tích thực thể

Quy trình phân tích đối tượng sẽ kiểm tra văn bản đã cho để tìm các đối tượng đã biết (danh từ riêng như người của công chúng, địa danh, v.v.) và trả về thông tin về các đối tượng đó. Việc này được thực hiện bằng phương thức analyze_entities trả về AnalyzeEntitiesResponse.

Sao chép mã sau vào phiên IPython của bạn:

from google.cloud import language

def analyze_text_entities(text: str) -> language.AnalyzeEntitiesResponse:
    client = language.LanguageServiceClient()
    document = language.Document(
        content=text,
        type_=language.Document.Type.PLAIN_TEXT,
    )
    return client.analyze_entities(document=document)

def show_text_entities(response: language.AnalyzeEntitiesResponse):
    import pandas as pd

    columns = ("name", "type", "salience", "mid", "wikipedia_url")
    data = (
        (
            entity.name,
            entity.type_.name,
            entity.salience,
            entity.metadata.get("mid", ""),
            entity.metadata.get("wikipedia_url", ""),
        )
        for entity in response.entities
    )
    df = pd.DataFrame(columns=columns, data=data)
    print(df.to_markdown(index=False, tablefmt="presto", floatfmt=".0%"))

Phân tích:

# Input
text = """Guido van Rossum is best known as the creator of Python,
which he named after the Monty Python comedy troupe.
He was born in Haarlem, Netherlands.
"""

# Send a request to the API
analyze_entities_response = analyze_text_entities(text)

# Show the results
show_text_entities(analyze_entities_response)

Bạn sẽ thấy kết quả như sau:

 name             | type         |   salience | mid       | wikipedia_url
------------------+--------------+------------+-----------+-------------------------------------------------------------
 Guido van Rossum | PERSON       |        50% | /m/01h05c | https://en.wikipedia.org/wiki/Guido_van_Rossum
 Python           | ORGANIZATION |        38% | /m/05z1_  | https://en.wikipedia.org/wiki/Python_(programming_language)
 creator          | PERSON       |         5% |           |
 Monty Python     | PERSON       |         3% | /m/04sd0  | https://en.wikipedia.org/wiki/Monty_Python
 comedy troupe    | PERSON       |         2% |           |
 Haarlem          | LOCATION     |         1% | /m/0h095  | https://en.wikipedia.org/wiki/Haarlem
 Netherlands      | LOCATION     |         1% | /m/059j2  | https://en.wikipedia.org/wiki/Netherlands

Hãy dành một chút thời gian để kiểm tra câu của chính bạn đề cập đến các thực thể khác.

Để biết thông tin về các ngôn ngữ được phương thức này hỗ trợ, hãy xem phần Hỗ trợ ngôn ngữ.
type của thực thể là một giá trị enum cho phép bạn phân loại hoặc phân biệt các thực thể. Ví dụ: phép tính này có thể giúp phân biệt các thực thể có tên tương tự nhau là "T.E. [Tên người] (PERSON) trong "Lawrence of Ả Rập" (phim có gắn thẻ là WORK_OF_ART). Hãy xem Entity.Type.
Thực thể salience cho biết tầm quan trọng hoặc mức độ phù hợp của thực thể này đối với toàn bộ văn bản tài liệu. Điểm số này có thể hỗ trợ quá trình truy xuất và tóm tắt thông tin bằng cách ưu tiên các thực thể nổi bật. Những điểm gần 0.0 sẽ ít quan trọng hơn, trong khi những điểm gần 1.0 sẽ rất quan trọng.
Để biết thêm thông tin, hãy xem bài viết Phân tích thực thể.
Bạn cũng có thể kết hợp cả phân tích thực thể và phân tích cảm nhận bằng phương thức analyze_entity_sentiment. Xem nội dung Phân tích cảm nhận của thực thể.

Tóm tắt

Ở bước này, bạn đã có thể phân tích thực thể!

6. Phân tích cú pháp

Bản phân tích cú pháp trích xuất thông tin ngôn ngữ, chia văn bản đã cho thành một loạt các câu và mã thông báo (thường dựa trên ranh giới của từ), cung cấp thêm thông tin phân tích về các mã thông báo đó. Việc này được thực hiện bằng phương thức analyze_syntax trả về AnalyzeSyntaxResponse.

Sao chép mã sau vào phiên IPython của bạn:

from typing import Optional
from google.cloud import language

def analyze_text_syntax(text: str) -> language.AnalyzeSyntaxResponse:
    client = language.LanguageServiceClient()
    document = language.Document(
        content=text,
        type_=language.Document.Type.PLAIN_TEXT,
    )
    return client.analyze_syntax(document=document)

def get_token_info(token: Optional[language.Token]) -> list[str]:
    parts = [
        "tag",
        "aspect",
        "case",
        "form",
        "gender",
        "mood",
        "number",
        "person",
        "proper",
        "reciprocity",
        "tense",
        "voice",
    ]
    if not token:
        return ["token", "lemma"] + parts

    text = token.text.content
    lemma = token.lemma if token.lemma != token.text.content else ""
    info = [text, lemma]
    for part in parts:
        pos = token.part_of_speech
        info.append(getattr(pos, part).name if part in pos else "")

    return info

def show_text_syntax(response: language.AnalyzeSyntaxResponse):
    import pandas as pd

    tokens = len(response.tokens)
    sentences = len(response.sentences)
    columns = get_token_info(None)
    data = (get_token_info(token) for token in response.tokens)
    df = pd.DataFrame(columns=columns, data=data)
    # Remove empty columns
    empty_columns = [col for col in df if df[col].eq("").all()]
    df.drop(empty_columns, axis=1, inplace=True)

    print(f"Analyzed {tokens} token(s) from {sentences} sentence(s):")
    print(df.to_markdown(index=False, tablefmt="presto"))

Phân tích:

# Input
text = """Guido van Rossum is best known as the creator of Python.
He was born in Haarlem, Netherlands.
"""

# Send a request to the API
analyze_syntax_response = analyze_text_syntax(text)

# Show the results
show_text_syntax(analyze_syntax_response)

Bạn sẽ thấy kết quả như sau:

Analyzed 20 token(s) from 2 sentence(s):
 token       | lemma   | tag   | case       | gender    | mood       | number   | person   | proper   | tense   | voice
-------------+---------+-------+------------+-----------+------------+----------+----------+----------+---------+---------
 Guido       |         | NOUN  |            |           |            | SINGULAR |          | PROPER   |         |
 van         |         | NOUN  |            |           |            | SINGULAR |          | PROPER   |         |
 Rossum      |         | NOUN  |            |           |            | SINGULAR |          | PROPER   |         |
 is          | be      | VERB  |            |           | INDICATIVE | SINGULAR | THIRD    |          | PRESENT |
 best        | well    | ADV   |            |           |            |          |          |          |         |
 known       | know    | VERB  |            |           |            |          |          |          | PAST    |
 as          |         | ADP   |            |           |            |          |          |          |         |
 the         |         | DET   |            |           |            |          |          |          |         |
 creator     |         | NOUN  |            |           |            | SINGULAR |          |          |         |
 of          |         | ADP   |            |           |            |          |          |          |         |
 Python      |         | NOUN  |            |           |            | SINGULAR |          | PROPER   |         |
 .           |         | PUNCT |            |           |            |          |          |          |         |
 He          |         | PRON  | NOMINATIVE | MASCULINE |            | SINGULAR | THIRD    |          |         |
 was         | be      | VERB  |            |           | INDICATIVE | SINGULAR | THIRD    |          | PAST    |
 born        | bear    | VERB  |            |           |            |          |          |          | PAST    | PASSIVE
 in          |         | ADP   |            |           |            |          |          |          |         |
 Haarlem     |         | NOUN  |            |           |            | SINGULAR |          | PROPER   |         |
 ,           |         | PUNCT |            |           |            |          |          |          |         |
 Netherlands |         | NOUN  |            |           |            | SINGULAR |          | PROPER   |         |
 .           |         | PUNCT |            |           |            |          |          |          |         |

Hãy dành một chút thời gian để kiểm tra các câu của chính bạn với các cấu trúc cú pháp khác.

Nếu đi sâu hơn vào thông tin chi tiết về câu trả lời, bạn cũng sẽ thấy mối quan hệ giữa các mã thông báo. Sau đây là phần diễn giải trực quan cho thấy toàn bộ quá trình phân tích cú pháp cho ví dụ này, một ảnh chụp màn hình lấy từ bản minh hoạ Ngôn ngữ tự nhiên trực tuyến:

Tóm tắt

Ở bước này, bạn đã có thể phân tích cú pháp!

7. Phân loại nội dung

Tính năng phân loại nội dung phân tích tài liệu và trả về danh sách các danh mục nội dung áp dụng cho văn bản tìm thấy trong tài liệu. Việc này được thực hiện bằng phương thức classify_text trả về ClassifyTextResponse.

Sao chép mã sau vào phiên IPython của bạn:

from google.cloud import language

def classify_text(text: str) -> language.ClassifyTextResponse:
    client = language.LanguageServiceClient()
    document = language.Document(
        content=text,
        type_=language.Document.Type.PLAIN_TEXT,
    )
    return client.classify_text(document=document)

def show_text_classification(text: str, response: language.ClassifyTextResponse):
    import pandas as pd

    columns = ["category", "confidence"]
    data = ((category.name, category.confidence) for category in response.categories)
    df = pd.DataFrame(columns=columns, data=data)

    print(f"Text analyzed:\n{text}")
    print(df.to_markdown(index=False, tablefmt="presto", floatfmt=".0%"))

Phân tích:

# Input
text = """Python is an interpreted, high-level, general-purpose programming language.
Created by Guido van Rossum and first released in 1991, Python's design philosophy
emphasizes code readability with its notable use of significant whitespace.
"""

# Send a request to the API
classify_text_response = classify_text(text)

# Show the results
show_text_classification(text, classify_text_response)

Bạn sẽ thấy kết quả như sau:

Text analyzed:
Python is an interpreted, high-level, general-purpose programming language.
Created by Guido van Rossum and first released in 1991, Python's design philosophy
emphasizes code readability with its notable use of significant whitespace.

 category                             |   confidence
--------------------------------------+--------------
 /Computers & Electronics/Programming |          99%
 /Science/Computer Science            |          99%

Hãy dành một chút thời gian để kiểm tra các câu liên quan đến các danh mục khác của riêng bạn. Xin lưu ý rằng bạn phải cung cấp một khối văn bản (tài liệu) có ít nhất 20 mã thông báo (từ và dấu câu).

Tóm tắt

Ở bước này, bạn đã có thể phân loại nội dung!

8. Kiểm duyệt văn bản

Dựa trên mô hình nền tảng PaLM 2 mới nhất của Google, tính năng kiểm duyệt văn bản xác định nhiều loại nội dung gây hại, bao gồm cả lời nói hận thù, hành vi bắt nạt và quấy rối tình dục. Việc này được thực hiện bằng phương thức moderate_text trả về ModerateTextResponse.

Sao chép mã sau vào phiên IPython của bạn:

from google.cloud import language

def moderate_text(text: str) -> language.ModerateTextResponse:
    client = language.LanguageServiceClient()
    document = language.Document(
        content=text,
        type_=language.Document.Type.PLAIN_TEXT,
    )
    return client.moderate_text(document=document)

def show_text_moderation(text: str, response: language.ModerateTextResponse):
    import pandas as pd

    def confidence(category: language.ClassificationCategory) -> float:
        return category.confidence

    columns = ["category", "confidence"]
    categories = sorted(response.moderation_categories, key=confidence, reverse=True)
    data = ((category.name, category.confidence) for category in categories)
    df = pd.DataFrame(columns=columns, data=data)

    print(f"Text analyzed:\n{text}")
    print(df.to_markdown(index=False, tablefmt="presto", floatfmt=".0%"))

Phân tích:

# Input
text = """I have to read Ulysses by James Joyce.
I'm a little over halfway through and I hate it.
What a pile of garbage!
"""

# Send a request to the API
response = moderate_text(text)

# Show the results
show_text_moderation(text, response)

Bạn sẽ thấy kết quả như sau:

Text analyzed:
I have to read Ulysses by James Joyce.
I'm a little over halfway through and I hate it.
What a pile of garbage!

 category              |   confidence
-----------------------+--------------
 Toxic                 |          67%
 Insult                |          58%
 Profanity             |          53%
 Violent               |          48%
 Illicit Drugs         |          29%
 Religion & Belief     |          27%
 Politics              |          22%
 Death, Harm & Tragedy |          21%
 Finance               |          18%
 Derogatory            |          14%
 Firearms & Weapons    |          11%
 Health                |          10%
 Legal                 |          10%
 War & Conflict        |           7%
 Public Safety         |           5%
 Sexual                |           4%

Hãy dành một chút thời gian để kiểm tra câu của chính bạn.

Tóm tắt

Ở bước này, bạn đã có thể kiểm duyệt văn bản!

9. Xin chúc mừng!

2c061ec3bc00df22.png.

Bạn đã tìm hiểu cách sử dụng API Ngôn ngữ tự nhiên bằng Python!

Dọn dẹp

Để dọn dẹp môi trường phát triển, từ Cloud Shell:

Nếu bạn vẫn đang trong phiên IPython, hãy quay lại shell: exit
Ngừng sử dụng môi trường ảo Python: deactivate
Xoá thư mục môi trường ảo của bạn: cd ~ ; rm -rf ./venv-language

Cách xoá dự án của bạn trên Google Cloud khỏi Cloud Shell:

Truy xuất mã dự án hiện tại của bạn: PROJECT_ID=$(gcloud config get-value core/project)
Hãy đảm bảo đây là dự án mà bạn muốn xoá: echo $PROJECT_ID
Xoá dự án: gcloud projects delete $PROJECT_ID

Tìm hiểu thêm

Kiểm tra bản minh hoạ trong trình duyệt: https://cloud.google.com/natural-language#natural-language-api-demo
Tài liệu về Ngôn ngữ tự nhiên: https://cloud.google.com/natural-language/docs
Python trên Google Cloud: https://cloud.google.com/python
Thư viện ứng dụng Cloud dành cho Python: https://github.com/googleapis/google-cloud-python

Giấy phép

Tác phẩm này được cấp phép theo Giấy phép chung Ghi nhận tác giả Creative Commons 2.0.