Ta strona została przetłumaczona przez Cloud Translation API.

Używanie interfejsu Natural Language API w Pythonie

1. Omówienie

Interfejs Natural Language API umożliwia wyodrębnianie informacji z nieuporządkowanego tekstu przy użyciu systemów uczących się opracowanych przez Google. W tym samouczku skupisz się na użyciu biblioteki klienta w języku Python.

Czego się nauczysz

Jak skonfigurować środowisko
Jak przeprowadzić analizę nastawienia
Jak przeprowadzić analizę encji
Jak przeprowadzić analizę składni
Jak klasyfikować treści
Jak moderować tekst

Czego potrzebujesz

Projekt Google Cloud
przeglądarki, na przykład Chrome lub Firefox;
znajomość języka Python,

Ankieta

Jak wykorzystasz ten samouczek?

Tylko do przeczytania

Przeczytaj go i wykonaj ćwiczenia

Jak oceniasz swoje doświadczenia z językiem Python?

Początkujący

Poziom średnio zaawansowany

Biegły

Jak oceniasz usługi Google Cloud?

Początkujący

Poziom średnio zaawansowany

Biegły

2. Konfiguracja i wymagania

Samodzielne konfigurowanie środowiska

Zaloguj się w konsoli Google Cloud i utwórz nowy projekt lub wykorzystaj już istniejący. Jeśli nie masz jeszcze konta Gmail ani Google Workspace, musisz je utworzyć.

Nazwa projektu jest wyświetlaną nazwą uczestników tego projektu. To ciąg znaków, który nie jest używany przez interfejsy API Google. W każdej chwili możesz ją zaktualizować.
Identyfikator projektu jest unikalny we wszystkich projektach Google Cloud i nie można go zmienić (po jego ustawieniu nie można go zmienić). Cloud Console automatycznie wygeneruje unikalny ciąg znaków. zwykle nieważne, co ona jest. W większości ćwiczeń w Codelabs musisz podać swój identyfikator projektu (zwykle identyfikowany jako PROJECT_ID). Jeśli nie podoba Ci się wygenerowany identyfikator, możesz wygenerować kolejny losowy. Możesz też spróbować własnych sił i sprawdzić, czy jest dostępna. Po wykonaniu tej czynności nie można jej już zmienić. Pozostanie ona przez cały czas trwania projektu.
Jest jeszcze trzecia wartość, numer projektu, z którego korzystają niektóre interfejsy API. Więcej informacji o wszystkich 3 wartościach znajdziesz w dokumentacji.

Następnie musisz włączyć płatności w Cloud Console, aby korzystać z zasobów Cloud/interfejsów API. Ukończenie tego ćwiczenia z programowania nic nie kosztuje. Aby wyłączyć zasoby w celu uniknięcia naliczania opłat po zakończeniu tego samouczka, możesz usunąć utworzone zasoby lub projekt. Nowi użytkownicy Google Cloud mogą skorzystać z programu bezpłatnego okresu próbnego o wartości 300 USD.

Uruchamianie Cloud Shell

Google Cloud można obsługiwać zdalnie z laptopa, ale w ramach tego ćwiczenia z programowania wykorzystasz Cloud Shell – środowisko wiersza poleceń działające w Cloud.

Aktywowanie Cloud Shell

W konsoli Cloud kliknij Aktywuj Cloud Shell .

Jeśli uruchamiasz Cloud Shell po raz pierwszy, zobaczysz ekran pośredni z opisem tej usługi. Jeśli wyświetlił się ekran pośredni, kliknij Dalej.

Uzyskanie dostępu do Cloud Shell i połączenie się z nim powinno zająć tylko kilka chwil.

Ta maszyna wirtualna ma wszystkie potrzebne narzędzia dla programistów. Zawiera stały katalog domowy o pojemności 5 GB i działa w Google Cloud, co znacznie zwiększa wydajność sieci i uwierzytelnianie. Większość zadań w ramach tego ćwiczenia z programowania można wykonać w przeglądarce.

Po nawiązaniu połączenia z Cloud Shell powinno pojawić się potwierdzenie, że użytkownik jest uwierzytelniony, a projekt jest ustawiony na identyfikator Twojego projektu.

Uruchom to polecenie w Cloud Shell, aby potwierdzić, że jesteś uwierzytelniony:

gcloud auth list

Dane wyjściowe polecenia

 Credentialed Accounts
ACTIVE  ACCOUNT
*       <my_account>@<my_domain.com>

To set the active account, run:
    $ gcloud config set account `ACCOUNT`

Uruchom to polecenie w Cloud Shell, aby sprawdzić, czy polecenie gcloud zna Twój projekt:

gcloud config list project

Dane wyjściowe polecenia

[core]
project = <PROJECT_ID>

Jeśli tak nie jest, możesz go ustawić za pomocą tego polecenia:

gcloud config set project <PROJECT_ID>

Dane wyjściowe polecenia

Updated property [core/project].

3. Konfiguracja środowiska

Zanim zaczniesz korzystać z interfejsu Natural Language API, uruchom w Cloud Shell to polecenie, aby go włączyć:

gcloud services enable language.googleapis.com

Powinien pojawić się ekran podobny do tego:

Operation "operations/..." finished successfully.

Teraz możesz używać interfejsu Natural Language API.

Przejdź do katalogu głównego:

cd ~

Utwórz środowisko wirtualne Pythona, aby wyizolować zależności:

virtualenv venv-language

Aktywuj środowisko wirtualne:

source venv-language/bin/activate

Zainstaluj IPython, Pandas i bibliotekę klienta Natural Language API:

pip install ipython pandas tabulate google-cloud-language

Powinien pojawić się ekran podobny do tego:

...
Installing collected packages: ... pandas ... ipython ... google-cloud-language
Successfully installed ... google-cloud-language-2.11.0 ...

Możesz teraz korzystać z biblioteki klienta interfejsu Natural Language API.

W następnych krokach użyjesz interaktywnego interpretera Pythona o nazwie IPython, który został zainstalowany w poprzednim kroku. Rozpocznij sesję od uruchomienia ipython w Cloud Shell:

ipython

Powinien pojawić się ekran podobny do tego:

Python 3.9.2 (default, Feb 28 2021, 17:03:44)
Type 'copyright', 'credits' or 'license' for more information
IPython 8.15.0 -- An enhanced Interactive Python. Type '?' for help.

In [1]:

4. Analiza nastawienia

Analiza nastawienia analizuje tekst i określa w nim panujące w nim opinie emocjonalne, zwłaszcza po to, aby określić wyrażone w nim odczucia jako pozytywne, negatywne lub neutralne, zarówno na poziomie zdania, jak i na poziomie dokumentu. Jest wykonywane przy użyciu metody analyze_sentiment, która zwraca AnalyzeSentimentResponse.

Skopiuj ten kod do sesji IPython:

from google.cloud import language

def analyze_text_sentiment(text: str) -> language.AnalyzeSentimentResponse:
    client = language.LanguageServiceClient()
    document = language.Document(
        content=text,
        type_=language.Document.Type.PLAIN_TEXT,
    )
    return client.analyze_sentiment(document=document)

def show_text_sentiment(response: language.AnalyzeSentimentResponse):
    import pandas as pd

    columns = ["score", "sentence"]
    data = [(s.sentiment.score, s.text.content) for s in response.sentences]
    df_sentence = pd.DataFrame(columns=columns, data=data)

    sentiment = response.document_sentiment
    columns = ["score", "magnitude", "language"]
    data = [(sentiment.score, sentiment.magnitude, response.language)]
    df_document = pd.DataFrame(columns=columns, data=data)

    format_args = dict(index=False, tablefmt="presto", floatfmt="+.1f")
    print(f"At sentence level:\n{df_sentence.to_markdown(**format_args)}")
    print()
    print(f"At document level:\n{df_document.to_markdown(**format_args)}")

Przeprowadź analizę:

# Input
text = """
Python is a very readable language, which makes it easy to understand and maintain code.
It's simple, very flexible, easy to learn, and suitable for a wide variety of tasks.
One disadvantage is its speed: it's not as fast as some other programming languages.
"""

# Send a request to the API
analyze_sentiment_response = analyze_text_sentiment(text)

# Show the results
show_text_sentiment(analyze_sentiment_response)

Zostaną wyświetlone dane wyjściowe podobne do tych:

At sentence level:
   score | sentence
---------+------------------------------------------------------------------------------------------
    +0.8 | Python is a very readable language, which makes it easy to understand and maintain code.
    +0.9 | It's simple, very flexible, easy to learn, and suitable for a wide variety of tasks.
    -0.4 | One disadvantage is its speed: it's not as fast as some other programming languages.

At document level:
   score |   magnitude | language
---------+-------------+------------
    +0.4 |        +2.2 | en

Poświęć chwilę na sprawdzenie swoich własnych zdań.

Informacje o językach obsługiwanych przez interfejs Natural Language API znajdziesz w artykule na ten temat.
Wartość score nastawienia mieści się w zakresie od -1.0 (ujemne) do +1.0 (pozytywne) i odpowiada ogólnemu nastrojowi na podstawie podanych informacji.
Wartość magnitude nastawienia mieści się w zakresie od 0.0 do +inf i wskazuje ogólną siłę nastawienia na podstawie podanych informacji. Im więcej informacji podasz, tym większa skuteczność.
Więcej informacji o tym, jak interpretować wartości nastawienia score i magnitude uwzględnione w analizie, znajdziesz w artykule Interpretowanie wartości w analizie nastawienia.
Każda odpowiedź interfejsu API zwraca automatycznie wykryty język dokumentu (w języku ISO-639-1). Jest on widoczny tutaj. Zostanie pominięty w następnych przykładach analizy.

Podsumowanie

W tym kroku mogliśmy przeprowadzić analizę nastawienia dla ciągu tekstowego.

5. Analiza encji

Analiza encji sprawdza podany tekst pod kątem znanych jednostek (rzeczowników takich jak osoby publiczne, punkty orientacyjne itp.) i zwraca informacje o tych podmiotach. Jest wykonywane przy użyciu metody analyze_entities, która zwraca AnalyzeEntitiesResponse.

Skopiuj ten kod do sesji IPython:

from google.cloud import language

def analyze_text_entities(text: str) -> language.AnalyzeEntitiesResponse:
    client = language.LanguageServiceClient()
    document = language.Document(
        content=text,
        type_=language.Document.Type.PLAIN_TEXT,
    )
    return client.analyze_entities(document=document)

def show_text_entities(response: language.AnalyzeEntitiesResponse):
    import pandas as pd

    columns = ("name", "type", "salience", "mid", "wikipedia_url")
    data = (
        (
            entity.name,
            entity.type_.name,
            entity.salience,
            entity.metadata.get("mid", ""),
            entity.metadata.get("wikipedia_url", ""),
        )
        for entity in response.entities
    )
    df = pd.DataFrame(columns=columns, data=data)
    print(df.to_markdown(index=False, tablefmt="presto", floatfmt=".0%"))

Przeprowadź analizę:

# Input
text = """Guido van Rossum is best known as the creator of Python,
which he named after the Monty Python comedy troupe.
He was born in Haarlem, Netherlands.
"""

# Send a request to the API
analyze_entities_response = analyze_text_entities(text)

# Show the results
show_text_entities(analyze_entities_response)

Zostaną wyświetlone dane wyjściowe podobne do tych:

 name             | type         |   salience | mid       | wikipedia_url
------------------+--------------+------------+-----------+-------------------------------------------------------------
 Guido van Rossum | PERSON       |        50% | /m/01h05c | https://en.wikipedia.org/wiki/Guido_van_Rossum
 Python           | ORGANIZATION |        38% | /m/05z1_  | https://en.wikipedia.org/wiki/Python_(programming_language)
 creator          | PERSON       |         5% |           |
 Monty Python     | PERSON       |         3% | /m/04sd0  | https://en.wikipedia.org/wiki/Monty_Python
 comedy troupe    | PERSON       |         2% |           |
 Haarlem          | LOCATION     |         1% | /m/0h095  | https://en.wikipedia.org/wiki/Haarlem
 Netherlands      | LOCATION     |         1% | /m/059j2  | https://en.wikipedia.org/wiki/Netherlands

Poświęć chwilę na sprawdzenie swoich zdań, w których wspomina się o innych elementach.

Informacje o językach obsługiwanych przez tę metodę znajdziesz w sekcji Obsługa języków.
type elementu to wyliczenie, które pozwala klasyfikować i rozróżniać jednostki. Na przykład dzięki temu można rozróżnić jednostki o podobnej nazwie: „T.E. Lawrence (PERSON) z książki „Lawrence of Arabia” (film oznaczony jako WORK_OF_ART). Zobacz Entity.Type.
Element salience wskazuje ważność lub trafność tego elementu w odniesieniu do całego tekstu dokumentu. Ten wynik może pomóc w pobieraniu i podsumowywaniu informacji, ponieważ priorytetowo traktowane są najważniejsze podmioty. Wyniki bliższe 0.0 są mniej ważne, natomiast wyniki bliższe 1.0 są bardzo ważne.
Więcej informacji znajdziesz w artykule Analiza encji.
Analizę encji i analizę nastawienia możesz też połączyć za pomocą metody analyze_entity_sentiment. Zobacz Analiza nastawienia elementów.

Podsumowanie

W tym kroku udało Ci się przeprowadzić analizę encji.

6. Analiza składni

Analiza składni wyodrębnia informacje językowe, dzieląc dany tekst na serię zdań i tokenów (zwykle na podstawie granic słów), co prowadzi do dalszej analizy tych tokenów. Jest wykonywane przy użyciu metody analyze_syntax, która zwraca AnalyzeSyntaxResponse.

Skopiuj ten kod do sesji IPython:

from typing import Optional
from google.cloud import language

def analyze_text_syntax(text: str) -> language.AnalyzeSyntaxResponse:
    client = language.LanguageServiceClient()
    document = language.Document(
        content=text,
        type_=language.Document.Type.PLAIN_TEXT,
    )
    return client.analyze_syntax(document=document)

def get_token_info(token: Optional[language.Token]) -> list[str]:
    parts = [
        "tag",
        "aspect",
        "case",
        "form",
        "gender",
        "mood",
        "number",
        "person",
        "proper",
        "reciprocity",
        "tense",
        "voice",
    ]
    if not token:
        return ["token", "lemma"] + parts

    text = token.text.content
    lemma = token.lemma if token.lemma != token.text.content else ""
    info = [text, lemma]
    for part in parts:
        pos = token.part_of_speech
        info.append(getattr(pos, part).name if part in pos else "")

    return info

def show_text_syntax(response: language.AnalyzeSyntaxResponse):
    import pandas as pd

    tokens = len(response.tokens)
    sentences = len(response.sentences)
    columns = get_token_info(None)
    data = (get_token_info(token) for token in response.tokens)
    df = pd.DataFrame(columns=columns, data=data)
    # Remove empty columns
    empty_columns = [col for col in df if df[col].eq("").all()]
    df.drop(empty_columns, axis=1, inplace=True)

    print(f"Analyzed {tokens} token(s) from {sentences} sentence(s):")
    print(df.to_markdown(index=False, tablefmt="presto"))

Przeprowadź analizę:

# Input
text = """Guido van Rossum is best known as the creator of Python.
He was born in Haarlem, Netherlands.
"""

# Send a request to the API
analyze_syntax_response = analyze_text_syntax(text)

# Show the results
show_text_syntax(analyze_syntax_response)

Zostaną wyświetlone dane wyjściowe podobne do tych:

Analyzed 20 token(s) from 2 sentence(s):
 token       | lemma   | tag   | case       | gender    | mood       | number   | person   | proper   | tense   | voice
-------------+---------+-------+------------+-----------+------------+----------+----------+----------+---------+---------
 Guido       |         | NOUN  |            |           |            | SINGULAR |          | PROPER   |         |
 van         |         | NOUN  |            |           |            | SINGULAR |          | PROPER   |         |
 Rossum      |         | NOUN  |            |           |            | SINGULAR |          | PROPER   |         |
 is          | be      | VERB  |            |           | INDICATIVE | SINGULAR | THIRD    |          | PRESENT |
 best        | well    | ADV   |            |           |            |          |          |          |         |
 known       | know    | VERB  |            |           |            |          |          |          | PAST    |
 as          |         | ADP   |            |           |            |          |          |          |         |
 the         |         | DET   |            |           |            |          |          |          |         |
 creator     |         | NOUN  |            |           |            | SINGULAR |          |          |         |
 of          |         | ADP   |            |           |            |          |          |          |         |
 Python      |         | NOUN  |            |           |            | SINGULAR |          | PROPER   |         |
 .           |         | PUNCT |            |           |            |          |          |          |         |
 He          |         | PRON  | NOMINATIVE | MASCULINE |            | SINGULAR | THIRD    |          |         |
 was         | be      | VERB  |            |           | INDICATIVE | SINGULAR | THIRD    |          | PAST    |
 born        | bear    | VERB  |            |           |            |          |          |          | PAST    | PASSIVE
 in          |         | ADP   |            |           |            |          |          |          |         |
 Haarlem     |         | NOUN  |            |           |            | SINGULAR |          | PROPER   |         |
 ,           |         | PUNCT |            |           |            |          |          |          |         |
 Netherlands |         | NOUN  |            |           |            | SINGULAR |          | PROPER   |         |
 .           |         | PUNCT |            |           |            |          |          |          |         |

Poświęć chwilę na przetestowanie własnych zdań z użyciem innych struktur składniowych.

Jeśli zagłębisz się w statystyki odpowiedzi, zobaczysz też zależności między tokenami. Oto interpretacja wizualna pokazująca pełną analizę składni tego przykładu. Zrzut ekranu z internetowej wersji demonstracyjnej języka naturalnego:

Podsumowanie

W tym kroku mogliśmy przeprowadzić analizę składni.

7. Klasyfikacja treści

Klasyfikacja treści analizuje dokument i zwraca listę kategorii treści, które mają zastosowanie do tekstu znalezionego w dokumencie. Jest wykonywane przy użyciu metody classify_text, która zwraca ClassifyTextResponse.

Skopiuj ten kod do sesji IPython:

from google.cloud import language

def classify_text(text: str) -> language.ClassifyTextResponse:
    client = language.LanguageServiceClient()
    document = language.Document(
        content=text,
        type_=language.Document.Type.PLAIN_TEXT,
    )
    return client.classify_text(document=document)

def show_text_classification(text: str, response: language.ClassifyTextResponse):
    import pandas as pd

    columns = ["category", "confidence"]
    data = ((category.name, category.confidence) for category in response.categories)
    df = pd.DataFrame(columns=columns, data=data)

    print(f"Text analyzed:\n{text}")
    print(df.to_markdown(index=False, tablefmt="presto", floatfmt=".0%"))

Przeprowadź analizę:

# Input
text = """Python is an interpreted, high-level, general-purpose programming language.
Created by Guido van Rossum and first released in 1991, Python's design philosophy
emphasizes code readability with its notable use of significant whitespace.
"""

# Send a request to the API
classify_text_response = classify_text(text)

# Show the results
show_text_classification(text, classify_text_response)

Zostaną wyświetlone dane wyjściowe podobne do tych:

Text analyzed:
Python is an interpreted, high-level, general-purpose programming language.
Created by Guido van Rossum and first released in 1991, Python's design philosophy
emphasizes code readability with its notable use of significant whitespace.

 category                             |   confidence
--------------------------------------+--------------
 /Computers & Electronics/Programming |          99%
 /Science/Computer Science            |          99%

Poświęć chwilę na sprawdzenie swoich zdań o innych kategoriach. Pamiętaj, że musisz dostarczyć blok tekstowy (dokument) zawierający co najmniej dwadzieścia tokenów (słowa i znaki interpunkcyjne).

Podsumowanie

W tym kroku udało Ci się sklasyfikować treści.

8. Moderowanie tekstu

Moderowanie tekstu, oparte na najnowszym modelu podstawowym Google PaLM 2, identyfikuje szeroki zakres szkodliwych treści, w tym wypowiedzi szerzące nienawiść, dręczenie i molestowanie seksualne. Jest wykonywane przy użyciu metody moderate_text, która zwraca ModerateTextResponse.

Skopiuj ten kod do sesji IPython:

from google.cloud import language

def moderate_text(text: str) -> language.ModerateTextResponse:
    client = language.LanguageServiceClient()
    document = language.Document(
        content=text,
        type_=language.Document.Type.PLAIN_TEXT,
    )
    return client.moderate_text(document=document)

def show_text_moderation(text: str, response: language.ModerateTextResponse):
    import pandas as pd

    def confidence(category: language.ClassificationCategory) -> float:
        return category.confidence

    columns = ["category", "confidence"]
    categories = sorted(response.moderation_categories, key=confidence, reverse=True)
    data = ((category.name, category.confidence) for category in categories)
    df = pd.DataFrame(columns=columns, data=data)

    print(f"Text analyzed:\n{text}")
    print(df.to_markdown(index=False, tablefmt="presto", floatfmt=".0%"))

Przeprowadź analizę:

# Input
text = """I have to read Ulysses by James Joyce.
I'm a little over halfway through and I hate it.
What a pile of garbage!
"""

# Send a request to the API
response = moderate_text(text)

# Show the results
show_text_moderation(text, response)

Zostaną wyświetlone dane wyjściowe podobne do tych:

Text analyzed:
I have to read Ulysses by James Joyce.
I'm a little over halfway through and I hate it.
What a pile of garbage!

 category              |   confidence
-----------------------+--------------
 Toxic                 |          67%
 Insult                |          58%
 Profanity             |          53%
 Violent               |          48%
 Illicit Drugs         |          29%
 Religion & Belief     |          27%
 Politics              |          22%
 Death, Harm & Tragedy |          21%
 Finance               |          18%
 Derogatory            |          14%
 Firearms & Weapons    |          11%
 Health                |          10%
 Legal                 |          10%
 War & Conflict        |           7%
 Public Safety         |           5%
 Sexual                |           4%

Poświęć chwilę na sprawdzenie swoich własnych zdań.

Podsumowanie

W tym kroku udało Ci się przeprowadzić moderację tekstu.

9. Gratulacje!

Już wiesz, jak korzystać z interfejsu Natural Language API w Pythonie.

Czyszczenie danych

Aby wyczyścić środowisko programistyczne, wykonaj te czynności w Cloud Shell:

Jeśli nadal jesteś w sesji IPython, wróć do powłoki: exit
Przestań używać środowiska wirtualnego Pythona: deactivate
Usuń folder środowiska wirtualnego: cd ~ ; rm -rf ./venv-language

Aby usunąć projekt Google Cloud z Cloud Shell:

Pobierz bieżący identyfikator projektu: PROJECT_ID=$(gcloud config get-value core/project)
Sprawdź, czy to jest projekt, który chcesz usunąć: echo $PROJECT_ID
Usuń projekt: gcloud projects delete $PROJECT_ID

Więcej informacji

Przetestuj wersję demonstracyjną w przeglądarce: https://cloud.google.com/natural-language#natural-language-api-demo.
Dokumentacja języka naturalnego: https://cloud.google.com/natural-language/docs.
Python w Google Cloud: https://cloud.google.com/python
Biblioteki klienta Cloud dla Pythona: https://github.com/googleapis/google-cloud-python

Licencja

To zadanie jest licencjonowane na podstawie ogólnej licencji Creative Commons Attribution 2.0.