Używanie interfejsu Speech-to-Text API w Pythonie

1. Omówienie

Speech-to-Text API umożliwia programistom konwertowanie dźwięku na tekst w ponad 125 językach i wariantach przez zastosowanie zaawansowanych modeli sieci neuronowych w łatwym w obsłudze interfejsie API.

W tym samouczku skupisz się na używaniu interfejsu Speech-to-Text API w języku Python.

Czego się nauczysz

Jak skonfigurować środowisko
Jak tworzyć transkrypcje plików audio w języku angielskim
Jak tworzyć transkrypcje plików audio z sygnaturami czasowymi słów
Jak tworzyć transkrypcje plików audio w różnych językach

Czego potrzebujesz

Projekt Google Cloud
przeglądarki, na przykład Chrome lub Firefox;
znajomość języka Python,

Ankieta

Jak wykorzystasz ten samouczek?

Tylko do przeczytania

Przeczytaj go i wykonaj ćwiczenia

Jak oceniasz swoje doświadczenia z językiem Python?

Początkujący

Poziom średnio zaawansowany

Biegły

Jak oceniasz usługi Google Cloud?

Początkujący

Poziom średnio zaawansowany

Biegły

2. Konfiguracja i wymagania

Samodzielne konfigurowanie środowiska

Zaloguj się w konsoli Google Cloud i utwórz nowy projekt lub wykorzystaj już istniejący. Jeśli nie masz jeszcze konta Gmail ani Google Workspace, musisz je utworzyć.

Nazwa projektu jest wyświetlaną nazwą uczestników tego projektu. To ciąg znaków, który nie jest używany przez interfejsy API Google. W każdej chwili możesz ją zaktualizować.
Identyfikator projektu jest unikalny we wszystkich projektach Google Cloud i nie można go zmienić (po jego ustawieniu nie można go zmienić). Cloud Console automatycznie wygeneruje unikalny ciąg znaków. zwykle nieważne, co ona jest. W większości ćwiczeń w Codelabs musisz podać swój identyfikator projektu (zwykle identyfikowany jako PROJECT_ID). Jeśli nie podoba Ci się wygenerowany identyfikator, możesz wygenerować kolejny losowy. Możesz też spróbować własnych sił i sprawdzić, czy jest dostępna. Po wykonaniu tej czynności nie można jej już zmienić. Pozostanie ona przez cały czas trwania projektu.
Jest jeszcze trzecia wartość, numer projektu, z którego korzystają niektóre interfejsy API. Więcej informacji o wszystkich 3 wartościach znajdziesz w dokumentacji.

Następnie musisz włączyć płatności w Cloud Console, aby korzystać z zasobów Cloud/interfejsów API. Ukończenie tego ćwiczenia z programowania nic nie kosztuje. Aby wyłączyć zasoby w celu uniknięcia naliczania opłat po zakończeniu tego samouczka, możesz usunąć utworzone zasoby lub projekt. Nowi użytkownicy Google Cloud mogą skorzystać z programu bezpłatnego okresu próbnego o wartości 300 USD.

Uruchamianie Cloud Shell

Google Cloud można obsługiwać zdalnie z laptopa, ale w ramach tego ćwiczenia z programowania wykorzystasz Cloud Shell – środowisko wiersza poleceń działające w Cloud.

Aktywowanie Cloud Shell

W konsoli Cloud kliknij Aktywuj Cloud Shell .

Jeśli uruchamiasz Cloud Shell po raz pierwszy, zobaczysz ekran pośredni z opisem tej usługi. Jeśli wyświetlił się ekran pośredni, kliknij Dalej.

Uzyskanie dostępu do Cloud Shell i połączenie się z nim powinno zająć tylko kilka chwil.

Ta maszyna wirtualna ma wszystkie potrzebne narzędzia dla programistów. Zawiera stały katalog domowy o pojemności 5 GB i działa w Google Cloud, co znacznie zwiększa wydajność sieci i uwierzytelnianie. Większość zadań w ramach tego ćwiczenia z programowania można wykonać w przeglądarce.

Po nawiązaniu połączenia z Cloud Shell powinno pojawić się potwierdzenie, że użytkownik jest uwierzytelniony, a projekt jest ustawiony na identyfikator Twojego projektu.

Uruchom to polecenie w Cloud Shell, aby potwierdzić, że jesteś uwierzytelniony:

gcloud auth list

Dane wyjściowe polecenia

 Credentialed Accounts
ACTIVE  ACCOUNT
*       <my_account>@<my_domain.com>

To set the active account, run:
    $ gcloud config set account `ACCOUNT`

Uruchom to polecenie w Cloud Shell, aby sprawdzić, czy polecenie gcloud zna Twój projekt:

gcloud config list project

Dane wyjściowe polecenia

[core]
project = <PROJECT_ID>

Jeśli tak nie jest, możesz go ustawić za pomocą tego polecenia:

gcloud config set project <PROJECT_ID>

Dane wyjściowe polecenia

Updated property [core/project].

3. Konfiguracja środowiska

Zanim zaczniesz używać interfejsu Speech-to-Text API, uruchom w Cloud Shell to polecenie, aby go włączyć:

gcloud services enable speech.googleapis.com

Powinien pojawić się ekran podobny do tego:

Operation "operations/..." finished successfully.

Teraz możesz używać interfejsu Speech-to-Text API.

Przejdź do katalogu głównego:

cd ~

Utwórz środowisko wirtualne Pythona, aby wyizolować zależności:

virtualenv venv-speech

Aktywuj środowisko wirtualne:

source venv-speech/bin/activate

Zainstaluj IPython i bibliotekę klienta Speech-to-Text API:

pip install ipython google-cloud-speech

Powinien pojawić się ekran podobny do tego:

...
Installing collected packages: ..., ipython, google-cloud-speech
Successfully installed ... google-cloud-speech-2.25.1 ...

Teraz możesz już korzystać z biblioteki klienta Speech-to-Text API.

W następnych krokach użyjesz interaktywnego interpretera Pythona o nazwie IPython, który został zainstalowany w poprzednim kroku. Rozpocznij sesję od uruchomienia ipython w Cloud Shell:

ipython

Powinien pojawić się ekran podobny do tego:

Python 3.9.2 (default, Feb 28 2021, 17:03:44)
Type 'copyright', 'credits' or 'license' for more information
IPython 8.18.1 -- An enhanced Interactive Python. Type '?' for help.

In [1]:

Możesz złożyć pierwszą prośbę...

4. Transkrybuj pliki audio

W tej sekcji utworzysz transkrypcję pliku audio w języku angielskim.

Skopiuj ten kod do sesji IPython:

from google.cloud import speech


def speech_to_text(
    config: speech.RecognitionConfig,
    audio: speech.RecognitionAudio,
) -> speech.RecognizeResponse:
    client = speech.SpeechClient()

    # Synchronous speech recognition request
    response = client.recognize(config=config, audio=audio)

    return response


def print_response(response: speech.RecognizeResponse):
    for result in response.results:
        print_result(result)


def print_result(result: speech.SpeechRecognitionResult):
    best_alternative = result.alternatives[0]
    print("-" * 80)
    print(f"language_code: {result.language_code}")
    print(f"transcript:    {best_alternative.transcript}")
    print(f"confidence:    {best_alternative.confidence:.0%}")

Poświęć chwilę na zapoznanie się z kodem i zobacz, jak za pomocą metody z biblioteki klienta recognize tworzy transkrypcję pliku audio*.* Parametr config wskazuje sposób przetworzenia żądania, a parametr audio określa dane audio do rozpoznania.

Wyślij prośbę:

config = speech.RecognitionConfig(
    language_code="en",
)
audio = speech.RecognitionAudio(
    uri="gs://cloud-samples-data/speech/brooklyn_bridge.flac",
)

response = speech_to_text(config, audio)
print_response(response)

Powinny się wyświetlić te dane wyjściowe:

--------------------------------------------------------------------------------
language_code: en-us
transcript:    how old is the Brooklyn Bridge
confidence:    98%

Zaktualizuj konfigurację, aby włączyć automatyczną interpunkcję i wyślij nowe żądanie:

config.enable_automatic_punctuation = True

response = speech_to_text(config, audio)
print_response(response)

Powinny się wyświetlić te dane wyjściowe:

--------------------------------------------------------------------------------
language_code: en-us
transcript:    How old is the Brooklyn Bridge?
confidence:    98%

Podsumowanie

W tym kroku udało Ci się utworzyć transkrypcję pliku audio w języku angielskim, używając różnych parametrów, i wydrukować wynik. Dowiedz się więcej o transkrypcji plików audio.

5. Pobieranie sygnatur czasowych słów

Funkcja Speech-to-Text może wykrywać przesunięcia czasu (sygnatury czasowe) w transkrybowanych nagraniach dźwiękowych. Przesunięcia czasu pokazują początek i koniec każdego wypowiedzianego słowa w dostarczonym dźwięku. Wartość przesunięcia czasu reprezentuje czas, który upłynął od rozpoczęcia odtwarzania dźwięku, w przyrostach co 100 ms.

Aby utworzyć transkrypcję pliku audio z sygnaturami czasowymi słów, zaktualizuj kod, kopiując ten fragment do sesji IPython:

def print_result(result: speech.SpeechRecognitionResult):
    best_alternative = result.alternatives[0]
    print("-" * 80)
    print(f"language_code: {result.language_code}")
    print(f"transcript:    {best_alternative.transcript}")
    print(f"confidence:    {best_alternative.confidence:.0%}")
    print("-" * 80)
    for word in best_alternative.words:
        start_s = word.start_time.total_seconds()
        end_s = word.end_time.total_seconds()
        print(f"{start_s:>7.3f} | {end_s:>7.3f} | {word.word}")

Poświęć chwilę na zapoznanie się z kodem i zobacz, jak transkrybuje plik audio z sygnaturami czasowymi słów*.* Parametr enable_word_time_offsets informuje interfejs API, aby zwracał przesunięcie czasu dla każdego słowa (więcej informacji znajdziesz w dokumencie).

Wyślij prośbę:

config = speech.RecognitionConfig(
    language_code="en",
    enable_automatic_punctuation=True,
    enable_word_time_offsets=True,
)
audio = speech.RecognitionAudio(
    uri="gs://cloud-samples-data/speech/brooklyn_bridge.flac",
)

response = speech_to_text(config, audio)
print_response(response)

Powinny się wyświetlić te dane wyjściowe:

--------------------------------------------------------------------------------
language_code: en-us
transcript:    How old is the Brooklyn Bridge?
confidence:    98%
--------------------------------------------------------------------------------
  0.000 |   0.300 | How
  0.300 |   0.600 | old
  0.600 |   0.800 | is
  0.800 |   0.900 | the
  0.900 |   1.100 | Brooklyn
  1.100 |   1.400 | Bridge?

Podsumowanie

W tym kroku udało Ci się utworzyć transkrypcję pliku audio w języku angielskim z sygnaturami czasowymi słów i wydrukować wynik. Dowiedz się więcej o uzyskiwaniu sygnatur czasowych słów.

6. Transkrybuj różne języki

Interfejs Speech-to-Text API rozpoznaje ponad 125 języków i wariantów. Listę obsługiwanych języków znajdziesz tutaj.

W tej sekcji utworzysz transkrypcję z francuskiego pliku audio.

Aby utworzyć transkrypcję francuskiego pliku audio, zaktualizuj kod, kopiując do sesji IPythona ten fragment:

config = speech.RecognitionConfig(
    language_code="fr-FR",
    enable_automatic_punctuation=True,
    enable_word_time_offsets=True,
)
audio = speech.RecognitionAudio(
    uri="gs://cloud-samples-data/speech/corbeau_renard.flac",
)

response = speech_to_text(config, audio)
print_response(response)

Powinny się wyświetlić te dane wyjściowe:

--------------------------------------------------------------------------------
language_code: fr-fr
transcript:    Maître corbeau sur un arbre perché Tenait dans son bec un fromage maître Renard par l'odeur alléché lui tint à peu près ce langage et bonjour monsieur du corbeau.
confidence:    94%
--------------------------------------------------------------------------------
  0.000 |   0.700 | Maître
  0.700 |   1.100 | corbeau
  1.100 |   1.300 | sur
  1.300 |   1.600 | un
  1.600 |   1.700 | arbre
  1.700 |   2.000 | perché
  2.000 |   3.000 | Tenait
  3.000 |   3.000 | dans
  3.000 |   3.200 | son
  3.200 |   3.500 | bec
  3.500 |   3.700 | un
  3.700 |   3.800 | fromage
...
 10.800 |  11.800 | monsieur
 11.800 |  11.900 | du
 11.900 |  12.100 | corbeau.

Podsumowanie

W tym kroku udało Ci się utworzyć transkrypcję francuskiego pliku audio i wydrukować wynik. Dowiedz się więcej o obsługiwanych językach.

7. Gratulacje!

Wiesz już, jak używać interfejsu Speech-to-Text API w języku Python do tworzenia różnych transkrypcji plików audio.

Czyszczenie danych

Aby wyczyścić środowisko programistyczne, wykonaj te czynności w Cloud Shell:

Jeśli nadal jesteś w sesji IPython, wróć do powłoki: exit
Przestań używać środowiska wirtualnego Pythona: deactivate
Usuń folder środowiska wirtualnego: cd ~ ; rm -rf ./venv-speech

Aby usunąć projekt Google Cloud z Cloud Shell:

Pobierz bieżący identyfikator projektu: PROJECT_ID=$(gcloud config get-value core/project)
Sprawdź, czy to jest projekt, który chcesz usunąć: echo $PROJECT_ID
Usuń projekt: gcloud projects delete $PROJECT_ID

Więcej informacji

Przetestuj wersję demonstracyjną w przeglądarce: https://cloud.google.com/speech-to-text
Dokumentacja usługi Speech-to-Text: https://cloud.google.com/speech-to-text/docs
Python w Google Cloud: https://cloud.google.com/python
Biblioteki klienta Cloud dla Pythona: https://github.com/googleapis/google-cloud-python

Licencja

To zadanie jest licencjonowane na podstawie ogólnej licencji Creative Commons Attribution 2.0.