Использование API преобразования речи в текст с C#

Минут осталось: 26

О практической работе

Последнее обновление: июн. 26, 2023

Авторы: Mete Atamel

Эта страница переведена с помощью Cloud Translation API.

1. Обзор

Google Cloud Speech-to-Text API позволяет разработчикам преобразовывать аудио в текст на 120 языках и их вариантах, применяя мощные модели нейронных сетей в простом в использовании API.

В этой лабораторной работе вы сосредоточитесь на использовании API преобразования речи в текст с C#. Вы узнаете, как отправить аудиофайл на английском и других языках в Cloud Speech-to-Text API для транскрипции.

Что вы узнаете

Как использовать Cloud Shell
Как включить API преобразования речи в текст
Как аутентифицировать запросы API
Как установить клиентскую библиотеку Google Cloud для C#
Как расшифровать аудиофайлы на английском языке
Как расшифровать аудиофайлы со словесными временными метками
Как расшифровать аудиофайлы на разных языках

Что вам понадобится

Проект облачной платформы Google
Браузер, например Chrome или Firefox.
Знакомство с C#

Опрос

Как вы будете использовать этот урок?

Прочтите только до конца Прочитайте его и выполните упражнения.

Как бы вы оценили свой опыт работы с C#?

Новичок Средний Опытный

Как бы вы оценили свой опыт использования сервисов Google Cloud Platform?

Новичок Средний Опытный

2. Настройка и требования

Самостоятельная настройка среды

Войдите в Google Cloud Console и создайте новый проект или повторно используйте существующий. Если у вас еще нет учетной записи Gmail или Google Workspace, вам необходимо ее создать .

Имя проекта — это отображаемое имя для участников этого проекта. Это строка символов, не используемая API Google. Вы всегда можете обновить его.
Идентификатор проекта уникален для всех проектов Google Cloud и является неизменяемым (невозможно изменить после его установки). Cloud Console автоматически генерирует уникальную строку; обычно тебя не волнует, что это такое. В большинстве лабораторий кода вам потребуется указать идентификатор проекта (обычно идентифицируемый как PROJECT_ID ). Если вам не нравится сгенерированный идентификатор, вы можете создать другой случайный идентификатор. Кроме того, вы можете попробовать свой собственный и посмотреть, доступен ли он. Его нельзя изменить после этого шага и он сохраняется на протяжении всего проекта.
К вашему сведению, есть третье значение — номер проекта , которое используют некоторые API. Подробнее обо всех трех этих значениях читайте в документации .

Затем вам необходимо включить выставление счетов в Cloud Console, чтобы использовать облачные ресурсы/API. Прохождение этой кодовой лаборатории не будет стоить много, если вообще что-то стоить. Чтобы отключить ресурсы и избежать выставления счетов за пределами этого руководства, вы можете удалить созданные вами ресурсы или удалить проект. Новые пользователи Google Cloud имеют право на участие в программе бесплатной пробной версии стоимостью 300 долларов США .

Запустить Cloud Shell

Хотя Google Cloud можно управлять удаленно с вашего ноутбука, в этой лаборатории вы будете использовать Google Cloud Shell , среду командной строки, работающую в облаке.

Активировать Cloud Shell

В Cloud Console нажмите «Активировать Cloud Shell». .

Если вы запускаете Cloud Shell впервые, вы увидите промежуточный экран с описанием того, что это такое. Если вам был представлен промежуточный экран, нажмите «Продолжить» .

Подготовка и подключение к Cloud Shell займет всего несколько минут.

Эта виртуальная машина загружена всеми необходимыми инструментами разработки. Он предлагает постоянный домашний каталог объемом 5 ГБ и работает в Google Cloud, что значительно повышает производительность сети и аутентификацию. Большую часть, если не всю, работу в этой лаборатории кода можно выполнить с помощью браузера.

После подключения к Cloud Shell вы увидите, что вы прошли аутентификацию и что для проекта установлен идентификатор вашего проекта.

Выполните следующую команду в Cloud Shell, чтобы подтвердить, что вы прошли аутентификацию:

gcloud auth list

Вывод команды

 Credentialed Accounts
ACTIVE  ACCOUNT
*       <my_account>@<my_domain.com>

To set the active account, run:
    $ gcloud config set account `ACCOUNT`

Выполните следующую команду в Cloud Shell, чтобы убедиться, что команда gcloud знает о вашем проекте:

gcloud config list project

Вывод команды

[core]
project = <PROJECT_ID>

Если это не так, вы можете установить это с помощью этой команды:

gcloud config set project <PROJECT_ID>

Вывод команды

Updated property [core/project].

3. Включить API преобразования речи в текст

Прежде чем вы сможете начать использовать API преобразования речи в текст, вы должны включить этот API. Вы можете включить API, используя следующую команду в Cloud Shell:

gcloud services enable speech.googleapis.com

Примечание. Если эта команда выдает ОШИБКУ, убедитесь, что текущий идентификатор проекта соответствует идентификатору проекта вашей кодовой лаборатории.

Используйте следующую команду, чтобы найти текущий идентификатор проекта, используемый Cloud Shell:

gcloud info | grep "project"

Если идентификатор проекта неверен, используйте следующую команду, чтобы использовать правильный идентификатор проекта:

gcloud config set project <PROJECT_ID>

Замените <PROJECT_ID> правильным идентификатором проекта.

4. Установите клиентскую библиотеку API преобразования речи в текст Google Cloud для C#.

Сначала создайте простое консольное приложение C#, которое вы будете использовать для запуска примеров API преобразования речи в текст:

dotnet new console -n SpeechToTextApiDemo

Вы должны увидеть созданное приложение и разрешенные зависимости:

The template "Console Application" was created successfully.
Processing post-creation actions...
...
Restore succeeded.

Затем перейдите в папку SpeechToTextApiDemo :

cd SpeechToTextApiDemo/

И добавьте в проект пакет Google.Cloud.Speech.V1 NuGet:

dotnet add package Google.Cloud.Speech.V1

info : Adding PackageReference for package 'Google.Cloud.Speech.V1' into project '/home/atameldev/SpeechToTextApiDemo/SpeechToTextApiDemo.csproj'.
log  : Restoring packages for /home/atameldev/SpeechToTextApiDemo/SpeechToTextApiDemo.csproj...
...
info : PackageReference for package 'Google.Cloud.Speech.V1' version '1.0.1' added to file '/home/atameldev/SpeechToTextApiDemo/SpeechToTextApiDemo.csproj'.

Теперь вы готовы использовать API преобразования речи в текст!

5. Транскрипция аудиофайлов

В этом разделе вы расшифруете заранее записанный аудиофайл на английском языке. Аудиофайл доступен в Google Cloud Storage.

Чтобы расшифровать аудиофайл, откройте редактор кода в правом верхнем углу Cloud Shell:

Перейдите к файлу Program.cs в папке SpeechToTextApiDemo и замените код следующим:

using Google.Cloud.Speech.V1;
using System;

namespace SpeechToTextApiDemo
{
    public class Program
    {
        public static void Main(string[] args)
        {
            var speech = SpeechClient.Create();
            var config = new RecognitionConfig
            {
                Encoding = RecognitionConfig.Types.AudioEncoding.Flac,
                SampleRateHertz = 16000,
                LanguageCode = LanguageCodes.English.UnitedStates
            };
            var audio = RecognitionAudio.FromStorageUri("gs://cloud-samples-tests/speech/brooklyn.flac");         
            
            var response = speech.Recognize(config, audio);

            foreach (var result in response.Results)
            {
                foreach (var alternative in result.Alternatives)
                {
                    Console.WriteLine(alternative.Transcript);
                }
            }
        }
    }
}

Уделите минуту или две, чтобы изучить код и увидеть, что он используется для расшифровки аудиофайла*.*

Параметр Encoding сообщает API, какой тип кодирования звука вы используете для аудиофайла. Flac — это тип кодировки для файлов .raw (более подробную информацию см. в документации по типу кодировки).

В объекте RecognitionAudio вы можете передать API либо uri нашего аудиофайла в облачном хранилище, либо локальный путь к аудиофайлу. Здесь мы используем URI Cloud Storage.

Вернувшись в Cloud Shell, запустите приложение:

dotnet run

Вы должны увидеть следующий вывод:

how old is the Brooklyn Bridge

Примечание. Если этот код C# вам не подходит, проверьте инструкции, которые вы выполнили на этапе проверки подлинности запросов API .

Используя следующую команду, чтобы проверить значение переменной среды GOOGLE_APPLICATION_CREDENTIALS :

echo GOOGLE_APPLICATION_CREDENTIALS

Он должен вывести значение " ~/key.json ".

Если да, то проверьте, что учетная запись службы была создана и находится по адресу " ~/key.json " , используя:

cat "~/key.json"

Вы должны увидеть что-то похожее на:

{

"type": "service_account",

"project_id": "PROJECT_ID",

"private_key_id": "ff31939192529e07f42e4535fb20bb029def1276",

"Private_key":...

Если вы этого не сделаете, вернитесь к шагу «Аутентификация запросов API» .

Краткое содержание

На этом этапе вы смогли расшифровать аудиофайл на английском языке и распечатать результат. Подробнее о транскрипции читайте.

6. Расшифровка с временными метками слов

Функция преобразования речи в текст может определять смещение времени (временную метку) транскрибируемого аудио. Смещения по времени показывают начало и конец каждого произнесенного слова в поставляемом аудио. Значение смещения времени представляет собой количество времени, прошедшее с начала звука, с шагом 100 мс.

Чтобы расшифровать аудиофайл со смещением времени, перейдите к файлу Program.cs в папке SpeechToTextApiDemo и замените код следующим:

using Google.Cloud.Speech.V1;
using System;

namespace SpeechToTextApiDemo
{
    public class Program
    {
        public static void Main(string[] args)
        {
            var speech = SpeechClient.Create();
            var config = new RecognitionConfig
            {
                Encoding = RecognitionConfig.Types.AudioEncoding.Flac,
                SampleRateHertz = 16000,
                LanguageCode = LanguageCodes.English.UnitedStates,
                EnableWordTimeOffsets = true
            };
            var audio = RecognitionAudio.FromStorageUri("gs://cloud-samples-tests/speech/brooklyn.flac");
     
            var response = speech.Recognize(config, audio);

            foreach (var result in response.Results)
            {
                foreach (var alternative in result.Alternatives)
                {
                    Console.WriteLine($"Transcript: { alternative.Transcript}");
                    Console.WriteLine("Word details:");
                    Console.WriteLine($" Word count:{alternative.Words.Count}");
                    foreach (var item in alternative.Words)
                    {
                        Console.WriteLine($"  {item.Word}");
                        Console.WriteLine($"    WordStartTime: {item.StartTime}");
                        Console.WriteLine($"    WordEndTime: {item.EndTime}");
                    }
                }
            }
        }
    }
}

Уделите минуту или две, чтобы изучить код и увидеть, что он используется для расшифровки аудиофайла с временными метками слов*.* Параметр EnableWordTimeOffsets сообщает API о необходимости включения смещений времени (более подробную информацию см. в документе ).

Вернувшись в Cloud Shell, запустите приложение:

dotnet run

Вы должны увидеть следующий вывод:

dotnet run

Transcript: how old is the Brooklyn Bridge
Word details:
 Word count:6
  how
    WordStartTime: "0s"
    WordEndTime: "0.300s"
  old
    WordStartTime: "0.300s"
    WordEndTime: "0.600s"
  is
    WordStartTime: "0.600s"
    WordEndTime: "0.800s"
  the
    WordStartTime: "0.800s"
    WordEndTime: "0.900s"
  Brooklyn
    WordStartTime: "0.900s"
    WordEndTime: "1.100s"
  Bridge
    WordStartTime: "1.100s"
    WordEndTime: "1.500s"

Краткое содержание

На этом этапе вы смогли расшифровать аудиофайл на английском языке с временными метками слов и распечатать результат. Узнайте больше о транскрипции со смещением слов .

7. Транскрипция разных языков

API преобразования речи в текст поддерживает транскрипцию более чем на 100 языках! Список поддерживаемых языков вы можете найти здесь .

В этом разделе вы расшифруете заранее записанный аудиофайл на французском языке. Аудиофайл доступен в Google Cloud Storage.

Чтобы расшифровать французский аудиофайл, перейдите к файлу Program.cs в папке SpeechToTextApiDemo и замените код следующим:

using Google.Cloud.Speech.V1;
using System;

namespace SpeechToTextApiDemo
{
    public class Program
    {
        public static void Main(string[] args)
        {
            var speech = SpeechClient.Create();
            var config = new RecognitionConfig
            {
                Encoding = RecognitionConfig.Types.AudioEncoding.Flac,
                LanguageCode = LanguageCodes.French.France
            };
            var audio = RecognitionAudio.FromStorageUri("gs://cloud-samples-data/speech/corbeau_renard.flac");

            var response = speech.Recognize(config, audio);

            foreach (var result in response.Results)
            {
                foreach (var alternative in result.Alternatives)
                {
                    Console.WriteLine(alternative.Transcript);
                }
            }
        }
    }
}

Уделите минуту или две, чтобы изучить код и посмотреть, как он используется для расшифровки аудиофайла*.* Параметр LanguageCode сообщает API, на каком языке ведется аудиозапись.

Вернувшись в Cloud Shell, запустите приложение:

dotnet run

Вы должны увидеть следующий вывод:

maître corbeau sur un arbre perché tenait en son bec un fromage

Это фраза из популярной французской детской сказки .

Краткое содержание

На этом этапе вы смогли расшифровать аудиофайл на французском языке и распечатать результат. Узнайте больше о поддерживаемых языках .

8. Поздравляем!

Вы узнали, как использовать API преобразования речи в текст с помощью C# для выполнения различных видов транскрипции аудиофайлов!

Очистить

Чтобы избежать списания средств с вашей учетной записи Google Cloud Platform за ресурсы, используемые в этом кратком руководстве:

Перейдите в консоль облачной платформы .
Выберите проект, который хотите закрыть, затем нажмите «Удалить» вверху: это запланирует удаление проекта.

Узнать больше

API Google Cloud для преобразования речи в текст: https://cloud.google.com/speech-to-text/docs
C#/.NET на облачной платформе Google: https://cloud.google.com/dotnet/
Клиент Google Cloud .NET: https://googlecloudplatform.github.io/google-cloud-dotnet/

Лицензия

Эта работа распространяется под лицензией Creative Commons Attribution 2.0 Generic License.

Сообщить об ошибке