Używanie Vision API w języku C#

Pozostało minut: 17

Informacje o tym ćwiczeniu (w Codelabs)

Ostatnia aktualizacja: cze 26, 2023

Autorzy: Mete Atamel

Ta strona została przetłumaczona przez Cloud Translation API.

1. Omówienie

Interfejs Google Cloud Vision API umożliwia programistom łatwą integrację w aplikacjach funkcji związanych z wykrywaniem wzroku, takich jak dodawanie etykiet do obrazów, wykrywanie twarzy i punktów orientacyjnych, optyczne rozpoznawanie znaków (OCR) oraz oznaczanie treści dla dorosłych tagami.

Z tego ćwiczenia w Codelabs dowiesz się, jak używać Vision API w C#. Dowiesz się, jak wykrywać tekst, punkty orientacyjne i twarze.

Czego się nauczysz

Jak używać Cloud Shell
Jak włączyć interfejs Google Cloud Vision API
Jak uwierzytelniać żądania do interfejsu API
Jak zainstalować bibliotekę klienta Vision API dla C#
Jak wykryć etykiety
Jak wykryć tekst?
Jak przeprowadzić wykrywanie punktów orientacyjnych
Jak włączyć wykrywanie twarzy

Czego potrzebujesz

Projekt Google Cloud Platform
przeglądarkę, np. Chrome lub Firefox;
Znajomość języka C#

Ankieta

Jak wykorzystasz ten samouczek?

Tylko do przeczytaniaPrzeczytaj go i wykonaj ćwiczenia

Jak oceniasz swoje doświadczenia z językiem C#?

PoczątkującyPoziom średnio zaawansowanyBiegły

Jak oceniasz swoje wrażenia z korzystania z usług Google Cloud Platform?

PoczątkującyPoziom średnio zaawansowanyBiegły

2. Konfiguracja i wymagania

Samodzielne konfigurowanie środowiska

Zaloguj się w konsoli Google Cloud i utwórz nowy projekt lub wykorzystaj już istniejący. Jeśli nie masz jeszcze konta Gmail ani Google Workspace, musisz je utworzyć.

Nazwa projektu jest wyświetlaną nazwą uczestników tego projektu. To ciąg znaków, który nie jest używany przez interfejsy API Google. W każdej chwili możesz ją zaktualizować.
Identyfikator projektu jest unikalny we wszystkich projektach Google Cloud i nie można go zmienić (po jego ustawieniu nie można go zmienić). Cloud Console automatycznie wygeneruje unikalny ciąg znaków. zwykle nieważne, co ona jest. W większości ćwiczeń w Codelabs musisz podać swój identyfikator projektu (zwykle identyfikowany jako PROJECT_ID). Jeśli nie podoba Ci się wygenerowany identyfikator, możesz wygenerować kolejny losowy. Możesz też spróbować własnych sił i sprawdzić, czy jest dostępna. Po wykonaniu tej czynności nie można jej już zmienić. Pozostanie ona przez cały czas trwania projektu.
Jest jeszcze trzecia wartość, numer projektu, z którego korzystają niektóre interfejsy API. Więcej informacji o wszystkich 3 wartościach znajdziesz w dokumentacji.

Następnie musisz włączyć płatności w Cloud Console, aby korzystać z zasobów Cloud/interfejsów API. Ukończenie tego ćwiczenia z programowania nic nie kosztuje. Aby wyłączyć zasoby w celu uniknięcia naliczania opłat po zakończeniu tego samouczka, możesz usunąć utworzone zasoby lub projekt. Nowi użytkownicy Google Cloud mogą skorzystać z programu bezpłatnego okresu próbnego o wartości 300 USD.

Uruchamianie Cloud Shell

Google Cloud można obsługiwać zdalnie z laptopa, ale w ramach tego ćwiczenia z programowania wykorzystasz Google Cloud Shell – środowisko wiersza poleceń działające w chmurze.

Aktywowanie Cloud Shell

W konsoli Cloud kliknij Aktywuj Cloud Shell .

Jeśli uruchamiasz Cloud Shell po raz pierwszy, zobaczysz ekran pośredni z opisem tej usługi. Jeśli wyświetlił się ekran pośredni, kliknij Dalej.

Uzyskanie dostępu do Cloud Shell i połączenie się z nim powinno zająć tylko kilka chwil.

Ta maszyna wirtualna ma wszystkie potrzebne narzędzia dla programistów. Zawiera stały katalog domowy o pojemności 5 GB i działa w Google Cloud, co znacznie zwiększa wydajność sieci i uwierzytelnianie. Większość zadań w ramach tego ćwiczenia z programowania można wykonać w przeglądarce.

Po nawiązaniu połączenia z Cloud Shell powinno pojawić się potwierdzenie, że użytkownik jest uwierzytelniony, a projekt jest ustawiony na identyfikator Twojego projektu.

Uruchom to polecenie w Cloud Shell, aby potwierdzić, że jesteś uwierzytelniony:

gcloud auth list

Dane wyjściowe polecenia

 Credentialed Accounts
ACTIVE  ACCOUNT
*       <my_account>@<my_domain.com>

To set the active account, run:
    $ gcloud config set account `ACCOUNT`

Uruchom to polecenie w Cloud Shell, aby sprawdzić, czy polecenie gcloud zna Twój projekt:

gcloud config list project

Dane wyjściowe polecenia

[core]
project = <PROJECT_ID>

Jeśli tak nie jest, możesz go ustawić za pomocą tego polecenia:

gcloud config set project <PROJECT_ID>

Dane wyjściowe polecenia

Updated property [core/project].

3. Włączanie Vision API

Zanim zaczniesz korzystać z interfejsu Vision API, musisz go włączyć. Interfejs API możesz włączyć za pomocą Cloud Shell, używając tego polecenia:

gcloud services enable vision.googleapis.com

4. Instalowanie biblioteki klienta interfejsu Google Cloud Vision API dla języka C#

Najpierw utwórz prostą aplikację konsoli w języku C#, której będziesz używać do uruchamiania przykładów interfejsu Vision API:

dotnet new console -n VisionApiDemo

Powinna pojawić się utworzona aplikacja i zamknięte zależności:

The template "Console Application" was created successfully.
Processing post-creation actions...
...
Restore succeeded.

Następnie przejdź do folderu VisionApiDemo:

cd VisionApiDemo/

I dodaj do projektu pakiet NuGet Google.Cloud.Vision.V1:

dotnet add package Google.Cloud.Vision.V1

info : Adding PackageReference for package 'Google.Cloud.Vision.V1' into project '/home/atameldev/VisionApiDemo/VisionApiDemo.csproj'.
log  : Restoring packages for /home/atameldev/VisionApiDemo/VisionApiDemo.csproj...
...
info : PackageReference for package 'Google.Cloud.Vision.V1' version '1.2.0' added to file '/home/atameldev/VisionApiDemo/VisionApiDemo.csproj'.

Możesz już korzystać z interfejsu Vision API.

5. Przeprowadź wykrywanie etykiet

Jedną z podstawowych funkcji interfejsu Vision API jest identyfikowanie obiektów na obrazach, czyli tzw. adnotacja etykiet. Wykrywanie etykiet identyfikuje ogólne obiekty, lokalizacje, aktywności, gatunki zwierząt, produkty i nie tylko. Interfejs Vision API pobiera obraz wejściowy i zwraca najbardziej prawdopodobne etykiety, które mają zastosowanie do tego obrazu. Zwraca listę najbardziej pasujących etykiet wraz z współczynnikiem ufności dopasowania do obrazu.

W tym przykładzie przeprowadzimy wykrywanie etykiet na zdjęciu sceny ulicznej w Szanghaju. Otwórz edytor kodu w prawym górnym rogu Cloud Shell:

Przejdź do pliku Program.cs znajdującego się w folderze VisionApiDemo i zastąp kod poniższym kodem:

using Google.Cloud.Vision.V1;
using System;

namespace VisionApiDemo
{
    class Program
    {   
        static void Main(string[] args)
        {
            var client = ImageAnnotatorClient.Create();
            var image = Image.FromUri("gs://cloud-samples-data/vision/using_curl/shanghai.jpeg");
            var labels = client.DetectLabels(image);

            Console.WriteLine("Labels (and confidence score):");
            Console.WriteLine(new String('=', 30));

            foreach (var label in labels)
            {
                Console.WriteLine($"{label.Description} ({(int)(label.Score * 100)}%)");
            }
        }
    }
}

Poświęć chwilę na zapoznanie się z kodem i zobacz, jak biblioteka C# Vision API jest wykorzystywana do wykrywania etykiet.

Uruchom aplikację w Cloud Shell:

dotnet run

Powinny się wyświetlić te dane wyjściowe:

Labels (and confidence score):
==============================
Wheel (97%)
Tire (97%)
Photograph (94%)
Bicycle (94%)
Motor vehicle (89%)
Infrastructure (89%)
Vehicle (86%)
Mode of transport (84%)
Bicycle wheel (83%)
Asphalt (81%)

Podsumowanie

Dzięki temu mogliśmy wykryć etykiety na zdjęciach przedstawiających ulicę w Chinach i wyświetlić najbardziej prawdopodobne etykiety związane z tym zdjęciem. Dowiedz się więcej o wykrywaniu etykiet.

6. Wykrywanie tekstu

Oferowane przez Vision API rozwiązanie do wykrywania tekstu wykonuje optyczne rozpoznawanie znaków. Wykrywa i wyodrębnia na obrazie tekst z obsługą wielu języków. Jest też wyposażony w automatyczną identyfikację języków.

W tym przykładzie wdrożymy wykrywanie tekstu na obrazie ekranu z aktualizacją oprogramowania systemowego.

Przejdź do pliku Program.cs znajdującego się w folderze VisionApiDemo i zastąp kod poniższym kodem:

using Google.Cloud.Vision.V1;
using System;

namespace VisionApiDemo
{
    class Program
    {   
        static void Main(string[] args)
        {
            var client = ImageAnnotatorClient.Create();
            var image = Image.FromUri("gs://cloud-samples-data/vision/text/screen.jpg");
            var response = client.DetectText(image);
            foreach (var annotation in response)
            {
                if (annotation.Description != null)
                {
                    Console.WriteLine(annotation.Description);
                }
            }
        }
    }
}

Poświęć chwilę na zapoznanie się z kodem i zobacz, jak biblioteka C# Vision API jest wykorzystywana do wykrywania tekstu.

Uruchom aplikację w Cloud Shell:

dotnet run

Powinny się wyświetlić te dane wyjściowe:

System Software Update
Back
Preparing to install...
After preparation is complete, the PS4 will automatically restart and the update file will be
installed.
37%
gus class
System
Software
Update
Back
Preparing
to
install
...
After
preparation
is
complete
,
the
PS4
will
automatically
restart
and
the
update
file
will
be
installed
.
37
%
gus
class

Podsumowanie

W tym kroku pracowaliśmy nad wykrywaniem tekstu na zdjęciu przeprawy wydrowej i wydrukowaniu z niego rozpoznanego tekstu. Dowiedz się więcej o wykrywaniu tekstu.

7. Wykrywanie punktu orientacyjnego

Wykrywanie punktów orientacyjnych Vision API umożliwia wykrywanie na zdjęciu popularnych struktur naturalnych i stworzonych przez człowieka.

W tym przykładzie przeprowadzimy wykrywanie punktów orientacyjnych na zdjęciu wieży Eiffla.

Przejdź do pliku Program.cs znajdującego się w folderze VisionApiDemo i zastąp kod poniższym kodem:

using Google.Cloud.Vision.V1;
using System;

namespace VisionApiDemo
{
    class Program
    {   
        static void Main(string[] args)
        {
            var client = ImageAnnotatorClient.Create();
            var image = Image.FromUri("gs://cloud-samples-data/vision/eiffel_tower.jpg");
            var response = client.DetectLandmarks(image);
            foreach (var annotation in response)
            {
                if (annotation.Description != null)
                {
                    Console.WriteLine(annotation.Description);
                }
            }
        }
    }
}

Poświęć chwilę na zapoznanie się z kodem i zobacz, jak biblioteka C# Vision API jest wykorzystywana do wykrywania punktów orientacyjnych.

Uruchom aplikację w Cloud Shell:

dotnet run

Powinny się wyświetlić te dane wyjściowe:

Eiffel Tower

Podsumowanie

W tym kroku mogliśmy wykryć punkt orientacyjny na zdjęciu wieży Eiffla. Dowiedz się więcej o wykrywaniu punktów orientacyjnych.

8. Wykrywanie emocji na podstawie twarzy

Wykrywanie twarzy wykrywa na zdjęciu kilka twarzy oraz powiązane z nimi główne cechy, takie jak stan emocjonalny czy noszenie nakrycia głowy.

W tym przykładzie sprawdzisz prawdopodobieństwo wystąpienia stanu emocjonalnego na podstawie 4 różnych prawdopodobieństw emocjonalnych, takich jak radość, gniew, smutek i zaskoczenie.

Przejdź do pliku Program.cs znajdującego się w folderze VisionApiDemo i zastąp kod poniższym kodem:

using Google.Cloud.Vision.V1;
using System;

namespace VisionApiDemo
{
    class Program
    {
        static void Main(string[] args)
        {
            var client = ImageAnnotatorClient.Create();

            var image = Image.FromUri("gs://cloud-samples-data/vision/face/face_no_surprise.jpg");
            var response = client.DetectFaces(image);
            foreach (var annotation in response)
            {
                Console.WriteLine($"Picture: {image}");
                Console.WriteLine($" Surprise: {annotation.SurpriseLikelihood}");
            }
        }
    }
}

Poświęć chwilę na zapoznanie się z kodem i zobacz, jak biblioteka Vision API w języku C# wykrywa twarze emocjonalne.

Uruchom aplikację.

dotnet run

Powinno wyświetlić się takie dane wyjściowe dla przykładu face_no_surprise:

Picture: { "source": { "imageUri": "gs://cloud-samples-data/vision/face/face_no_surprise.jpg" } }
 Surprise: Likely

Podsumowanie

W tym kroku udało Ci się wykryć twarze emocjonalne. Dowiedz się więcej o wykrywaniu twarzy.

9. Gratulacje!

Wiesz już, jak używać interfejsu Vision API w języku C# do wykrywania różnych obrazów.

Czyszczenie danych

Oto kroki, które musisz wykonać, aby uniknąć obciążenia konta Google Cloud Platform opłatami za zasoby zużyte podczas krótkiego wprowadzenia:

Otwórz konsolę Cloud Platform.
Wybierz projekt, który chcesz wyłączyć, i kliknij „Usuń”. u góry: spowoduje to zaplanowanie usunięcia projektu.

Więcej informacji

Interfejs Google Cloud Vision API: https://cloud.google.com/vision/docs/
C#/.NET w Google Cloud Platform: https://cloud.google.com/dotnet/
Klient Google Cloud .NET: https://googlecloudplatform.github.io/google-cloud-dotnet

Licencja

To zadanie jest licencjonowane na podstawie ogólnej licencji Creative Commons Attribution 2.0.

Zgłoś pomyłkę