1. Einführung
Mit Private Service Connect können Sie einen sicheren, privaten Zugriff auf Modelle einrichten, die über den Vertex AI Model Garden bereitgestellt werden. Anstatt einen öffentlichen Endpunkt bereitzustellen, können Sie mit dieser Methode Ihr Modell in einem privaten Vertex AI-Endpunkt bereitstellen, auf den nur innerhalb Ihrer Virtual Private Cloud (VPC) zugegriffen werden kann.
Mit Private Service Connect wird ein Endpunkt mit einer internen IP-Adresse in Ihrer VPC erstellt, der direkt mit dem von Google verwalteten Vertex AI-Dienst verbunden ist, in dem Ihr Modell gehostet wird. So können Anwendungen in Ihrer VPC und in lokalen Umgebungen (über Cloud VPN oder Interconnect) Inferenzanfragen über private IP-Adressen senden. Der gesamte Netzwerk-Traffic verbleibt im Netzwerk von Google. Das erhöht die Sicherheit, verringert die Latenz und isoliert den Serving-Endpunkt Ihres Modells vollständig vom öffentlichen Internet.

Aufgaben
In dieser Anleitung laden Sie Gemma 3 aus Model Garden herunter, das in Vertex AI Online Inference als privater Endpunkt gehostet wird, auf den über Private Service Connect zugegriffen werden kann. Ihre End-to-End-Einrichtung umfasst Folgendes:
- Model Garden-Modell: Sie wählen Gemma 3 aus dem Vertex AI Model Garden aus und stellen es auf einem Private Service Connect-Endpunkt bereit.
- Private Service Connect: Sie konfigurieren einen Nutzerendpunkt in Ihrer Virtual Private Cloud (VPC), der aus einer internen IP-Adresse in Ihrem eigenen Netzwerk besteht.
- Sichere Verbindung zu Vertex AI: Der PSC-Endpunkt wird auf den Dienstanhang ausgerichtet, der automatisch von Vertex AI für die private Modellbereitstellung generiert wird. Dadurch wird eine private Verbindung hergestellt, sodass der Traffic zwischen Ihrer VPC und dem Endpunkt für die Bereitstellung des Modells nicht über das öffentliche Internet geleitet wird.
- Clientkonfiguration in Ihrer VPC: Sie richten einen Client ein (z.B. Compute Engine-VM) in Ihrer VPC, um Inferenzanfragen über die interne IP-Adresse des PSC-Endpunkts an das bereitgestellte Modell zu senden.
Am Ende haben Sie ein funktionierendes Beispiel dafür, wie ein Model Garden-Modell privat bereitgestellt wird und nur innerhalb Ihres angegebenen VPC-Netzwerks zugänglich ist.
Lerninhalte
In dieser Anleitung erfahren Sie, wie Sie ein Modell aus dem Vertex AI Model Garden bereitstellen und es über Private Service Connect (PSC) sicher über Ihre Virtual Private Cloud (VPC) zugänglich machen. Mit dieser Methode können Ihre Anwendungen in Ihrer VPC (dem Nutzer) eine private Verbindung zum Vertex AI-Modellendpunkt (dem Diensterstellerdienst) herstellen, ohne das öffentliche Internet zu durchlaufen.
Sie erfahren unter anderem Folgendes:
- Private Service Connect für Vertex AI: Wie PSC private und sichere Verbindungen zwischen Nutzern und Erstellern ermöglicht. Ihre VPC kann über interne IP-Adressen auf das bereitgestellte Model Garden-Modell zugreifen.
- Modell mit privatem Zugriff bereitstellen: Konfigurieren Sie einen Vertex AI-Endpunkt für Ihr Model Garden-Modell, damit PSC verwendet wird und es sich um einen privaten Endpunkt handelt.
- Rolle des Dienstanhangs: Wenn Sie ein Modell in einem privaten Vertex AI-Endpunkt bereitstellen, wird in einem von Google verwalteten Mandantenprojekt automatisch ein Dienstanhang erstellt. Dieser Dienstanhang macht den Dienst für die Bereitstellung von Modellen für Nutzernetzwerke verfügbar.
- PSC-Endpunkt in Ihrer VPC erstellen:
- So rufen Sie den eindeutigen Service Attachment-URI aus den Details Ihres bereitgestellten Vertex AI-Endpunkts ab.
- So reservieren Sie eine interne IP-Adresse in Ihrem ausgewählten Subnetz in Ihrer VPC.
- So erstellen Sie eine Weiterleitungsregel in Ihrer VPC, die als PSC-Endpunkt fungiert und auf den Vertex AI-Dienstanhang ausgerichtet ist. Über diesen Endpunkt ist das Modell über die reservierte interne IP-Adresse zugänglich.
- Private Verbindung herstellen: Der PSC-Endpunkt in Ihrer VPC stellt eine Verbindung zum Dienstanhang her und verbindet Ihr Netzwerk sicher mit dem Vertex AI-Dienst.
- Private Anfragen für Inferenz senden: Hier erfahren Sie, wie Sie Vorhersageanfragen von Ressourcen (z. B. Compute Engine-VMs) in Ihrer VPC an die interne IP-Adresse des PSC-Endpunkts senden.
- Validierung: Schritte zum Testen und Bestätigen, dass Sie Inferenzanfragen über die private Verbindung von Ihrer VPC an das bereitgestellte Model Garden-Modell senden können.
Wenn Sie dies abgeschlossen haben, können Sie Modelle aus Model Garden hosten, die nur über Ihre private Netzwerkinfrastruktur erreichbar sind.
Voraussetzungen
Google Cloud-Projekt
IAM-Berechtigungen
- AI Platform-Administrator (roles/ml.Admin)
- Compute-Netzwerkadministrator (roles/compute.networkAdmin)
- Compute-Instanzadministrator (roles/compute.instanceAdmin)
- Compute-Sicherheitsadministrator (roles/compute.securityAdmin)
- DNS-Administrator (roles/dns.admin)
- Nutzer IAP-gesicherter Tunnel (roles/iap.tunnelResourceAccessor)
- Logging-Administrator (roles/logging.admin)
- Notebooks-Administrator (roles/notebooks.admin)
- Projekt-IAM-Administrator (roles/resourcemanager.projectIamAdmin)
- Dienstkontoadministrator (roles/iam.serviceAccountAdmin)
- Service Usage-Administrator (roles/serviceusage.serviceUsageAdmin)
2. Hinweis
Projekt für das Tutorial aktualisieren
In dieser Anleitung werden $variables verwendet, um die Implementierung der gcloud-Konfiguration in Cloud Shell zu erleichtern.
Führen Sie in Cloud Shell folgende Schritte aus:
gcloud config list project
gcloud config set project [YOUR-PROJECT-ID]
projectid=[YOUR-PROJECT-ID]
echo $projectid
API-Aktivierung
Führen Sie in Cloud Shell folgende Schritte aus:
gcloud services enable "compute.googleapis.com"
gcloud services enable "aiplatform.googleapis.com"
gcloud services enable "serviceusage.googleapis.com"
3. Modell bereitstellen
So stellen Sie Ihr Modell über Model Garden bereit:
Rufen Sie in der Google Cloud Console Model Garden auf, suchen Sie nach Gemma 3 und wählen Sie das Modell aus.

Klicken Sie auf „Bereitstellungsoptionen“ und wählen Sie „Vertex AI“ aus.

Wählen Sie im Bereich „In Vertex AI bereitstellen“ die Option „Erweitert“ aus. Die vorausgefüllte Region und Maschinenspezifikation werden basierend auf der verfügbaren Kapazität ausgewählt. Sie können diese Werte ändern, obwohl das Codelab für „us-central1“ konzipiert ist.

Achten Sie im Bereich „Auf Vertex AI bereitstellen“ darauf, dass der Endpunktzugriff als „Private Service Connect“ konfiguriert ist, und wählen Sie dann Ihr Projekt aus.

Übernehmen Sie für alle anderen Optionen die Standardwerte, wählen Sie unten „Bereitstellen“ aus und prüfen Sie den Bereitstellungsstatus in Ihren Benachrichtigungen.

Wählen Sie in Model Garden die Region „us-central1“ aus, in der das Gemma 3-Modell und der Endpunkt verfügbar sind. Die Modellbereitstellung dauert etwa 5 Minuten.

In 30 Minuten wechselt der Endpunkt zum Status „Aktiv“, sobald der Vorgang abgeschlossen ist.

Rufen Sie die Endpunkt-ID ab und notieren Sie sie, indem Sie den Endpunkt auswählen.

Öffnen Sie die Cloud Shell und führen Sie die folgenden Schritte aus, um den URI des Private Service Connect-Dienstanhangs abzurufen. Dieser URI-String wird vom Nutzer beim Bereitstellen eines PSC-Nutzerendpunkts verwendet.
Aktualisieren Sie in Cloud Shell die Endpunkt-ID und geben Sie dann den folgenden Befehl ein.
gcloud ai endpoints describe [Endpoint ID] --region=us-central1 | grep -i serviceAttachment:
Ein Beispiel dafür sehen Sie unten:
user@cloudshell:$ gcloud ai endpoints describe 2124795225560842240 --region=us-central1 | grep -i serviceAttachment:
Using endpoint [https://us-central1-aiplatform.googleapis.com/]
serviceAttachment: projects/o9457b320a852208e-tp/regions/us-central1/serviceAttachments/gkedpm-52065579567eaf39bfe24f25f7981d
Kopieren Sie den Inhalt nach „serviceAttachment“ in eine Variable namens „Service_attachment“. Sie benötigen sie später, wenn Sie die PSC-Verbindung erstellen.
user@cloudshell:$ Service_attachment=projects/o9457b320a852208e-tp/regions/us-central1/serviceAttachments/gkedpm-52065579567eaf39bfe24f25f7981d
4. Einrichtung durch Nutzer
Nutzer-VPC erstellen
Führen Sie in Cloud Shell folgende Schritte aus:
gcloud compute networks create consumer-vpc --project=$projectid --subnet-mode=custom
Nutzer-VM-Subnetz erstellen
Führen Sie in Cloud Shell folgende Schritte aus:
gcloud compute networks subnets create consumer-vm-subnet --project=$projectid --range=192.168.1.0/24 --network=consumer-vpc --region=us-central1 --enable-private-ip-google-access
PSC-Endpunkt-Subnetz erstellen
gcloud compute networks subnets create pscendpoint-subnet --project=$projectid --range=10.10.10.0/28 --network=consumer-vpc --region=us-central1
5. IAP aktivieren
Damit IAP eine Verbindung zu Ihren VM-Instanzen herstellen kann, erstellen Sie eine Firewallregel, die:
- Gilt für alle VM-Instanzen, die über IAP zugänglich sein sollen.
- Lässt eingehenden Traffic aus dem IP-Bereich 35.235.240.0/20 zu. Dieser Bereich enthält alle IP-Adressen, die IAP für die TCP-Weiterleitung verwendet.
Erstellen Sie in Cloud Shell die IAP-Firewallregel.
gcloud compute firewall-rules create ssh-iap-consumer \
--network consumer-vpc \
--allow tcp:22 \
--source-ranges=35.235.240.0/20
6. Consumer-VM-Instanzen erstellen
Erstellen Sie in Cloud Shell die Consumer-VM-Instanz „consumer-vm“.
gcloud compute instances create consumer-vm \
--project=$projectid \
--machine-type=e2-micro \
--image-family debian-11 \
--no-address \
--shielded-secure-boot \
--image-project debian-cloud \
--zone us-central1-a \
--subnet=consumer-vm-subnet
7. Private Service Connect-Endpunkte
Der Nutzer erstellt einen Nutzerendpunkt (Weiterleitungsregel) mit einer internen IP-Adresse in seiner VPC. Dieser PSC-Endpunkt ist auf den Dienstanhang des Erstellers ausgerichtet. Clients im VPC- oder Hybridnetzwerk des Nutzers können Traffic an diese interne IP-Adresse senden, um den Dienst des Erstellers zu erreichen.
Reservieren Sie eine IP-Adresse für den Consumer-Endpunkt.
Erstellen Sie in Cloud Shell die Weiterleitungsregel.
gcloud compute addresses create psc-address \
--project=$projectid \
--region=us-central1 \
--subnet=pscendpoint-subnet \
--addresses=10.10.10.6
Prüfen, ob die IP-Adresse reserviert ist
Listen Sie in Cloud Shell die reservierte IP-Adresse auf.
gcloud compute addresses list
Die IP-Adresse 10.10.10.6 sollte reserviert sein.

Erstellen Sie den Consumer-Endpunkt, indem Sie den URI des Dienstanhangs (target-service-attachment) angeben, den Sie im vorherigen Schritt im Abschnitt „Modell bereitstellen“ erfasst haben.
Beschreiben Sie den Netzwerkanhang in Cloud Shell.
gcloud compute forwarding-rules create psc-consumer-ep \
--network=consumer-vpc \
--address=psc-address \
--region=us-central1 \
--target-service-attachment=$Service_attachment \
--project=$projectid
Prüfen, ob der Dienstanhang den Endpunkt akzeptiert
gcloud compute forwarding-rules describe psc-consumer-ep \
--project=$projectid \
--region=us-central1 \
Prüfen Sie in der Antwort, ob im Feld „pscConnectionStatus“ der Status „ACCEPTED“ angezeigt wird.

8. Von der Consumer-VM aus testen
Führen Sie in Cloud Shell die folgenden Schritte aus, um der Consumer-VM Zugriff auf die Vertex Model Garden API zu gewähren.
SSH-Verbindung zur Consumer-VM herstellen

Authentifizieren Sie sich noch einmal mit Standardanmeldedaten für Anwendungen und geben Sie Vertex AI-Bereiche an.
gcloud auth application-default login
--scopes=https://www.googleapis.com/auth/cloud-platform
Verwenden Sie die folgende Tabelle, um einen CURL-Befehl zu generieren. Passen Sie ihn an Ihre Umgebung an.
Attribut | Wert |
Protokoll | HTTP |
Standort | us-central1 |
Endpunkt für Onlinevorhersagen | 2133539641536544768 |
Projekt-ID | test4-473419 |
Modell | gemma-3-12b-it |
IP-Adresse des Private Service Connect-Endpunkts | 10.10.10.6 |
Nachrichten | [{"role": "user","content": "Was wiegt mehr: 1 Pfund Federn oder Steine?"}] |
Aktualisieren Sie den curl-Befehl entsprechend den Details Ihrer Umgebung und führen Sie ihn aus:
curl -k -v -X POST -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" -H "Content-Type: application/json" http://[PSC-IP]/v1/projects/[Project-ID]/locations/us-central1/endpoints/[Predictions Endpoint]/chat/completions -d '{"model": "google/gemma-3-12b-it", "messages": [{"role": "user","content": "What weighs more 1 pound of feathers or rocks?"}] }'
Beispiel:
curl -k -v -X POST -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" -H "Content-Type: application/json" http://10.10.10.6/v1/projects/test4-473419/locations/us-central1/endpoints/2133539641536544768/chat/completions -d '{"model": "google/gemma-3-12b-it", "messages": [{"role": "user","content": "What weighs more 1 pound of feathers or rocks?"}] }'
ENDERGEBNIS – ERFOLG!!!
Am Ende der Ausgabe sollte eine Vorhersage von Gemma 3 angezeigt werden. Das bedeutet, dass Sie über den PSC-Endpunkt privat auf den API-Endpunkt zugreifen konnten.
Connection #0 to host 10.10.10.6 left intact
{"id":"chatcmpl-9e941821-65b3-44e4-876c-37d81baf62e0","object":"chat.completion","created":1759009221,"model":"google/gemma-3-12b-it","choices":[{"index":0,"message":{"role":"assistant","reasoning_content":null,"content":"This is a classic trick question! They weigh the same. One pound is one pound, regardless of the material. 😊\n\n\n\n","tool_calls":[]},"logprobs":null,"finish_reason":"stop","stop_reason":106}],"usage":{"prompt_tokens":20,"total_tokens":46,"completion_tokens":26,"prompt_tokens_details":null},"prompt_logprobs":null
9. Bereinigen
Löschen Sie die Komponenten der Anleitung in Cloud Shell.
gcloud ai endpoints undeploy-model ENDPOINT_ID --deployed-model-id=DEPLOYED_MODEL_ID --region=us-central1 --quiet
gcloud ai endpoints delete $ENDPOINT_ID --project=$projectid --region=us-central1 --quiet
gcloud ai models delete $MODEL_ID --project=$projectid --region=us-central1 --quiet
gcloud compute instances delete consumer-vm --zone=us-central1-a --quiet
gcloud compute forwarding-rules delete psc-consumer-ep --region=us-central1 --project=$projectid --quiet
gcloud compute addresses delete psc-address --region=us-central1 --project=$projectid --quiet
gcloud compute networks subnets delete pscendpoint-subnet consumer-vm-subnet --region=us-central1 --quiet
gcloud compute firewall-rules delete ssh-iap-consumer --project=$projectid
gcloud compute networks delete consumer-vpc --project=$projectid --quiet
gcloud projects delete $projectid --quiet
10. Glückwunsch
Sie haben den privaten Zugriff auf die Gemma 3 API, die auf Vertex AI Prediction gehostet wird, über einen Private Service Connect-Endpunkt konfiguriert und validiert.
Sie haben die Infrastruktur des Nutzers erstellt, einschließlich der Reservierung einer internen IP-Adresse und der Konfiguration eines Private Service Connect-Endpunkts (einer Weiterleitungsregel) in Ihrer VPC. Dieser Endpunkt stellt eine sichere Verbindung zum Vertex AI-Dienst her, indem er auf den Dienstanhang verweist, der Ihrem bereitgestellten Gemma 3-Modell zugeordnet ist. Mit dieser Einrichtung können Ihre Anwendungen in der VPC oder in verbundenen Netzwerken privat und sicher über eine interne IP-Adresse mit der Gemma 3-API interagieren, ohne dass Traffic über das öffentliche Internet geleitet werden muss.