Vertrauenswürdige KI-Produkte mit dem PAIR Guidebook entwickeln

1. Hinweis

In diesem Codelab wenden Sie Best Practices aus der neuen Ausgabe des PAIR-Leitfadens (People + AI Research) an, um ein neues Produkt mit KI zu entwickeln. Dabei liegt der Fokus auf nutzerorientierten Datenpraktiken und einem angemessenen Vertrauen der Nutzer.

Vorbereitung

  • Grundlegendes Verständnis von KI.
  • Kenntnisse des Produktentwicklungs-Workflows.

Lerninhalte

In diesem Codelab erfahren Sie, wie Sie mit dem People + AI Guidebook von Google Research vertrauenswürdige, nutzerorientierte KI-Produkte entwickeln.

Dazu führen Sie die folgenden Schritte aus:

  • Das ist neu in der zweiten Ausgabe des PAIR Guidebook.
  • Sie durchlaufen eine Reihe von Übungen, in denen Möglichkeiten im KI-Entwicklungsprozess aufgezeigt werden, um das Vertrauen der Nutzer zu stärken. Dabei liegt der Fokus auf Daten und der Erklärbarkeit für Nutzer.
  • Hier erhalten Sie eine Einführung in eine breitere Palette von Materialien und Ressourcen, die für weitere Recherchen zur Verfügung stehen.

Voraussetzungen

2. Jetzt starten

Auf der Google I/O dieses Jahres stellen wir die zweite Ausgabe des PAIR Guidebook vor. Die erste Ausgabe wurde vor zwei Jahren veröffentlicht und seitdem von über einer Viertelmillion Menschen in verschiedenen Rollen (Entwickler, Designer, Produktmanager, Studenten usw.) auf der ganzen Welt verwendet. Wir freuen uns, Ihnen jetzt einige Neuerungen vorstellen zu können, die die Nutzung noch einfacher machen.

In dieser zweiten Ausgabe haben wir eine neue Möglichkeit eingeführt, durch das Handbuch zu navigieren und Inhalte nach Aufgabe zu finden. Wir haben eine Liste mit wichtigen Fragen zusammengestellt, die Sie und Ihr Team bei der Entwicklung eines Produkts mit einem nutzerorientierten Ansatz für KI möglicherweise haben. Sie soll Ihnen helfen, die benötigten Inhalte zu finden:

  1. Wann und wie sollte ich KI in meinem Produkt einsetzen?
  2. Wie stelle ich mein Dataset verantwortungsbewusst zusammen?
  3. Wie kann ich Nutzern helfen, Vertrauen in mein KI-System aufzubauen und zu kalibrieren?
  4. Wie führe ich Nutzer in neue KI-Funktionen ein?
  5. Wie erkläre ich Nutzern mein KI-System?
  6. Wie lässt sich ein gutes Gleichgewicht zwischen Nutzerkontrolle und Automatisierung erreichen?
  7. Wie kann ich Nutzer unterstützen, wenn etwas schiefgeht?

dd1277d752e60684.png

Nachdem Sie eine Frage ausgewählt haben, erhalten Sie relevante Inhalte in kleineren, besser umsetzbaren Einheiten.

Außerdem haben wir das PAIR-Handbuch mit neuen Inhalten aktualisiert:

  1. Eine Reihe von KI-Designmustern
  2. Fallstudien
  3. Aktualisierte Kapitel
  4. Neue Übungen und ein Workshop-Kit

In diesem Codelab sehen Sie einige dieser Designmuster in einem Workflow in Aktion, während Sie mit KI eine neue Funktion entwickeln.

Los gehts!

3. Nutzeranforderungen in ein KI-Problem übersetzen

Stellen Sie sich folgendes Szenario vor:

Sie entwickeln eine App zum Ansehen von Filmen und möchten Nutzern ein besseres und personalisiertes Erlebnis bieten, damit sie mehr Filme finden, die ihnen gefallen.

Die Landingpage der App enthält derzeit die folgenden Abschnitte:

  • Eine Liste neuer Filme, sortiert nach Veröffentlichungsdatum
  • Ein nach Genre sortierter Katalog aller Filme
  • Ein Suchfeld, in dem Nutzer nach Filmtitel, Besetzung usw. suchen können.

81efa53fac12f607.png

Filme-App ohne personalisierte Empfehlungen

Sie möchten einen neuen Bereich mit Filmempfehlungen für den Nutzer hinzufügen und denken, dass KI eine gute Option für die Implementierung dieser Funktion sein könnte. Bevor Sie mit der Implementierung beginnen, sollten Sie Folgendes tun:

  • Bestehende Arbeitsabläufe prüfen: Wie interagieren Nutzer derzeit mit der App und wie könnte die Nutzerfreundlichkeit verbessert werden?
  • Feststellen, ob KI einen einzigartigen Mehrwert bietet: Lässt sich Ihr Problem gut mit KI lösen und wird die Nutzerfreundlichkeit Ihres Produkts durch KI wahrscheinlich verbessert?

Im Kapitel User Needs + Defining Success (Nutzeranforderungen + Erfolg definieren) des PAIR Guidebook sehen Sie sich die Liste der Anwendungsfälle an, in denen KI wahrscheinlich eine gute Lösung ist. Sie stellen fest, dass die Anforderungen Ihrer Nutzer unter die folgenden Arten von Problemen fallen:

  • Verschiedenen Nutzern unterschiedliche Inhalte empfehlen
  • Personalisierung verbessert die Nutzererfahrung
  • Dynamische Inhalte sind effizienter als eine vorhersehbare Benutzeroberfläche.

Sehen Sie sich auch die Liste der Fälle an, in denen KI wahrscheinlich keine bessere Lösung ist.

Nachdem Sie nun gesehen haben, dass eine KI-basierte Lösung eine gute Möglichkeit zu sein scheint, diesen Nutzerbedarf zu decken, sollten Sie prüfen, ob sie tatsächlich eine bessere Nutzerfreundlichkeit bietet.

Muster:

17c84836936a7adc.png

Bevor Sie mit der Entwicklung von KI beginnen, sollten Sie prüfen, ob das Produkt oder die Funktion, die Sie im Sinn haben, KI erfordert oder durch KI verbessert werden kann.

KI eignet sich gut für Anwendungen wie:

  • Empfehlungen für verschiedene Nutzer, z. B. Filmvorschläge
  • Vorhersage zukünftiger Ereignisse wie Wetterereignisse oder Änderungen bei Flugpreisen
  • Natural Language Understanding
  • Bilderkennung

Eine regel- oder heuristikbasierte Lösung ist möglicherweise besser, wenn:

  • Vorhersagbarkeit ist wichtig
  • Nutzer, Kunden oder Entwickler benötigen vollständige Transparenz
  • Nutzer möchten nicht, dass eine Aufgabe automatisiert wird

Weitere Informationen dazu, wann Sie KI verwenden sollten und wann nicht, finden Sie im Kapitel „Nutzeranforderungen“.

Link zum vollständigen Muster: https://pair.withgoogle.com/guidebook/patterns#determine-if-ai-adds-value

Sie können die App für Nutzer attraktiver machen, indem Sie ihnen Filme empfehlen, die ihnen wahrscheinlich gefallen. So bieten Sie ihnen eine bessere Nutzererfahrung, als wenn Sie ihnen nur die neuesten oder insgesamt am besten bewerteten Filme zeigen. Außerdem vermutest du, dass du ihnen mit dieser Funktion Zeit sparen kannst, da sie sich nicht durch einen schnell wachsenden Katalog von Filmen klicken müssen.

Nachdem Sie sich für eine KI-basierte Lösung entschieden haben, können Sie mit der Planung der nächsten Schritte beginnen.

4. Dataset für die Aufgabe erstellen

Um ein Empfehlungssystem zu trainieren, das Nutzern Filmvorschläge macht, müssen Sie ein Dataset zusammenstellen, aus dem Ihr KI-Modell lernt.

Als Erstes sollten Sie die Nutzeranforderungen mit den Datenanforderungen abgleichen.

Mithilfe der entsprechenden Übung aus dem Kapitel Datenerhebung und ‑auswertung des PAIR Guidebook stellen Sie Folgendes fest:

  • Nutzer: Zuschauer (Nutzer der Film-App)
  • Nutzeranforderung: Nutzer möchten einfacher und schneller mehr Filme finden, die ihnen gefallen.
  • Nutzeraktion: Filme über die App auswählen und ansehen
  • Ausgabe des KI-Systems: Welche Filme vorgeschlagen werden und warum (Sentiment-Labels oder Tags)
  • Lernen des KI-Systems: Verhaltensmuster beim Annehmen von Filmempfehlungen, Ansehen ganzer Filme, Schreiben von Rezensionen für Filme und Geben hoher Bewertungen für diese Filme
  • Erforderliche Datasets: Daten zur Filmwiedergabe aus der App, Filminformationen sowie Filmbewertungen und ‑rezensionen
  • Wichtige Funktionen, die im Dataset benötigt werden: Filmvorlieben und Wiedergabeverlauf der Zuschauer, Filminformationen (z. B. Genre, Besetzung), Filmsternebewertungen, Filmrezensionen
  • Wichtige Labels im Datensatz: Akzeptanz- oder Ablehnungsrate von App-Vorschlägen durch Zuschauer, Abschlussrate von Filmen durch Zuschauer, Bewertungen und Rezensionen von Zuschauern sowie Feedback von Zuschauern dazu, warum ein Vorschlag abgelehnt wurde

Nachdem Sie diese Übung abgeschlossen haben, können Sie mehrere potenzielle Datenquellen erkennen:

  • Nutzerdaten aus der App (angegebene Einstellungen und Wiedergabeverlauf)
  • Filminformationen aus der App (Titel, Jahr, Dauer, Besetzung usw.)
  • Filmkritiken und Informationen zu Bewertungen aus anderen Quellen wie IMDb und MovieLens

Sobald Sie eine Vorstellung davon haben, welche Art von Daten Sie benötigen, sollten Sie die KI-Grundsätze von Google und die Praktiken für verantwortungsbewusste KI als Beispiele für Frameworks in Betracht ziehen, die Ihnen helfen, wichtige Aspekte wie den Datenschutz zu berücksichtigen (z.B. „Möglichkeiten für Ablehnung oder Zustimmung bieten“) und Fairness (z.B. „Führen Sie iterative Nutzertests durch, um eine Vielzahl von Nutzerbedürfnissen in die Entwicklungszyklen einzubinden.“)

Achten Sie beim Vorbereiten des Trainings-Datasets darauf, realistische Daten zu erfassen, die die „verrauschten“ Daten in der realen Welt widerspiegeln. Achten Sie beispielsweise darauf, Filmrezensionen mit Rechtschreibfehlern, Abkürzungen, Emojis und ungewöhnlichen oder unerwarteten Zeichen einzubeziehen, da die Nutzer Ihrer App in Zukunft höchstwahrscheinlich ähnlich echte und „verrauschte“ Rezensionen beitragen werden, anstatt perfekt formatierte.

Muster:

4617730ca248f081.png

Bei der Entwicklung Ihres Trainingsdatasets sollten Sie nicht nach einer perfekten Auswahl streben. Lassen Sie stattdessen etwas „Rauschen“ zu, damit die Daten den realen Daten, die Sie von Ihren Nutzern erwarten, so ähnlich wie möglich sind. So können Sie Fehler und Empfehlungen von schlechter Qualität vermeiden, wenn Sie Ihr Modell in der realen Welt einsetzen.

Überlegen Sie sich, welche Arten von Daten Sie von Ihren Nutzern erwarten, und sorgen Sie dafür, dass diese Daten in Ihrem Trainings-Dataset enthalten sind.

Bei einem Bilderkennungssystem sollten Sie beispielsweise überlegen, welche Daten Sie von Ihren Nutzern erhalten könnten. Wenn es wahrscheinlich ist, dass sie keine Zeit haben, hochwertige Fotos zu machen, und Ihr Modell mit unscharfen Smartphone-Bildern arbeiten muss, sollten Sie unscharfe Bilder in Ihre Trainingsdaten aufnehmen.

Link zum vollständigen Muster: https://pair.withgoogle.com/guidebook/patterns#embrace-noisy-data

Nachdem Sie die Nutzeranforderungen einem KI-Problem und den Anforderungen an den Datensatz zugeordnet haben, können Sie die KI trainieren, um Empfehlungen zu geben und Filme für die Nutzer Ihrer App zu kennzeichnen. In diesem Codelab wird dieser Teil des Prozesses nicht behandelt. Weitere Informationen zu Empfehlungssystemen und Stimmungsanalysen finden Sie in den folgenden Ressourcen:

5. Systemfunktionen und ‑beschränkungen kommunizieren

Wenn Sie die User Experience für Ihre App gestalten, sollten Sie auch planen, wie Sie Nutzer in die neue KI-basierte Funktion einführen und ihnen helfen, die Erwartungen entsprechend anzupassen. Nutzer sollten Ihrem KI-System nicht unter allen Umständen implizit vertrauen, sondern ihr Vertrauen richtig einschätzen.

Erwartungen bei Nutzern zu wecken, ist ein bewusster Prozess, der noch vor der ersten Interaktion mit Ihrem Produkt beginnt. Sie sollten auf verschiedene Weise Erklärungen bereitstellen, sowohl innerhalb als auch außerhalb der Produktnutzung:

  • Erklären Sie die Situation. Geben Sie gegebenenfalls Gründe für eine bestimmte Schlussfolgerung, Empfehlung oder einen bestimmten Vorschlag an.
  • Zusätzliche Erläuterungen im Produkt bereitstellen: Nutzen Sie andere Momente im Produkt, z. B. das Onboarding, um KI-Systeme zu erklären.
  • Über die Produktnutzung hinausgehen: Die Informationen im Produkt reichen möglicherweise nicht aus. Sie können sie jedoch mit einer Vielzahl zusätzlicher Ressourcen ergänzen, z. B. mit Marketingkampagnen zur Steigerung der Bekanntheit sowie mit Schulungsmaterialien und Kampagnen zur Förderung der digitalen Kompetenz, um mentale Modelle zu entwickeln.

Beispiel: Ein Nutzer hat sich in der App angemeldet und wählt einen empfohlenen Film aus der neuen Liste aus, die seiner Landingpage hinzugefügt wurde. Neben den üblichen Informationen zum Film, die sie dort finden, sollten Sie auch erklären, warum dieser Film in ihrer Empfehlungsliste angezeigt wird.

Wenn Sie im PAIR Guidebook nach Fragen suchen und „Wie erkläre ich Nutzern mein KI-System?“ auswählen, finden Sie das folgende Muster: Erklären Sie, um das Verständnis zu fördern, nicht um Vollständigkeit zu erreichen.

Muster:

a75dc18115d636a9.png

Konzentrieren Sie sich bei der Erläuterung von Empfehlungen Ihres KI-Systems darauf, die Informationen weiterzugeben, die Nutzer benötigen, um Entscheidungen zu treffen und voranzukommen. Versuchen Sie nicht, alles zu erklären, was im System passiert.

Häufig ist die Begründung für eine bestimmte Vorhersage unbekannt oder zu komplex, um sie in einem einfachen Ausdruck oder Satz zusammenzufassen. Nutzer möchten auch nicht durch überflüssige Erklärungen überfordert oder abgelenkt werden, wenn sie Ihr Produkt verwenden.

Im Kapitel „Explainability + Trust“ finden Sie Beispiele für verschiedene Ansätze, um prägnante, nutzerfreundliche Erklärungen zu erstellen, darunter partielle Erklärungen, progressive Offenlegung und Anzeigen der Modellzuverlässigkeit.

Wenn Sie längere oder detailliertere Erklärungen zur Funktionsweise des Gesamtsystems geben möchten, tun Sie dies außerhalb des aktiven Nutzerablaufs, z. B. in Marketingmaterialien oder Onboarding-Inhalten.

Link zum vollständigen Muster: https://pair.withgoogle.com/guidebook/patterns#explain-for-understanding

Sie wenden die in diesem Muster beschriebenen Best Practices an und entscheiden sich, eine Erklärung wie die folgende einzublenden:

a534f48eeffaaa40.png

Filme, die empfohlen werden, einschließlich der Begründung für die Empfehlung

In diesem Beispiel wenden Sie die Empfehlungen des PAIR Guidebook im Abschnitt Explainability + Trust an und verwenden Datenquellen, um dem Nutzer anhand der drei am häufigsten bewerteten Nutzerrezensionen eine Erklärung zu geben.

Außerdem haben Sie die spezifischen Wörter hervorgehoben, die am meisten zur positiven Stimmung für diesen Film beigetragen haben. Das sind Faktoren, die für den Nutzer bei der Filmauswahl wichtig sind. In dieser Demo für das Language Interpretability Tool (LIT) von PAIR erfahren Sie mehr darüber, wie Sie einen Sentiment-Klassifikator untersuchen können.

b8fc8bd717f7742f.png

Screenshot des Learning Interpretability Tool (LIT)

Mit LIT können Sie das Verhalten von Natural Language Processing-Modellen (NLP) mithilfe eines visuellen, interaktiven und erweiterbaren Tools untersuchen. So können Sie Hypothesen testen und anhand eines Datasets mit relevanten Messwerten und lokalen Erklärungen (z. B. Salienz-Maps und Vorhersagevisualisierungen) validieren. Produktteams können LIT in den folgenden Anwendungsbeispielen verwenden:

  • Vor der Bereitstellung eines Modells
  • Fairness testen
  • Einzelne Vorhersagen debuggen
  • Beim Vergleichen eines neuen Modells mit einem alten

6. Anzeigen von Vertrauen festlegen

Eine weitere Möglichkeit, Erwartungen bei Nutzern zu wecken, besteht darin, die Konfidenz des Modells in Empfehlungen anzuzeigen. Anstatt zu erklären, warum oder wie die KI zu einer bestimmten Entscheidung gekommen ist, wird in den Anzeigen für die Modellkonfidenz gezeigt, wie sicher sich die KI bei ihrer Vorhersage ist und welche Alternativen sie in Betracht gezogen hat. Da die meisten Modelle die n-besten Klassifizierungen und Konfidenzwerte ausgeben können, sind Anzeigen für die Modellkonfidenz oft eine leicht verfügbare Erklärung.

Bevor Sie den empfohlenen Filmseiten, die dem Nutzer angezeigt werden, eine Konfidenz hinzufügen, sollten Sie festlegen, ob diese Konfidenz für den Nutzer hilfreich ist und, falls ja, wie sie am besten angezeigt werden kann.

Muster:

33a1b5ab6fff1c06.png

In einigen Fällen können Sie Nutzern helfen, einzuschätzen, wie viel Vertrauen sie in die KI-Ausgabe setzen können. Dazu können Sie Modellvertrauen anzeigen, in dem erläutert wird, wie sicher sich die KI bei ihrer Vorhersage ist und welche Alternativen in Betracht gezogen wurden.

In anderen Kontexten kann es jedoch schwierig sein, die Konfidenzanzeigen zu verstehen.

Wenn Sie sich für die Verwendung von Displays entscheiden, sollten Sie verschiedene Arten von Displays früh im Produktentwicklungsprozess testen, um herauszufinden, was für Ihre Nutzer am besten funktioniert.

Link zum vollständigen Muster: https://pair.withgoogle.com/guidebook/patterns#how-to-show-model-confidence

Im PAIR Guidebook finden Sie im Kapitel Explainability + Trust (Erklärbarkeit + Vertrauen) empfohlene Ansätze zum Darstellen von Konfidenz. Die folgenden Optionen sind verfügbar:

  • Die N wahrscheinlichsten Klassifizierungen
  • Numerisches Konfidenzniveau

Da Sie dem Nutzer auf der Landingpage in der App eine Liste mit empfohlenen Filmen präsentieren, entscheiden Sie sich für eine geordnete Liste, in der die n wahrscheinlichsten Filme in der entsprechenden Reihenfolge angezeigt werden.

8b3181335ece9a09.png

Karussell mit empfohlenen Filmen, wobei die wahrscheinlichsten Empfehlungen zuerst angezeigt werden

7. Nutzern helfen, Fehler zu beheben

In den letzten Schritten haben Sie einige Best Practices kennengelernt, wie Sie Erwartungen formulieren und Nutzern Erklärungen geben können, um ihnen zu helfen, Vertrauen in das Produkt aufzubauen und zu stärken.

Eine weitere wichtige Frage, die Sie beantworten sollten, ist: Wie sieht die Nutzererfahrung aus, wenn ein Fehler auftritt? Genauso wichtig ist es, wie Nutzer vorankommen. Wenn Sie sich darauf konzentrieren, was Ihre Nutzer tun können, nachdem das System ausgefallen ist, können Sie ihnen helfen und gleichzeitig die Nützlichkeit Ihres Produkts aufrechterhalten.

Wie im PAIR Guidebook im Kapitel Errors + Graceful Failure (Fehler + sanfter Fehler) beschrieben, sollten Sie zuerst definieren, was ein Fehler für Ihr Produkt ist und welche Art von Fehler es ist (Nutzer-, System- oder Kontextfehler).

Hier einige Beispiele:

  1. Der Nutzer erhält eine Empfehlung für einen Film, den er bereits im Kino gesehen hat. Diese Empfehlung ist zwar nicht falsch, aber auch nicht wirklich hilfreich für den Nutzer.
  2. Der Nutzer erhält eine Empfehlung für einen Film, den er bereits im Kino gesehen hat und der ihm nicht gefallen hat. Diese Empfehlung kann für den Nutzer je nach seinen Filmvorlieben als Fehler angesehen werden.
  3. Der Nutzer erhält eine Empfehlung für einen Film in einem Genre, das er normalerweise nicht mag. Der Nutzer könnte dies als Fehler ansehen.
  4. Der Nutzer erhält eine Empfehlung für einen Film, der nicht mehr in der App verfügbar ist. Das ist ein eindeutiger Systemfehler.

In den zweiten und dritten Beispielen oben hat die KI eine Empfehlung gegeben, die für diesen Nutzer nicht hilfreich ist. Wenn solche Fehler auftreten, sollten Sie dem Nutzer die Möglichkeit geben, Feedback zur Vorhersage zu geben, und die Zeit bis zur Auswirkung mitteilen, wie im PAIR Guidebook im Kapitel Feedback + Control empfohlen.

Muster:

2a01f1bf6b24a241.png

Wenn sich Ihr KI-basiertes System anders verhält, als ein Nutzer erwartet oder wünscht, muss er die Möglichkeit haben, Feedback zu geben. Nutzen Sie dieses Feedback so gut wie möglich, um Ihr Modell zu verbessern.

Feedback in KI-Systemen kann verschiedene Formen annehmen, darunter

  • Empfehlungen mit „Mag ich“ oder „Mag ich nicht“ bewerten
  • Unerwünschte Empfehlungen ausblenden
  • Problematische Empfehlungen melden
  • Traditionellere Feedback-Abläufe, bei denen ein Nutzer ein Problem manuell über ein Formular oder einen anderen Mechanismus meldet

Wenn ein Nutzer Feedback gibt, bestätigen Sie, dass Sie es erhalten haben. Wenn möglich, teilen Sie ihnen mit, wie das System auf das Feedback reagieren wird.

Link zum vollständigen Muster: https://pair.withgoogle.com/guidebook/patterns#let-users-give-feedback

Bei Ihrer App könnte das so aussehen:

e990b5a272085f20.png

Nutzer können Feedback zu Empfehlungen geben…

f81d3f378792640f.png

...und werden darüber informiert, was als Nächstes passiert.

8. Glückwunsch

Glückwunsch! Sie haben gerade einen Beispielworkflow durchlaufen, der zeigt, wie Sie einige der neuen Ressourcen des PAIR Guidebook verwenden.

Zusammenfassung

In diesem Codelab haben Sie Folgendes gelernt:

  • Nutzeranforderungen in ein KI-Problem übersetzen
  • Dataset für die Aufgabe erstellen
  • Nutzer für die neue Funktion einarbeiten
  • System erklären und Erwartungen der Nutzer festlegen
  • Nutzern helfen, Fehler zu beheben
  • Feedback einholen, um das Produkt zu verbessern

Nächste Schritte

Alle in diesem Codelab vorgestellten Ressourcen und viele weitere finden Sie unter den folgenden Links: