1. Einführung
BigQuery ist eine vollständig verwaltete, kostengünstige Analysedatenbank von Google. Mit BigQuery können Sie Terabytes an Daten abfragen, ohne einen Datenbankadministrator zu benötigen oder eine Infrastruktur verwalten zu müssen. BigQuery basiert auf SQL und die Abrechnung erfolgt nach dem „Pay as you go“-Modell. Mithilfe von BigQuery können Sie sich auf die Datenanalyse konzentrieren und wichtige Informationen erhalten.
In diesem Codelab erfahren Sie, wie Sie das öffentliche GitHub-Dataset abfragen, eines von vielen öffentlichen Datasets, die in BigQuery verfügbar sind.
Lerninhalte
- BigQuery verwenden
- Abfrage schreiben, um Erkenntnisse aus einem großen Dataset zu gewinnen
Voraussetzungen
2. Einrichten
BigQuery aktivieren
Wenn Sie noch kein Google-Konto (Gmail oder Google Apps) haben, müssen Sie eines erstellen.
- Melden Sie sich in der Google Cloud Console ( console.cloud.google.com) an und rufen Sie BigQuery auf. Sie können die BigQuery-Web-UI auch direkt öffnen, indem Sie die folgende URL in Ihren Browser eingeben.
https://console.cloud.google.com/bigquery
- Akzeptieren Sie die Nutzungsbedingungen.
- Bevor Sie BigQuery verwenden können, müssen Sie ein Projekt erstellen. Folgen Sie dazu den Eingabeaufforderungen.
Wählen Sie einen Projektnamen aus und notieren Sie sich die Projekt-ID.
Die Projekt-ID ist ein Name, der übergreifend über alle Google Cloud-Projekte nur einmal vergeben wird. Sie wird später in diesem Codelab als PROJECT_ID bezeichnet.
In diesem Codelab werden BigQuery-Ressourcen innerhalb der BigQuery-Sandbox-Limits verwendet. Ein Rechnungskonto ist nicht erforderlich. Wenn Sie die Sandbox-Beschränkungen später entfernen möchten, können Sie ein Rechnungskonto hinzufügen, indem Sie sich für die kostenlose Testversion von Google Cloud Platform registrieren.
3. GitHub-Daten in der Vorschau ansehen
Öffnen Sie das GitHub-Dataset in der BigQuery-Web-UI.
https://console.cloud.google.com/bigquery?p=bigquery-public-data&d=github_repos&t=commits&page=table
Sie erhalten eine kurze Vorschau der Daten.

4. GitHub-Daten abfragen
Öffnen Sie den Abfrageeditor.

Geben Sie die folgende Abfrage ein, um die häufigsten Commit-Nachrichten im öffentlichen GitHub-Dataset zu finden:
SELECT subject AS subject,
COUNT(*) AS num_duplicates
FROM `bigquery-public-data.github_repos.sample_commits`
GROUP BY subject
ORDER BY num_duplicates DESC
LIMIT 100
Da der GitHub-Datensatz groß ist, empfiehlt es sich, beim Experimentieren einen kleineren Beispieldatensatz zu verwenden, um Kosten zu sparen. Anhand der verarbeiteten Byte unter dem Editor können Sie die Kosten der Abfrage schätzen.

Klicken Sie auf Ausführen.
Nach einigen Sekunden wird das Ergebnis unten aufgeführt. Sie sehen dann, wie viele Daten verarbeitet wurden und wie lange das gedauert hat.

Obwohl die Tabelle „sample_commits“ 2,49 GB groß ist, wurden bei der Abfrage nur 35,8 MB verarbeitet. BigQuery verarbeitet nur die Byte aus den in der Abfrage verwendeten Spalten. Die insgesamt verarbeitete Datenmenge kann daher deutlich geringer sein als die Tabellengröße. Mit Clustering und Partitionierung lässt sich die verarbeitete Datenmenge noch weiter reduzieren.
5. Mehr öffentliche Daten
Versuchen Sie nun, ein anderes Dataset abzufragen, z. B. eines der anderen öffentlichen Datasets.
Mit der folgenden Abfrage werden beispielsweise beliebte eingestellte oder nicht mehr gewartete Projekte im öffentlichen Dataset von Libraries.io gefunden, die in anderen Projekten weiterhin als Abhängigkeit verwendet werden:
SELECT
name,
dependent_projects_count,
language,
status
FROM
`bigquery-public-data.libraries_io.projects_with_repository_fields`
WHERE status IN ('Deprecated', 'Unmaintained')
ORDER BY dependent_projects_count DESC
LIMIT 100
Auch andere Organisationen haben ihre Daten öffentlich in BigQuery zur Verfügung gestellt. Beispielsweise kann das GH Archive-Dataset von Github verwendet werden, um öffentliche Ereignisse auf GitHub zu analysieren, z. B. Pull-Anfragen, Repository-Sterne und geöffnete Probleme. Das PyPI-Dataset der Python Software Foundation kann verwendet werden, um Downloadanfragen für Python-Pakete zu analysieren.
6. Glückwunsch!
Sie haben das öffentliche GitHub-Dataset mit BigQuery und SQL abgefragt. Sie können Datasets im Petabyte-Bereich abfragen.
Behandelte Themen
- SQL-Syntax zum Abfragen von GitHub-Commit-Datensätzen verwenden
- Abfrage schreiben, um Erkenntnisse aus einem großen Dataset zu gewinnen
Weitere Informationen
- SQL mit Kaggle lernen
- BigQuery-Dokumentation
- In diesem Blogpost erfahren Sie, wie andere den GitHub-Datensatz verwenden.
- Weitere Informationen
- Daten mit dem BigQuery-Befehlszeilentool in BigQuery laden
- Im BigQuery-Subreddit erfahren Sie, wie andere BigQuery nutzen.