Mit BigQuery GitHub-Daten abfragen

1. Einführung

BigQuery ist eine vollständig verwaltete, kostengünstige Analysedatenbank von Google. Mit BigQuery können Sie Terabytes an Daten abfragen, ohne einen Datenbankadministrator zu benötigen oder eine Infrastruktur verwalten zu müssen. BigQuery basiert auf SQL und die Abrechnung erfolgt nach dem „Pay as you go“-Modell. Mithilfe von BigQuery können Sie sich auf die Datenanalyse konzentrieren und wichtige Informationen erhalten.

In diesem Codelab erfahren Sie, wie Sie das öffentliche GitHub-Dataset abfragen, eines von vielen öffentlichen Datasets, die in BigQuery verfügbar sind.

Lerninhalte

BigQuery verwenden
Abfrage schreiben, um Erkenntnisse aus einem großen Dataset zu gewinnen

Voraussetzungen

Ein Google Cloud-Projekt
Ein Browser, z. B. Chrome oder Firefox

2. Einrichten

BigQuery aktivieren

Wenn Sie noch kein Google-Konto (Gmail oder Google Apps) haben, müssen Sie eines erstellen.

Melden Sie sich in der Google Cloud Console ( console.cloud.google.com) an und rufen Sie BigQuery auf. Sie können die BigQuery-Web-UI auch direkt öffnen, indem Sie die folgende URL in Ihren Browser eingeben.

https://console.cloud.google.com/bigquery

Akzeptieren Sie die Nutzungsbedingungen.
Bevor Sie BigQuery verwenden können, müssen Sie ein Projekt erstellen. Folgen Sie dazu den Eingabeaufforderungen.

Wählen Sie einen Projektnamen aus und notieren Sie sich die Projekt-ID. 5dHf3myqCTd3rm-fowZ_aU3An-T_NTgNnIZtQILio27us0xB3StjnSNnQraAnllEQCH4N2nMwLU1mnELwbNN85tbwNC_DbIdbxU8ufzJYW1MWpYu0hnbSrAajpAaRNs8UBeWFu68Aw

Die Projekt-ID ist ein Name, der übergreifend über alle Google Cloud-Projekte nur einmal vergeben wird. Sie wird später in diesem Codelab als PROJECT_ID bezeichnet.

In diesem Codelab werden BigQuery-Ressourcen innerhalb der BigQuery-Sandbox-Limits verwendet. Ein Rechnungskonto ist nicht erforderlich. Wenn Sie die Sandbox-Beschränkungen später entfernen möchten, können Sie ein Rechnungskonto hinzufügen, indem Sie sich für die kostenlose Testversion von Google Cloud Platform registrieren.

3. GitHub-Daten in der Vorschau ansehen

Öffnen Sie das GitHub-Dataset in der BigQuery-Web-UI.

https://console.cloud.google.com/bigquery?p=bigquery-public-data&d=github_repos&t=commits&page=table

Sie erhalten eine kurze Vorschau der Daten.

4. GitHub-Daten abfragen

Öffnen Sie den Abfrageeditor.

Geben Sie die folgende Abfrage ein, um die häufigsten Commit-Nachrichten im öffentlichen GitHub-Dataset zu finden:

SELECT subject AS subject,
  COUNT(*) AS num_duplicates
FROM `bigquery-public-data.github_repos.sample_commits`
GROUP BY subject
ORDER BY num_duplicates DESC
LIMIT 100

Da der GitHub-Datensatz groß ist, empfiehlt es sich, beim Experimentieren einen kleineren Beispieldatensatz zu verwenden, um Kosten zu sparen. Anhand der verarbeiteten Byte unter dem Editor können Sie die Kosten der Abfrage schätzen.

Klicken Sie auf Ausführen.

Nach einigen Sekunden wird das Ergebnis unten aufgeführt. Sie sehen dann, wie viele Daten verarbeitet wurden und wie lange das gedauert hat.

Obwohl die Tabelle „sample_commits“ 2,49 GB groß ist, wurden bei der Abfrage nur 35,8 MB verarbeitet. BigQuery verarbeitet nur die Byte aus den in der Abfrage verwendeten Spalten. Die insgesamt verarbeitete Datenmenge kann daher deutlich geringer sein als die Tabellengröße. Mit Clustering und Partitionierung lässt sich die verarbeitete Datenmenge noch weiter reduzieren.

5. Mehr öffentliche Daten

Versuchen Sie nun, ein anderes Dataset abzufragen, z. B. eines der anderen öffentlichen Datasets.

Mit der folgenden Abfrage werden beispielsweise beliebte eingestellte oder nicht mehr gewartete Projekte im öffentlichen Dataset von Libraries.io gefunden, die in anderen Projekten weiterhin als Abhängigkeit verwendet werden:

SELECT
  name,
  dependent_projects_count,
  language,
  status
FROM
  `bigquery-public-data.libraries_io.projects_with_repository_fields`
WHERE status IN ('Deprecated', 'Unmaintained')
ORDER BY dependent_projects_count DESC
LIMIT 100

Auch andere Organisationen haben ihre Daten öffentlich in BigQuery zur Verfügung gestellt. Beispielsweise kann das GH Archive-Dataset von Github verwendet werden, um öffentliche Ereignisse auf GitHub zu analysieren, z. B. Pull-Anfragen, Repository-Sterne und geöffnete Probleme. Das PyPI-Dataset der Python Software Foundation kann verwendet werden, um Downloadanfragen für Python-Pakete zu analysieren.

6. Glückwunsch!

Sie haben das öffentliche GitHub-Dataset mit BigQuery und SQL abgefragt. Sie können Datasets im Petabyte-Bereich abfragen.

Behandelte Themen

SQL-Syntax zum Abfragen von GitHub-Commit-Datensätzen verwenden
Abfrage schreiben, um Erkenntnisse aus einem großen Dataset zu gewinnen

Weitere Informationen

SQL mit Kaggle lernen
BigQuery-Dokumentation
In diesem Blogpost erfahren Sie, wie andere den GitHub-Datensatz verwenden.
Weitere Informationen
Daten mit dem BigQuery-Befehlszeilentool in BigQuery laden
Im BigQuery-Subreddit erfahren Sie, wie andere BigQuery nutzen.