Menggunakan BigQuery untuk membuat kueri data GitHub

1. Pengantar

BigQuery adalah database analisis berharga murah yang terkelola sepenuhnya dari Google. Dengan BigQuery, Anda dapat membuat kueri data berukuran terabyte tanpa memerlukan administrator database atau infrastruktur apa pun untuk dikelola. BigQuery menggunakan SQL yang sudah dikenal dan model pengisian daya bayar sesuai penggunaan. Dengan BigQuery, Anda dapat berfokus pada analisis data untuk menemukan insight yang bermakna.

Dalam codelab ini, Anda akan melihat cara membuat kueri set data publik GitHub, salah satu dari banyak set data publik yang tersedia di BigQuery.

Yang akan Anda pelajari

  • Cara menggunakan BigQuery
  • Cara menulis kueri untuk mendapatkan insight tentang {i>dataset<i} yang besar

Yang Anda butuhkan

2. Memulai persiapan

Mengaktifkan BigQuery

Jika belum memiliki Akun Google (Gmail atau Google Apps), Anda harus membuatnya.

  • Login ke konsol Google Cloud Platform ( console.cloud.google.com) dan buka BigQuery. Anda juga dapat membuka UI web BigQuery secara langsung dengan memasukkan URL berikut di browser Anda.
https://console.cloud.google.com/bigquery
  • Setujui persyaratan layanan.
  • Sebelum dapat menggunakan BigQuery, Anda harus membuat proyek. Ikuti petunjuk untuk membuat project baru.

Pilih nama project dan catat ID project-nya. 5dHf3myqCTd3rm-fowZ_aU3An-T_NTgNnIZtQILio27us0xB3StjnSNnQraAnllEQCH4N2nMwLU1mnELwbNN85tbwNC_DbIdbxU8ufzJYW1MWpYu0hnbSrAajpAaRNs8UBeWFu68Aw

ID Project adalah nama unik di semua project Google Cloud. Project ID tersebut selanjutnya akan dirujuk di codelab ini sebagai PROJECT_ID.

Codelab ini menggunakan resource BigQuery bersama batas sandbox BigQuery. Akun penagihan tidak diperlukan. Jika nanti Anda ingin menghapus batas sandbox, Anda dapat menambahkan akun penagihan dengan mendaftar ke uji coba gratis Google Cloud Platform.

3. Melihat pratinjau data GitHub

Buka set data GitHub di UI web BigQuery.

https://console.cloud.google.com/bigquery?p=bigquery-public-data&amp;d=github_repos&amp;t=commits&amp;page=table

Dapatkan pratinjau cepat tentang tampilan data.

ed0b9fce5eab1c6b.png

4. Membuat kueri data GitHub

Buka editor kueri.

759423d320075d96.pngS

Masukkan kueri berikut untuk menemukan pesan commit yang paling umum di set data publik GitHub:

SELECT subject AS subject,
  COUNT(*) AS num_duplicates
FROM `bigquery-public-data.github_repos.sample_commits`
GROUP BY subject
ORDER BY num_duplicates DESC
LIMIT 100

Mengingat set data GitHub berukuran besar, sebaiknya gunakan set data sampel yang lebih kecil saat bereksperimen untuk menghemat biaya. Gunakan byte yang diproses di bawah editor untuk memperkirakan biaya kueri.

fb66b7e9c6e838c.png

Kilk tombol Run.

Dalam beberapa detik, hasilnya akan tercantum di bagian bawah, dan Anda akan diberi tahu berapa banyak data yang diproses dan berapa lama waktu yang dibutuhkan.

3ce1a59763d0dab5.pngS

Meskipun tabel sample_commits berukuran 2,49 GB, kueri hanya memproses 35,8 MB. BigQuery hanya memproses byte dari kolom yang digunakan dalam kueri, sehingga jumlah total data yang diproses bisa jauh lebih kecil daripada ukuran tabel. Dengan pengelompokan dan partisi, jumlah data yang diproses dapat dikurangi lebih lanjut.

5. Data publik lainnya

Sekarang, coba lakukan kueri untuk set data lain, seperti salah satu set data publik lainnya.

Misalnya, kueri berikut menemukan project populer yang tidak digunakan lagi atau tidak dikelola dalam set data publik Libraries.io yang masih digunakan sebagai dependensi dalam project lain:

SELECT
  name,
  dependent_projects_count,
  language,
  status
FROM
  `bigquery-public-data.libraries_io.projects_with_repository_fields`
WHERE status IN ('Deprecated', 'Unmaintained')
ORDER BY dependent_projects_count DESC
LIMIT 100

Organisasi lain juga telah membuat data mereka tersedia untuk publik di BigQuery. Misalnya, set data Arsip GH GitHub dapat digunakan untuk menganalisis peristiwa publik di GitHub, seperti permintaan pull, bintang repositori, dan masalah yang terbuka. Set data PyPI dari Python Software Foundation dapat digunakan untuk menganalisis permintaan download untuk paket Python.

6. Selamat!

Anda telah menggunakan BigQuery dan SQL untuk membuat kueri {i>dataset<i} publik GitHub. Anda memiliki kemampuan untuk membuat kueri set data berskala petabyte!

Yang telah Anda bahas

  • Menggunakan sintaksis SQL untuk membuat kueri catatan commit GitHub
  • Menulis kueri untuk mendapatkan wawasan tentang {i>dataset<i} yang besar

Pelajari lebih lanjut