关于此 Codelab
1. 简介
数据洞察和 BigQuery 共同构成了一个强大的组合,可让您创建信息中心,帮助用户了解数据中的信息和数据分析。这些信息中心可以使用熟悉的 Google 云端硬盘界面轻松共享,还可以嵌入到网站中,以便更广泛地分发。
什么是数据洞察?
数据洞察是 Google 的免费数据可视化工具,可让您执行以下操作:
- 通过可配置性极高的图表和表格直观地呈现数据。
- 快速轻松地连接到各种数据源。
- 与团队成员或世界各地的用户共享您的数据洞见。
- 与团队成员协同处理报告。
- 借助内置的报告示例和社区可视化图表,创建报告的速度更快
此 Codelab 将引导您完成以下操作:连接 BigQuery 和数据洞察,创建信息中心和报告,从而更好地了解您的数据。我们将使用 Cloud 公共数据集计划中的公开数据集来演示如何实现此目的。
构建内容
在此 Codelab 中,您将构建一个数据工作室信息中心。您的信息中心将通过以下方式直观呈现 BigQuery 公共数据集:将 BigQuery 连接到数据洞察,并确定适合该数据集的最佳可视化图表类型。 |
学习内容
- 如何关联 BigQuery 和数据洞察
- 如何在数据洞察中直观呈现数据
所需条件
- Google Cloud 账号。如果您还没有 Google Cloud 账号,可以快速注册 BigQuery 沙盒,无需提供信用卡。
- 具备 SQL 基础知识会有所帮助,但不是必需条件
- 对数据可视化最佳实践有基本的了解
2. 准备工作
访问 BigQuery 公共数据集
在此 Codelab 中,您将直观呈现旧金山市的 311 请求。此数据集以及其他 150 多个数据集均可通过 BigQuery 公共数据集计划获取。探索整个可用数据集目录,查找其他数据集。我们使用的 311 请求数据集非常适合用来代表许多公司需要管理的客户服务请求类型。
设置 Google Cloud 项目
在 Cloud 控制台的项目选择器页面上,选择或创建 Cloud 项目。此选项位于屏幕左上角的下拉菜单中。确保您的 Google Cloud 项目已启用结算功能。了解如何确认您的项目已启用结算功能。
3. 关联数据洞察和 BigQuery
什么是数据洞察?
数据洞察是 Google 的免费数据可视化工具,可帮助用户通过互动式信息中心和富有吸引力的报告充分发挥数据的效用,从而获得启发并制定出更明智的业务决策。您可以连接到 500 多个数据集,这些数据集来自直接内置到数据洞察中的 200 多个连接器。其中包括与 Google 产品(例如 Google Analytics、BigQuery 和 Google 表格)以及外部数据源的连接器。
什么是 BigQuery?
BigQuery 是 Google Cloud 的全托管式云数据仓库,扩缩能力极强且经济实惠,旨在提升业务敏捷性。借助 BigQuery,您可以使用 ANSI SQL 极速分析 PB 级数据,通过实时分析和预测性分析获取数据洞见,并轻松访问数据和分享数据洞见。所有这些功能都无需任何运营开销。
创建数据源
如需在数据洞察中创建报告,第一步是为报告创建数据源。一份报告可以有一个或多个数据源。创建 BigQuery 数据源时,数据洞察会使用 BigQuery 连接器。
您必须具有相应的权限才能将 BigQuery 数据源添加到数据洞察报告中。此外,应用于 BigQuery 数据集的权限也会应用于您在数据洞察中创建的报告、图表和信息中心。共享数据洞察报告时,只有具备适当权限的用户才能看到报告组件。
创建数据源的步骤如下:
- 打开数据洞察。
- 在报告页面的从模板开始部分,点击空白模板。这会创建一份新的无标题报告。
- 看到系统提示时,填写营销资料接收设置以及账号和隐私设置,然后点击保存。保存设置后,您可能需要再次点击空白模板。
- 在向报告添加数据窗口中,查看连接到数据部分,然后点击 BigQuery 进行选择
- 在授权部分,点击授权。这样 Google 数据洞察就可以访问您的 GCP 项目。
- 在请求权限 (Request for permission) 对话框中,点击允许以允许 Google 数据洞察查看 BigQuery 中的数据。如果您以前使用过 Google 数据洞察,则可能不会收到此提示。
- 在左侧导航栏中,您会看到系统默认选择了我的项目。将选择更改为公开数据集。
- 对于结算项目 (Billing Project),点击您先前创建的 GCP 项目的名称。
- 在公共数据集下,点击 san_francisco_311。
- 对于表格,点击 311_service_requests。
- 点击窗口右下角的添加。如果您看到一个对话框,其中显示“您要向此报告添加数据”,请点击“添加到报告”继续操作。
- 在数据洞察菜单的资源下,点击管理添加的数据源图标
- 在“数据源”页面上,点击 311_service_requests 旁边的修改,以查看该表的字段及其数据类型。您可以使用此页面调整字段属性,或者创建新的计算字段。
- 此数据集包含每个社区的内部地理点,以数据洞察可以原生使用的方式表示。在 neighborhood_center_ds 字段旁边,点击文本更改数据类型,然后从地理位置下拉字段中选择纬度、经度。这会告知数据洞察,我们的数据字段应以地理位置的形式呈现。
您现在已将 BigQuery 数据集连接到数据洞察!
4. 创建可视化图表
现在,您已成功连接 BigQuery 数据集(在本例中为 BigQuery 公共数据集 San Francisco 311 requests),可以开始直观呈现数据了。Data Studio 会根据您的数据自动创建第一个可视化图表。您可以暂时删除此内容,以创建空白模板。
创建树状图
我们将首先创建一个树状图,直观呈现最常提出的 311 请求类型。这将为我们提供其他可视化的起点,告诉我们可能需要重点关注哪些类型的请求。
- 在 Data Studio 菜单中点击添加图表,然后选择底部的树状图。您可能需要向下滚动才能找到该选项。
2. 在数据洞察中,您可以点击画布中的某个区域或在画布中拖动某个区域来创建可视化图表。首先,将其放置在信息中心的左下角。数据洞察会猜测您要添加哪些字段,并自动创建树状图。
3. 点击树状图即可更改可视化的数据。在屏幕右侧的面板中,更改参数以与下面的可视化图表相匹配。
- 点击面板顶部的样式。我们将使用此数据进行一些细微更改,使树状图更易于解读。下面,我们来更改值最多的请求类型的颜色。点击下方突出显示的按钮,然后选择带有对勾标记的蓝色色调。这样可以使树状图中的文字对比度更高。
5. 完成后,您的信息中心应大致如下所示:
5. 构建信息中心
信息中心的主要用途之一是能够以更具可扩缩性的方式轻松报告指标,从而为决策提供支持。为此,我们会以易于理解的格式纳入必要的数据和指标,以便为数据集提供适当的背景信息。
接下来,我们继续构建信息中心,添加一些元素,以便更轻松地理解和解读这些信息。首先,我们添加一张地图,突出显示哪些社区的总体请求数量最多;然后添加记分卡,显示前 3 种请求类型的总请求数量。
向信息中心添加地图
- 点击菜单中的添加图表,然后在下拉菜单中选择 Google 地图。您也可以使用地理位置地图,但 Google 地图可视化图表提供的背景信息更多,因此更适合此使用情形。
2. 以与添加树状图相同的方式,将图表添加到信息中心的右下角。3. 选择信息中心内的地图,以更改其参数。然后,修改数据标签页下的选项,使其与下面的选择相符。为此,请将“社区”字段添加到提示维度,并将“记录数”添加到指标下的气泡大小。
4. 完成后,您的信息中心应如下所示:
向信息中心添加统计信息摘要图表
接下来,我们将向信息中心添加三个统计信息摘要图表。借助记分卡,您可以显示过滤后变量的值,从而帮助信息中心的用户专注于最重要的指标。我们将创建三个过滤条件,然后将其应用于统计信息摘要。这将创建 3 个记分卡,向用户显示服务请求数量,这些服务请求的类型分别为“街道和人行道清洁”“涂鸦”和“露营地”。这是根据之前构建的树状图确定的三种最常请求的服务类型。
- 点击菜单中的添加图表,然后从下拉菜单中选择“记分卡”。您将看到两个选项:“统计信息摘要”和“含紧凑数字的统计信息摘要”。这两种方法都适用于预期用例。
2. 在信息中心内的树状图上方添加统计信息摘要图表,并确保选择“记录数”字段作为指标。复制并粘贴该图表,以在信息中心内创建另外两个间隔分布的图表。
3. 选择最左侧的统计信息摘要。在右侧的数据面板中,选择添加过滤条件,然后创建符合以下参数的过滤条件。系统会自动更新记分卡,以过滤记录数,使其仅包含符合过滤条件的客服请求。
4. 对中间和最右侧的记分卡执行相同的操作,以创建显示“涂鸦”和“露营地”类别的请求数量的记分卡。点击添加过滤条件会显示“过滤条件选择器”,其中会显示所有已创建的过滤条件。点击底部的创建过滤器以创建新过滤器。创建过滤条件后,您会发现值会自动更新,以反映得分卡的新参数。5. 按住 Shift 键并点击这三个统计信息摘要对象,即可同时选中它们,然后点击面板中的样式来修改统计信息摘要的样式。您现在所做的修改将同时应用于所有三个记分卡。更新统计信息摘要的样式,使其与下面的面板设置相符,但如果颜色略有不同,也不必担心。我们将选择“隐藏指标名称”(目前在信息中心内显示为“记录数”),以便我们自行输入文字,让信息中心查看者更清楚地了解这些指标的含义。
6. 在记分卡上方添加文字,以便用户了解指标的含义。在工具栏中,点击“文本”图标。在画布上绘制一个框,然后在框中输入文字。
信息中心应如下所示:
6. 创建过滤条件
借助 Data Studio 中的过滤条件,您可以优化或减少图表中反映的数据。您可以通过设置条件来定义过滤条件,这类似于 SQL 中的 WHERE 语句。过滤条件可以针对数据集的一个或多个维度指定特定值范围,例如将数据限制为特定日期范围。您可以在各个层级应用过滤条件:
- 图表级:过滤条件仅应用于一个特定图表。
- 组级:过滤条件应用于所选图表的分组。
- 网页级:过滤相应网页上的所有图表。
- 报告级:过滤报告中的所有图表。
现在,我们已经完成了大部分信息中心工作,接下来添加一个过滤条件控件,以便查看者在查看报告视觉效果时,能够以互动方式选择一个或多个希望在报告视觉效果中反映的社区。
- 点击 Data Studio 菜单中的过滤条件控件
2. 点击信息中心的画布,放置过滤条件控件,就像您之前添加图表时一样。3. 确保在数据面板中将过滤维度设置为“社区”(如果尚未设置)。4. 在信息中心内点击相应过滤条件,选择该过滤条件。然后,点击顶部菜单栏中的排列,并选择设为页面级。如果该选项无法选择,则表示过滤条件已设置为页面级,修改后将过滤相应页面上的所有图表。
这样,您就创建了一个可供使用的合适的信息中心!
7. 测试并分享
测试信息中心
现在,信息中心已完成,我们从查看者的角度来看一下,确保一切正常。
点击右上角的查看,您将能够从观看者的角度查看信息中心。
共享信息中心
一切就绪后,您就可以分享信息中心了。Data Studio 采用 Google 表格、Google 文档和其他 G Suite 产品中常用的共享界面,可让您轻松共享信息中心。
首先,更改信息中心的名称,以便用户更轻松地找到它。点击左上角的报告名称(“未命名”),然后将其更改为“旧金山各社区的 311 请求”。
点击右上角的共享按钮将打开共享界面,其中包含许多选项,包括通过电子邮件与个别用户共享、按网域共享,或向所有用户公开。如果您希望将报告嵌入到公共网站中,则最后一种设置尤为有用。
后续步骤
如需详细了解 Google Cloud 的商业智能工具如何满足您的需求,请在页面顶部搜索“数据洞察”,查看其他 Codelab 。敬请留意后续的 Codelab,了解 Google Cloud 最新的 BI 工具 Looker!
您还可以使用 BigQuery BI Engine,利用高达 100 GB 的内存中存储空间来加快信息中心的速度。BI Engine 是一项高速内存中分析服务,允许用户以互动方式探索 BigQuery 内的复杂数据集,支持亚秒级查询响应时间和高并发操作。它可与数据洞察无缝集成,加快数据探索和分析速度,让您的信息中心对查看者来说更具实用价值。