Criar modelos do Spark ML com o Google Dataproc

1. Introdução

Um dos principais componentes do Apache Spark é o Spark ML, uma biblioteca para criação de pipelines e modelos de machine learning desenvolvidos com base no mecanismo Apache Spark. Do site, ele contém ferramentas como:

  • Algoritmos de ML: algoritmos de aprendizado comuns, como classificação, regressão, clustering e filtragem colaborativa
  • Caracterização: extração, transformação, redução de dimensionalidade e seleção de atributos
  • Pipelines: ferramentas para criar, avaliar e ajustar pipelines de ML
  • Persistência: salvar e carregar algoritmos, modelos e pipelines
  • Utilitários: álgebra linear, estatística, tratamento de dados etc.

Neste codelab, você vai aprender a criar um modelo de ML do Spark usando um notebook.

2. Ativar APIs

Para este codelab, você precisa ativar as seguintes APIs:

Clique neste link para ativar as APIs no seu projeto. Quando solicitado, confirme se as APIs serão ativadas no projeto correto.

3. Criar e se conectar a uma instância do Vertex AI Workbench

Nesta seção, você vai criar uma instância do Vertex AI Workbench. Em seguida, você vai se conectar a ele, clonar um repositório do GitHub e executar um notebook.

Para criar a instância do Vertex AI Workbench, siga as instruções ou as informações abaixo.

  1. Acesse a página do console de Notebooks gerenciados.
  2. Clique em NOVO NOTEBOOK.
  3. Forneça um nome e escolha uma região, como us-central1 (Iowa). O ideal é que ela corresponda à região selecionada anteriormente no codelab, embora não seja obrigatória.
  4. Em Permissão, selecione Apenas um usuário.
  5. Abra o menu suspenso Configurações avançadas.
  6. Em Segurança, selecione Ativar nbconvert e Ativar terminal.
  7. Clique em CRIAR.

A instância deve ser provisionada em cerca de cinco minutos. Quando a instância estiver pronta, você verá uma marca de seleção verde ao lado do Nome do notebook.

Quando a instância estiver pronta, clique em ABRIR O JUPYTERLAB. Faça a autenticação quando solicitado e ative todas as permissões.

4. Crie modelos com o Spark ML em um notebook

Depois que a instância do JupyterLab for carregada, você estará na guia Acesso rápido. Nessa guia, em Outro, clique em Terminal para abrir um novo terminal.

No terminal, clone o repositório de Amostras da Vertex AI.

git clone https://github.com/GoogleCloudPlatform/vertex-ai-samples.git

Na guia Navegador de arquivos, acesse vertex-ai-samples/notebooks/profession/workbench/spark. Clique duas vezes no notebook spark_ml.ipynb para abri-lo. Quando solicitado a selecionar um kernel, selecione Python (local).

Siga as etapas do notebook executando cada célula. Siga as instruções nas células.

5. Limpar recursos

Siga as etapas abaixo para evitar cobranças desnecessárias na sua conta do GCP após a conclusão deste codelab:

  1. excluir sua instância do Workbench. No console, marque a caixa ao lado da instância e clique em EXCLUIR.

Se você criou um projeto apenas para este codelab, também é possível excluí-lo:

  1. No console do GCP, acesse a página Projetos.
  2. Na lista de projetos, selecione o projeto que você quer excluir e clique em "Excluir".
  3. Na caixa, digite o ID do projeto e clique em "Encerrar" para excluí-lo.