1. Descripción general
¿Qué es Document AI Warehouse?
Document AI Warehouse es una plataforma para almacenar, buscar, organizar y analizar documentos y sus metadatos estructurados. Los documentos pueden incluir datos estructurados, como formularios y facturas, así como datos no estructurados, como contratos y documentos de investigación. Los metadatos de los documentos se pueden extraer automáticamente con los procesadores de Document AI o ingresarse de forma manual con campos y etiquetas.
En este codelab, aprenderás a transferir, procesar y buscar documentos con la interfaz de usuario de Document AI Warehouse. En este codelab, se proporcionan documentos PDF de muestra, incluidos un acuerdo de licencia, un formulario de préstamo y una factura de pedido.
Requisitos previos
Este codelab se basa en contenido presentado en otros codelabs de Document AI. Te recomendamos que leas la siguiente documentación y los siguientes codelabs antes de continuar:
- Guía de inicio rápido: Configura la API de Document AI
- Procesa documentos con la consola de Google Cloud
- Administra procesadores de Document AI con Python
Qué aprenderás
- Cómo habilitar la API de Document AI Warehouse
- Cómo configurar procesadores de documentos en Document AI Warehouse
- Cómo subir y analizar texto en varios tipos de documentos PDF
- Cómo buscar documentos y sus metadatos en Document AI Warehouse
Requisitos
2. Descarga documentos de muestra
En este codelab, se proporcionan documentos PDF de ejemplo, como un acuerdo de licencia, un formulario de préstamo y una factura de pedido. Puedes descargar los siguientes documentos de muestra para usarlos en este codelab.
Como alternativa, puedes descargar los documentos de muestra de nuestro bucket público de Google Cloud Storage con gsutil.
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .
En un paso posterior, subirás estos documentos de muestra, los analizarás con diferentes procesadores de documentos y almacenarás los documentos y metadatos resultantes en Document AI Warehouse.
3. Habilita la API de Document AI Warehouse
Antes de comenzar a usar Document AI Warehouse, debes habilitar la API.
Usa la consola de Cloud.
- Abre la consola de Google Cloud en tu navegador.
- En la consola de Google Cloud, navega a la Biblioteca de APIs para explorar las APIs y los servicios que se pueden habilitar.
- En la barra de búsqueda ubicada en la parte superior de la página Biblioteca de APIs, busca
Document AI Warehousey, luego, haz clic en el servicio resultante. - Haz clic en el botón Habilitar para habilitar la API de Document AI Warehouse en tu proyecto de Google Cloud.

Alternativa: Usa la CLI de gcloud
Como alternativa, la API se puede habilitar con el siguiente comando gcloud:
gcloud services enable contentwarehouse.googleapis.com
Si la API se habilitó correctamente, deberías ver un mensaje similar al siguiente:
Operation "operations/..." finished successfully.
Ahora ya puedes usar Document AI Warehouse.
4. Consulta la consola de Document AI Warehouse
En tu navegador, navega a la consola de Document AI Warehouse ubicada en https://documentwarehouse.cloud.google.com (que es externa a la consola de Google Cloud). Usarás la consola de Document AI Warehouse junto con tu proyecto de Google Cloud para realizar los pasos restantes de este codelab para subir, procesar y buscar documentos.

Si es la primera vez que usas Document AI Warehouse, consulta la Documentación de Document AI Warehouse para obtener más información sobre cómo configurar tu proyecto y los parámetros según tus necesidades.
5. Crea un esquema de documento
Los esquemas de documentos definen el tipo de documento y los campos de los documentos que almacenas en Document AI Warehouse. Deberás crear un esquema antes de subir documentos nuevos.
- En la consola de Document AI Warehouse, haz clic en el botón Administrador en la esquina superior derecha de la página.
- Haz clic en el elemento Schema en la barra de navegación izquierda y, luego, en el botón + Add new.
- Ingresa un nombre para tu esquema, como
Documents and Forms, y asegúrate de que Document esté seleccionado como el Tipo de esquema. Luego, haz clic en el botón Siguiente para continuar. - Puedes dejar la definición del esquema JSON predeterminado tal como está, que debería aparecer de la siguiente manera:
{ "display_name": "Documents and Forms", "property_definitions": [], "document_is_folder": false, "description": "" } - Luego, haz clic en el botón Listo para terminar de crear el esquema del documento.
Cuando completes estos pasos correctamente, verás un mensaje que indica que se creó el esquema de tu documento. Puedes hacer clic en el botón Ver esquema del documento y, luego, en la pestaña JSON para confirmar el esquema, que debería ser similar al siguiente:

6. Crea procesadores de documentos
En este paso, crearás procesadores de documentos que puedes usar para realizar búsquedas de texto completo en diferentes tipos de documentos en Document AI Warehouse.
- En la consola de Google Cloud, navega a la página de descripción general de la plataforma de Document AI.
- Haz clic en Explorar procesadores y, luego, selecciona OCR de documentos como el tipo de procesador que deseas crear.
- Especifica un nombre para tu procesador de documentos, como
ocr, y tu región preferida. Luego, haz clic en Crear para crear tu procesador. - En la página Detalles del procesador, copia el ID del procesador, que usaremos más adelante para configurar un procesador en Document AI Warehouse.
Repite estos pasos y selecciona Form Parser como el tipo de procesador de documentos que deseas crear y especifica form como el nombre del procesador.
Repite estos pasos y selecciona Invoice Parser como el tipo de procesador de documentos que deseas crear y especifica invoice como el nombre del procesador.
Cuando completes estos pasos correctamente, deberías ver una lista de procesadores de documentos similar a la siguiente:

7. Configura procesadores de documentos
En este paso, configurarás los procesadores de documentos en Document AI Warehouse haciendo referencia a los procesadores que creaste en el paso anterior.
- En la consola de Document AI Warehouse, haz clic en el botón Administrador de la barra de herramientas superior.
- Haz clic en el elemento Doc AI Processors en la barra de navegación de la izquierda y, luego, en el botón + Add new.
- Haz clic en el botón + Agregar procesador nuevo y, luego, especifica un nombre y el ID del procesador del paso anterior.
- Haz clic en el botón Guardar para guardar tus cambios.
Repite estos pasos para agregar los otros dos procesadores a la configuración de Document AI Warehouse con el botón + Add New Processor, incluidos el analizador de formularios y el analizador de facturas. Asegúrate de agregar los dos procesadores adicionales con el mismo ID de esquema del documento usando el botón + Agregar procesador nuevo, en lugar de agregar un esquema adicional con el botón + Agregar nuevo.
Cuando completes estos pasos, deberías ver una lista de procesadores de documentos configurados similar a la siguiente:

8. Sube y procesa documentos de muestra
Ahora que definiste un esquema y configuraste procesadores para tus documentos, puedes subirlos a Document AI Warehouse.
- Regresa a la consola de Document AI Warehouse y haz clic en el botón +Agregar nuevo en la barra de navegación de la izquierda. Luego, selecciona la opción para subir un documento nuevo.
- Arrastra el documento license-agreement.pdf desde tu máquina al widget de carga, o bien busca y selecciona uno de los documentos de muestra que descargaste. Luego, haz clic en el botón Siguiente para continuar.
- En Esquema del documento, selecciona el nombre del esquema que creaste antes, como Documentos y formularios. Para el ID del procesador de Doc AI, selecciona el procesador de documentos OCR que configuraste en el paso anterior.
- Para el Nombre visible, puedes usar el nombre predeterminado (es decir, el nombre del archivo) o usar tu propio nombre de documento personalizado.
- Haz clic en el botón Crear para subir y procesar tu documento.
Regresa a la consola de Document AI Warehouse y repite estos pasos con el documento de muestra loan-form.pdf. Selecciona el procesador de documentos form que configuraste anteriormente.
Regresa a la consola de Document AI Warehouse y repite estos pasos con el documento de muestra invoice-sample.pdf. Selecciona el procesador de documentos invoice que configuraste anteriormente.
Cuando completes estos pasos correctamente, si vuelves a la consola de Document AI Warehouse, deberías ver una lista de documentos procesados similar a la siguiente:

9. Busca y explora documentos
Ahora que subiste y procesaste un documento en Document AI Warehouse, puedes realizar una búsqueda en el texto completo de los documentos.
En la consola de Document AI Warehouse, ingresa un término de búsqueda que aparezca en los documentos de muestra, como agreement, y, luego, presiona la tecla Intro. Puedes probar otras búsquedas, como mortgage y monitor, para ver los resultados de los diferentes documentos de muestra que subiste.
En los resultados, verás todos los documentos que contienen ese término de búsqueda, junto con un resumen del texto del documento con el término de búsqueda destacado:

Haz clic en el nombre de un documento para verlo.
Haz clic en el botón de activación Vista de IA para ver el documento junto con los campos detectados y sus datos asociados:

10. Felicitaciones
Subiste, procesaste y realizaste correctamente búsquedas de texto completo en documentos con Document AI Warehouse y con procesadores en Document AI. Te animamos a experimentar con otros documentos y explorar los otros procesadores disponibles en la plataforma.
Limpieza
Puedes realizar la siguiente limpieza para evitar que se generen cargos en tu cuenta de Google Cloud por los recursos que se usaron en este instructivo:
- Navega a la página de la consola de Document Warehouse y borra todos los documentos de muestra que subiste.
- En la consola de Google Cloud, navega a la página Procesadores de Document AI y borra los procesadores de muestra que creaste.
- En la consola de Google Cloud, navega a la página APIs y servicios y, luego, inhabilita la API de Document AI Warehouse.
Más información
Sigue aprendiendo sobre Document AI con estos otros codelabs.
- Reconocimiento óptico de caracteres con Document AI
- Análisis de formularios con Document AI (Python)
- Procesadores especializados con Document AI (Python)
- Administra procesadores de Document AI con Python
Recursos
- Documentación de Document AI Warehouse
- El futuro de los documentos: Lista de reproducción de YouTube
- Repositorio de muestras de Document AI
Licencia
Este trabajo cuenta con una licencia Atribución 2.0 Genérica de Creative Commons.