1. Descripción general
¿Qué es Document AI Warehouse?
Document AI Warehouse es una plataforma para almacenar, buscar, organizar y analizar documentos y sus metadatos estructurados. Los documentos pueden incluir datos estructurados, como formularios y facturas, y datos no estructurados, como contratos y trabajos de investigación. Los metadatos de los documentos se pueden extraer automáticamente con procesadores de Document AI o ingresarlos de forma manual con campos y etiquetas.
En este codelab, aprenderás a transferir, procesar y buscar documentos con la interfaz de usuario de Document AI Warehouse. Para este codelab, se proporcionan documentos en PDF de muestra, que incluyen un contrato de licencia, un formulario de préstamo y una factura del pedido.
Requisitos previos
Este codelab se basa en contenido presentado en otros codelabs de Document AI. Te recomendamos que leas la siguiente documentación y codelabs antes de continuar:
- Guía de inicio rápido: Configura la API de Document AI
- Procesa documentos con la consola de Google Cloud
- Administra procesadores de Document AI con Python
Qué aprenderás
- Cómo habilitar la API de Document AI Warehouse
- Cómo configurar procesadores de documentos en Document AI Warehouse
- Cómo subir y analizar texto en varios tipos de documentos PDF
- Cómo buscar documentos y sus metadatos en Document AI Warehouse
Requisitos
2. Descarga documentos de muestra
Para este codelab, se proporcionan documentos en PDF de muestra, que incluyen un contrato de licencia, un formulario de préstamo y una factura del pedido. Puedes descargar los siguientes documentos de muestra para usarlos en este codelab.
También puedes descargar los documentos de muestra desde nuestro bucket público de Google Cloud Storage con gsutil
.
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/license-agreement.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/loan-form.pdf .
gsutil cp gs://cloud-samples-data/documentai/codelabs/warehouse/order-invoice.pdf .
En un paso posterior, subirás estos documentos de muestra, los analizarás con diferentes procesadores de documentos y almacenarás los documentos y metadatos resultantes en Document AI Warehouse.
3. Habilita la API de Document AI Warehouse
Antes de comenzar a usar Document AI Warehouse, debes habilitar la API.
Usa la consola de Cloud.
- Abre la consola de Google Cloud en tu navegador.
- En la consola de Google Cloud, navega a la Biblioteca de APIs para explorar las APIs y los servicios que se pueden habilitar.
- En la barra de búsqueda de la parte superior de la página Biblioteca de APIs, busca
Document AI Warehouse
y haz clic en el servicio resultante. - Haz clic en el botón Habilitar para habilitar la API de Document AI Warehouse en tu proyecto de Google Cloud.
Alternativa: Usa gcloud CLI
Como alternativa, la API se puede habilitar con el siguiente comando gcloud
:
gcloud services enable contentwarehouse.googleapis.com
Si la API se habilitó correctamente, deberías ver un mensaje similar al siguiente:
Operation "operations/..." finished successfully.
Ya tienes todo listo para usar Document AI Warehouse.
4. Visualiza la consola de Document AI Warehouse
En tu navegador, ve a la consola de Document AI Warehouse en https://documentwarehouse.cloud.google.com (que es externa a la consola de Google Cloud). Usarás la consola de Document AI Warehouse junto con tu proyecto de Google Cloud para realizar los pasos restantes de este codelab para subir, procesar y buscar documentos.
Si es la primera vez que usas Document AI Warehouse, consulta la documentación de Document AI Warehouse para obtener más información sobre cómo configurar tu proyecto y los ajustes según tus necesidades.
5. Crea un esquema de documento
Los esquemas de documento definen el tipo de documento y los campos para los documentos que almacenas en Document AI Warehouse. Deberás crear un esquema antes de subir documentos nuevos.
- En la consola de Document AI Warehouse, haz clic en el botón Administrador en la esquina superior derecha de la página.
- Haz clic en el elemento Esquema en la barra de navegación izquierda y, luego, en el botón + Agregar nuevo.
- Ingresa un nombre para tu esquema, como
Documents and Forms
, y asegúrate de que la opción Documento esté seleccionada como Tipo de esquema. Luego, haz clic en el botón Siguiente para continuar. - Puedes dejar la definición predeterminada del esquema JSON tal como está, que debería aparecer de la siguiente manera:
{ "display_name": "Documents and Forms", "property_definitions": [], "document_is_folder": false, "description": "" }
- Luego, haz clic en el botón Listo para terminar de crear el esquema del documento.
Cuando completes correctamente estos pasos, deberías ver un mensaje que indica que se creó el esquema de tu documento. Puedes hacer clic en el botón View Document Schema y, luego, en la pestaña JSON para confirmar el esquema, que debería ser similar al siguiente:
6. Crea procesadores de documentos
En este paso, crearás procesadores de documentos que puedes usar para realizar búsquedas en el texto completo en diferentes tipos de documentos de Document AI Warehouse.
- En la consola de Google Cloud, navega a la página de descripción general de Document AI Platform.
- Haz clic en Explorar procesadores y selecciona OCR de documentos como el tipo de procesador que se creará.
- Especifica un nombre para el procesador de documentos, como
ocr
, y tu región preferida. Luego, haz clic en Crear para crearlo. - En la página Detalles del procesador, copia el ID del procesador, que usaremos más adelante para configurar un procesador en Document AI Warehouse.
Repite estos pasos y selecciona Analizador de formularios como el tipo de procesador de documentos que se creará y especifica form
como el nombre del procesador.
Repite estos pasos y selecciona Analizador de facturas como el tipo de procesador de documentos que deseas crear y especifica invoice
como el nombre del procesador.
Una vez completados correctamente estos pasos, deberías ver una lista de procesadores de documentos similar a la siguiente:
7. Configurar procesadores de documentos
En este paso, configurarás procesadores de documentos en Document AI Warehouse. Para ello, consultarás los procesadores que creaste en el paso anterior.
- En la consola de Document AI Warehouse, haz clic en el botón Administrador en la barra de herramientas superior.
- Haz clic en el elemento Doc AI Processors de la barra de navegación izquierda y, luego, en el botón + Agregar nuevo.
- Haz clic en el botón + Add New Processor y, luego, especifica un nombre y el ID del procesador del paso anterior.
- Haz clic en el botón Guardar para guardar tus cambios.
Repite estos pasos para agregar los otros dos procesadores a la configuración de Document AI Warehouse con el botón + Agregar procesador nuevo, incluidos el analizador de formularios y el analizador de facturas. Asegúrate de agregar los dos procesadores adicionales en el mismo ID de esquema del documento con el botón + Agregar procesador nuevo, en lugar de agregar un esquema adicional con el botón + Agregar nuevo.
Una vez completados correctamente estos pasos, deberías ver una lista de procesadores de documentos configurados que es similar a la siguiente:
8. Sube y procesa documentos de muestra
Ahora que definiste un esquema y configuraste procesadores para tus documentos, puedes subirlos a Document AI Warehouse.
- Regresa a la consola de Document AI Warehouse y haz clic en el botón +Agregar nuevo en la barra de navegación izquierda. Luego, selecciona la opción Subir un documento nuevo.
- Arrastra el documento license-agreement.pdf de tu máquina al widget de carga o explora y selecciona uno de los documentos de muestra que descargaste. Luego, haz clic en el botón Siguiente para continuar.
- En Esquema del documento, selecciona el nombre del esquema que creaste anteriormente, como Documentos y formularios. En ID del procesador de Doc AI, selecciona el procesador de documentos de OCR que configuraste en el paso anterior.
- En el Nombre visible, puedes usar el nombre predeterminado (es decir, el nombre del archivo) o usar tu propio nombre de documento personalizado.
- Haz clic en el botón Crear para subir y procesar el documento.
Regresa a la consola de Document AI Warehouse y repite estos pasos con el documento de muestra loan-form.pdf. Selecciona el procesador de documentos form
que configuraste anteriormente.
Regresa a la consola de Document AI Warehouse y repite estos pasos con el documento de muestra invoice-sample.pdf. Selecciona el procesador de documentos invoice
que configuraste anteriormente.
Una vez completados correctamente estos pasos, si regresas a la consola de Document AI Warehouse, deberías ver una lista de documentos procesados que se verá de la siguiente manera:
9. Busca y explora documentos
Ahora que ya subiste y procesaste un documento en Document AI Warehouse, puedes realizar una búsqueda de texto completo en ellos.
En la consola de Document AI Warehouse, ingresa un término de búsqueda que aparezca en los documentos de muestra, como agreement
, y luego presiona la tecla Intro. Puedes probar otras búsquedas, como mortgage
y monitor
, para ver resultados de los diferentes documentos de muestra que subiste.
En los resultados, verás todos los documentos que contienen ese término de búsqueda, junto con un resumen del texto del documento en el que se destaca el término de búsqueda:
Haz clic en el nombre de un documento para verlo.
Haz clic en el botón de activación de AI View para ver el documento junto con los campos detectados y sus datos asociados:
10. Felicitaciones
Subiste, procesaste y realizaste correctamente búsquedas de texto completo en documentos con Document AI Warehouse y con procesadores en Document AI. Te animamos a experimentar con otros documentos y explorar los otros procesadores disponibles en la plataforma.
Realiza una limpieza
Puedes realizar la siguiente limpieza para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que se usaron en este instructivo:
- Navega a la página de la consola de Document Warehouse y borra todos los documentos de muestra que subiste.
- En la consola de Google Cloud, navega a la página Procesadores de Document AI y borra los procesadores de muestra que creaste.
- En la consola de Google Cloud, navega a la página APIs y servicios (APIs and Services) y, luego, inhabilita la API de Document AI Warehouse.
Más información
Sigue aprendiendo sobre Document AI con estos otros codelabs.
- Reconocimiento óptico de caracteres con Document AI
- Análisis de formularios con Document AI (Python)
- Procesadores especializados con Document AI (Python)
- Administra procesadores de Document AI con Python
Recursos
- Documentación de Document AI Warehouse
- El futuro de los documentos - Playlist de YouTube
- Repositorio de muestras de Document AI
Licencia
Este trabajo cuenta con una licencia Atribución 2.0 Genérica de Creative Commons.