Documentación de Dataproc
Dataproc es un servicio Apache Spark y Apache Hadoop administrado con el que puedes aprovechar las herramientas de código abierto para procesar, consultar y transmitir datos en lote, además de herramientas de aprendizaje automático. Con la automatización de Dataproc, podrá crear clústeres rápidamente, administrarlos con facilidad y ahorrar dinero desactivándolos cuando no los necesite. Al invertir menos tiempo y dinero en tareas de administración, podrá enfocarse en sus trabajos y datos. Más información
Comienza tu prueba de concepto con un crédito gratis de USD 300
- Obtén acceso a Gemini 2.0 Flash Thinking
- Uso mensual gratuito de productos populares, incluidas las APIs de IA y BigQuery
- Sin cargos automáticos ni compromisos
Sigue explorando con más de 20 productos siempre gratuitos
Accede a más de 20 productos gratuitos para casos de uso comunes, incluidas APIs de IA, VMs, almacenes de datos y mucho más.
Recursos de documentación
Guías
-
Guías de inicio rápido: Console, línea de comandos, bibliotecas cliente, Explorador de APIs: crea un clúster, o Explorador de APIs: envía un trabajo de Spark
Recursos relacionados
Ejecuta un trabajo de Spark en Google Kubernetes Engine
Enviar trabajos de Spark a un clúster de Google Kubernetes Engine en ejecución desde la API de trabajos de Dataproc.
Introducción a Cloud Dataproc: Hadoop y Spark en Google Cloud
Este curso cuenta con una combinación de lecciones, demostraciones y labs prácticos para crear un clúster de Dataproc, enviar un trabajo de Spark y, luego, cerrar el clúster.
Aprendizaje automático con Spark en Dataproc
En este curso, se presenta una combinación de lecciones, demostraciones y labs prácticos para implementar la regresión logística mediante una biblioteca de aprendizaje automático para Apache Spark que se ejecuta en un clúster de Dataproc a fin de desarrollar un modelo para los datos de un conjunto de datos multivariable.
Soluciones de programación del flujo de trabajo
Programa flujos de trabajo en Google Cloud.
Migra datos HDFS de un entorno local a Google Cloud
Cómo mover datos del sistema de archivos distribuido de Hadoop local (HDFS) a Google Cloud.
Administra las dependencias de Java y Scala para Apache Spark
Enfoques recomendados para incluir dependencias cuando envías un trabajo de Spark a un clúster de Dataproc
Muestras de la API de Python
Llamar a las API de Dataproc desde Python
Muestras de la API de Java
Llamar a las API de Dataproc desde Java
Muestras de la API de Node.js
Llamar a las API de Dataproc desde Node.js.
Muestras de la API de Go
Llamar a las API de Dataproc desde Go