Documentación de Dataproc
Dataproc es un servicio Apache Spark y Apache Hadoop gestionado que te permite aprovechar las herramientas de datos de código abierto para el procesamiento por lotes, las consultas, el streaming y el aprendizaje automático. La automatización de Dataproc te ayuda a crear clústeres rápidamente, gestionarlos fácilmente y ahorrar dinero desactivándolos cuando no los necesites. Al dedicar menos tiempo y dinero a la administración, puedes centrarte en tus trabajos y tus datos. Más información
Empieza tu prueba de concepto con 300 USD en crédito gratis
- Acceder a Gemini 2.0 Flash Thinking
- Uso mensual gratuito de productos populares, como las APIs de IA y BigQuery
- Sin cargos automáticos ni permanencia
Sigue explorando con más de 20 productos Always Free
Accede a más de 20 productos gratuitos para casos prácticos habituales, como APIs de IA, máquinas virtuales, almacenes de datos y más.
Recursos de documentación
Guías
-
Guías de inicio rápido: consola, línea de comandos, bibliotecas de cliente, Explorador de APIs: crear un clúster o Explorador de APIs: enviar un trabajo de Spark
Recursos relacionados
Ejecutar un trabajo de Spark en Google Kubernetes Engine
Envía tareas de Spark a un clúster de Google Kubernetes Engine en ejecución desde la API Jobs de Dataproc.
Introducción a Cloud Dataproc: Hadoop y Spark en Google Cloud
Este curso combina lecciones, demostraciones y laboratorios prácticos para crear un clúster de Dataproc, enviar una tarea de Spark y, a continuación, cerrar el clúster.
Aprendizaje automático con Spark en Dataproc
Este curso combina clases, demostraciones y laboratorios prácticos para implementar la regresión logística mediante una biblioteca de aprendizaje automático para Apache Spark que se ejecuta en un clúster de Dataproc. El objetivo es desarrollar un modelo para los datos de un conjunto de datos multivariable.
Soluciones de programación de flujos de trabajo
Programa flujos de trabajo en Google Cloud.
Migrar datos de HDFS de un entorno local a Google Cloud
Cómo mover datos de un sistema de archivos distribuidos de Hadoop (HDFS) on-premise a Google Cloud.
Gestionar las dependencias de Java y Scala para Apache Spark
En este artículo se describen los enfoques recomendados para incluir dependencias al enviar una tarea de Spark a un clúster de Dataproc.
Ejemplos de la API Python
Llama a las APIs de Dataproc desde Python.
Ejemplos de la API de Java
Llama a las APIs de Dataproc desde Java.
Ejemplos de la API de Node.js
Llama a las APIs de Dataproc desde Node.js.
Ejemplos de la API de Go
Llama a las APIs de Dataproc desde Go.