Recopilar registros de Censys

Disponible en:

En este documento se explica cómo ingerir registros de Censys en Google Security Operations mediante Amazon S3. Censys ofrece una gestión integral de la superficie de ataque e inteligencia de Internet a través de su API. Esta integración te permite recoger eventos de descubrimiento de hosts, eventos de riesgo y cambios en los recursos de Censys ASM y reenviarlos a Google SecOps para analizarlos y monitorizarlos. El analizador transforma los registros sin procesar en un formato estructurado conforme al UDM de Google SecOps. Extrae campos del mensaje de registro sin procesar, convierte los tipos de datos y asigna la información extraída a los campos de UDM correspondientes, lo que enriquece los datos con contexto y etiquetas adicionales.

Antes de empezar

Asegúrate de que cumples los siguientes requisitos previos:

  • Instancia de Google SecOps
  • Acceso privilegiado a Censys ASM
  • Acceso privilegiado a AWS (S3, IAM, Lambda y EventBridge)

Recoger los requisitos previos de Censys (credenciales de API)

  1. Inicia sesión en la consola de Censys ASM en app.censys.io.
  2. Ve a Integraciones, en la parte superior de la página.
  3. Copia y guarda los valores de API Key (Clave de API) y Organization ID (ID de organización).
  4. Anota la URL base de la API: https://api.platform.censys.io.

Configurar un segmento de AWS S3 y IAM para Google SecOps

  1. Crea un segmento de Amazon S3 siguiendo esta guía de usuario: Crear un segmento.
  2. Guarda el nombre y la región del segmento para consultarlos más adelante (por ejemplo, censys-logs).
  3. Crea un usuario siguiendo esta guía: Crear un usuario de gestión de identidades y accesos.
  4. Selecciona el Usuario creado.
  5. Selecciona la pestaña Credenciales de seguridad.
  6. En la sección Claves de acceso, haz clic en Crear clave de acceso.
  7. Selecciona Servicio de terceros como Caso práctico.
  8. Haz clic en Siguiente.
  9. Opcional: añade una etiqueta de descripción.
  10. Haz clic en Crear clave de acceso.
  11. Haz clic en Descargar archivo CSV para guardar la clave de acceso y la clave de acceso secreta para usarlas más adelante.
  12. Haz clic en Listo.
  13. Selecciona la pestaña Permisos.
  14. En la sección Políticas de permisos, haz clic en Añadir permisos.
  15. Selecciona Añadir permisos.
  16. Seleccione Adjuntar políticas directamente.
  17. Busca y selecciona la política AmazonS3FullAccess.
  18. Haz clic en Siguiente.
  19. Haz clic en Añadir permisos.

Configurar la política y el rol de gestión de identidades y accesos para las subidas de S3

  1. En la consola de AWS, vaya a IAM > Policies > Create policy > JSON tab (IAM > Políticas > Crear política > pestaña JSON).
  2. Introduce la siguiente política:

    {
      "Version": "2012-10-17",
      "Statement": [
        {
          "Sid": "AllowPutObjects",
          "Effect": "Allow",
          "Action": "s3:PutObject",
          "Resource": "arn:aws:s3:::censys-logs/*"
        },
        {
          "Sid": "AllowGetStateObject",
          "Effect": "Allow",
          "Action": "s3:GetObject",
          "Resource": "arn:aws:s3:::censys-logs/censys/state.json"
        }
      ]
    }
    
    • Sustituye censys-logs si has introducido otro nombre de segmento.
  3. Haz clic en Siguiente > Crear política.

  4. Ve a IAM > Roles > Crear rol > Servicio de AWS > Lambda.

  5. Adjunta la política que acabas de crear y la política gestionada AWSLambdaBasicExecutionRole (para acceder a los registros de CloudWatch).

  6. Dale el nombre censys-lambda-role al rol y haz clic en Crear rol.

Crear la función Lambda

  1. En la consola de AWS, ve a Lambda > Funciones > Crear función.
  2. Haz clic en Crear desde cero.
  3. Proporciona los siguientes detalles de configuración:
Ajuste Valor
Nombre censys-data-collector
Tiempo de ejecución Python 3.13
Arquitectura x86_64
Rol de ejecución censys-lambda-role
  1. Una vez creada la función, abra la pestaña Código, elimine el stub e introduzca el siguiente código (censys-data-collector.py):

    import json
    import boto3
    import urllib3
    import gzip
    import logging
    import os
    from datetime import datetime, timedelta, timezone
    from typing import Dict, List, Any, Optional
    from urllib.parse import urlencode
    
    # Configure logging
    logger = logging.getLogger()
    logger.setLevel(logging.INFO)
    
    # AWS S3 client
    s3_client = boto3.client('s3')
    # HTTP client
    http = urllib3.PoolManager()
    
    # Environment variables
    S3_BUCKET = os.environ['S3_BUCKET']
    S3_PREFIX = os.environ['S3_PREFIX']
    STATE_KEY = os.environ['STATE_KEY']
    CENSYS_API_KEY = os.environ['CENSYS_API_KEY']
    CENSYS_ORG_ID = os.environ['CENSYS_ORG_ID']
    API_BASE = os.environ.get('API_BASE', 'https://api.platform.censys.io')
    
    class CensysCollector:
        def __init__(self):
            self.headers = {
                'Authorization': f'Bearer {CENSYS_API_KEY}',
                'X-Organization-ID': CENSYS_ORG_ID,
                'Content-Type': 'application/json'
            }
    
        def get_last_collection_time(self) -> Optional[datetime]:
            """Get the last collection timestamp from S3 state file."""
            try:
                response = s3_client.get_object(Bucket=S3_BUCKET, Key=STATE_KEY)
                state = json.loads(response['Body'].read().decode('utf-8'))
                return datetime.fromisoformat(state.get('last_collection_time', '2024-01-01T00:00:00Z'))
            except Exception as e:
                logger.info(f"No state file found or error reading state: {e}")
                return datetime.now(timezone.utc) - timedelta(hours=1)
    
        def save_collection_time(self, collection_time: datetime):
            """Save the current collection timestamp to S3 state file."""
            state = {'last_collection_time': collection_time.strftime('%Y-%m-%dT%H:%M:%SZ')}
            s3_client.put_object(
                Bucket=S3_BUCKET,
                Key=STATE_KEY,
                Body=json.dumps(state),
                ContentType='application/json'
            )
    
        def collect_logbook_events(self, cursor: str = None) -> List[Dict[str, Any]]:
            """Collect logbook events from Censys ASM API using cursor-based pagination."""
            events = []
            url = f"{API_BASE}/v3/logbook"
    
            # Use cursor-based pagination as per Censys API documentation
            params = {}
            if cursor:
                params['cursor'] = cursor
    
            try:
                query_string = urlencode(params) if params else ''
                full_url = f"{url}?{query_string}" if query_string else url
    
                response = http.request('GET', full_url, headers=self.headers)
    
                if response.status != 200:
                    logger.error(f"API request failed with status {response.status}: {response.data}")
                    return []
    
                data = json.loads(response.data.decode('utf-8'))
                events.extend(data.get('logbook_entries', []))
    
                # Handle cursor-based pagination
                next_cursor = data.get('next_cursor')
                if next_cursor:
                    events.extend(self.collect_logbook_events(next_cursor))
    
                logger.info(f"Collected {len(events)} logbook events")
                return events
    
            except Exception as e:
                logger.error(f"Error collecting logbook events: {e}")
                return []
    
        def collect_risks_events(self) -> List[Dict[str, Any]]:
            """Collect risk events from Censys ASM API."""
            events = []
            url = f"{API_BASE}/v3/risks"
    
            try:
                response = http.request('GET', url, headers=self.headers)
    
                if response.status != 200:
                    logger.error(f"API request failed with status {response.status}: {response.data}")
                    return []
    
                data = json.loads(response.data.decode('utf-8'))
                events.extend(data.get('risks', []))
    
                logger.info(f"Collected {len(events)} risk events")
                return events
    
            except Exception as e:
                logger.error(f"Error collecting risk events: {e}")
                return []
    
        def save_events_to_s3(self, events: List[Dict[str, Any]], event_type: str):
            """Save events to S3 in compressed NDJSON format."""
            if not events:
                return
    
            timestamp = datetime.now(timezone.utc).strftime('%Y%m%d_%H%M%S')
            filename = f"{S3_PREFIX}{event_type}_{timestamp}.json.gz"
    
            try:
                # Convert events to newline-delimited JSON
                ndjson_content = 'n'.join(json.dumps(event, separators=(',', ':')) for event in events)
    
                # Compress with gzip
                gz_bytes = gzip.compress(ndjson_content.encode('utf-8'))
    
                s3_client.put_object(
                    Bucket=S3_BUCKET,
                    Key=filename,
                    Body=gz_bytes,
                    ContentType='application/gzip',
                    ContentEncoding='gzip'
                )
    
                logger.info(f"Saved {len(events)} {event_type} events to {filename}")
    
            except Exception as e:
                logger.error(f"Error saving {event_type} events to S3: {e}")
                raise
    
    def lambda_handler(event, context):
        """AWS Lambda handler function."""
        try:
            collector = CensysCollector()
    
            # Get last collection time for cursor state management
            last_collection_time = collector.get_last_collection_time()
            current_time = datetime.now(timezone.utc)
    
            logger.info(f"Collecting events since {last_collection_time}")
    
            # Collect different types of events
            logbook_events = collector.collect_logbook_events()
            risk_events = collector.collect_risks_events()
    
            # Save events to S3
            collector.save_events_to_s3(logbook_events, 'logbook')
            collector.save_events_to_s3(risk_events, 'risks')
    
            # Update state
            collector.save_collection_time(current_time)
    
            return {
                'statusCode': 200,
                'body': json.dumps({
                    'message': 'Censys data collection completed successfully',
                    'logbook_events': len(logbook_events),
                    'risk_events': len(risk_events),
                    'collection_time': current_time.strftime('%Y-%m-%dT%H:%M:%SZ')
                })
            }
    
        except Exception as e:
            logger.error(f"Lambda execution failed: {str(e)}")
            return {
                'statusCode': 500,
                'body': json.dumps({
                    'error': str(e)
                })
            }
    
  2. Ve a Configuración > Variables de entorno > Editar > Añadir nueva variable de entorno.

  3. Introduce las siguientes variables de entorno y sustituye los valores por los tuyos:

    Clave Valor de ejemplo
    S3_BUCKET censys-logs
    S3_PREFIX censys/
    STATE_KEY censys/state.json
    CENSYS_API_KEY <your-censys-api-key>
    CENSYS_ORG_ID <your-organization-id>
    API_BASE https://api.platform.censys.io
  4. Una vez creada la función, permanece en su página (o abre Lambda > Funciones > tu-función).

  5. Seleccione la pestaña Configuración.

  6. En el panel Configuración general, haz clic en Editar.

  7. Cambia Tiempo de espera a 5 minutos (300 segundos) y haz clic en Guardar.

Crear una programación de EventBridge

  1. Ve a Amazon EventBridge > Scheduler > Create schedule (Amazon EventBridge > Programador > Crear programación).
  2. Proporcione los siguientes detalles de configuración:
    • Programación periódica: Precio (1 hour).
    • Destino: tu función Lambda censys-data-collector.
    • Nombre: censys-data-collector-1h.
  3. Haz clic en Crear programación.

Opcional: Crear un usuario y claves de gestión de identidades y accesos de solo lectura para Google SecOps

  1. En la consola de AWS, ve a IAM > Usuarios > Añadir usuarios.
  2. Haz clic en Add users (Añadir usuarios).
  3. Proporcione los siguientes detalles de configuración:
    • Usuario: secops-reader.
    • Tipo de acceso: Clave de acceso (acceso programático).
  4. Haz clic en Crear usuario.
  5. Asigna una política de lectura mínima (personalizada): Usuarios > secops-reader > Permisos > Añadir permisos > Asignar políticas directamente > Crear política.
  6. En el editor de JSON, introduce la siguiente política:

    {
      "Version": "2012-10-17",
      "Statement": [
        {
          "Effect": "Allow",
          "Action": ["s3:GetObject"],
          "Resource": "arn:aws:s3:::censys-logs/*"
        },
        {
          "Effect": "Allow",
          "Action": ["s3:ListBucket"],
          "Resource": "arn:aws:s3:::censys-logs"
        }
      ]
    }
    
  7. Asigna el nombre secops-reader-policy.

  8. Ve a Crear política > busca o selecciona > Siguiente > Añadir permisos.

  9. Ve a Credenciales de seguridad > Claves de acceso > Crear clave de acceso.

  10. Descarga el archivo CSV (estos valores se introducen en el feed).

Configurar un feed en Google SecOps para ingerir registros de Censys

  1. Ve a Configuración de SIEM > Feeds.
  2. Haz clic en + Añadir nuevo feed.
  3. En el campo Nombre del feed, introduce un nombre para el feed (por ejemplo, Censys logs).
  4. Selecciona Amazon S3 V2 como Tipo de fuente.
  5. Seleccione CENSYS como Tipo de registro.
  6. Haz clic en Siguiente.
  7. Especifique los valores de los siguientes parámetros de entrada:
    • URI de S3: s3://censys-logs/censys/
    • Opciones de eliminación de la fuente: selecciona la opción de eliminación que prefieras.
    • Antigüedad máxima del archivo: incluye los archivos modificados en los últimos días. El valor predeterminado es 180 días.
    • ID de clave de acceso: clave de acceso de usuario con acceso al bucket de S3.
    • Clave de acceso secreta: clave secreta del usuario con acceso al bucket de S3.
    • Espacio de nombres de recursos: el espacio de nombres de recursos.
    • Etiquetas de ingestión: la etiqueta aplicada a los eventos de este feed.
  8. Haz clic en Siguiente.
  9. Revise la configuración de la nueva fuente en la pantalla Finalizar y, a continuación, haga clic en Enviar.

Tabla de asignación de UDM

Campo de registro Asignación de UDM Lógica
assetId read_only_udm.principal.asset.hostname Si el campo assetId no es una dirección IP, se asigna a principal.asset.hostname.
assetId read_only_udm.principal.asset.ip Si el campo assetId es una dirección IP, se asigna a principal.asset.ip.
assetId read_only_udm.principal.hostname Si el campo assetId no es una dirección IP, se asigna a principal.hostname.
assetId read_only_udm.principal.ip Si el campo assetId es una dirección IP, se asigna a principal.ip.
associatedAt read_only_udm.security_result.detection_fields.value El campo associatedAt se asigna a security_result.detection_fields.value.
autonomousSystem.asn read_only_udm.additional.fields.value.string_value El campo autonomousSystem.asn se convierte en una cadena y se asigna a additional.fields.value.string_value con la clave "autonomousSystem_asn".
autonomousSystem.bgpPrefix read_only_udm.additional.fields.value.string_value El campo autonomousSystem.bgpPrefix se asigna a additional.fields.value.string_value con la clave "autonomousSystem_bgpPrefix".
banner read_only_udm.principal.resource.attribute.labels.value El campo de banner se asigna a principal.resource.attribute.labels.value con la clave "banner".
nube read_only_udm.metadata.vendor_name El campo de nube se asigna a metadata.vendor_name.
comments.refUrl read_only_udm.network.http.referral_url El campo comments.refUrl se asigna a network.http.referral_url.
data.cve read_only_udm.additional.fields.value.string_value El campo data.cve se asigna a additional.fields.value.string_value con la clave "data_cve".
data.cvss read_only_udm.additional.fields.value.string_value El campo data.cvss se asigna a additional.fields.value.string_value con la clave "data_cvss".
data.ipAddress read_only_udm.principal.asset.ip Si el campo data.ipAddress no es igual al campo assetId, se asigna a principal.asset.ip.
data.ipAddress read_only_udm.principal.ip Si el campo data.ipAddress no es igual al campo assetId, se asigna a principal.ip.
data.location.city read_only_udm.principal.location.city Si el campo location.city está vacío, el campo data.location.city se asigna a principal.location.city.
data.location.countryCode read_only_udm.principal.location.country_or_region Si el campo location.country está vacío, el campo data.location.countryCode se asigna a principal.location.country_or_region.
data.location.latitude read_only_udm.principal.location.region_coordinates.latitude Si los campos location.coordinates.latitude y location.geoCoordinates.latitude están vacíos, el campo data.location.latitude se convierte en un valor flotante y se asigna a principal.location.region_coordinates.latitude.
data.location.longitude read_only_udm.principal.location.region_coordinates.longitude Si los campos location.coordinates.longitude y location.geoCoordinates.longitude están vacíos, el campo data.location.longitude se convierte en un valor flotante y se asigna a principal.location.region_coordinates.longitude.
data.location.province read_only_udm.principal.location.state Si el campo location.province está vacío, el campo data.location.province se asigna a principal.location.state.
data.mailServers read_only_udm.additional.fields.value.list_value.values.string_value Cada elemento de la matriz data.mailServers se asigna a una entrada additional.fields independiente con la clave "Mail Servers" y el valor value.list_value.values.string_value definido como el valor del elemento.
data.names.forwardDns[].name read_only_udm.network.dns.questions.name Cada elemento de la matriz data.names.forwardDns se asigna a una entrada network.dns.questions independiente con el campo name definido como el campo name del elemento.
data.nameServers read_only_udm.additional.fields.value.list_value.values.string_value Cada elemento de la matriz data.nameServers se asigna a una entrada additional.fields independiente con la clave "Name nameServers" y el valor value.list_value.values.string_value definido como el valor del elemento.
data.protocols[].transportProtocol read_only_udm.network.ip_protocol Si el campo data.protocols[].transportProtocol es uno de los siguientes: TCP, EIGRP, ESP, ETHERIP, GRE, ICMP, IGMP, IP6IN4, PIM, UDP o VRRP, se asigna a network.ip_protocol.
data.protocols[].transportProtocol read_only_udm.principal.resource.attribute.labels.value El campo data.protocols[].transportProtocol se asigna a principal.resource.attribute.labels.value con la clave "data_protocols {index}".
http.request.headers[].key, http.request.headers[].value.headers.0 read_only_udm.network.http.user_agent Si el campo http.request.headers[].key es "User-Agent", el campo http.request.headers[].value.headers.0 correspondiente se asigna a network.http.user_agent.
http.request.headers[].key, http.request.headers[].value.headers.0 read_only_udm.network.http.parsed_user_agent Si el campo http.request.headers[].key es "User-Agent", el campo http.request.headers[].value.headers.0 correspondiente se analiza como una cadena de user-agent y se asigna a network.http.parsed_user_agent.
http.request.headers[].key, http.request.headers[].value.headers.0 read_only_udm.principal.resource.attribute.labels.key, read_only_udm.principal.resource.attribute.labels.value Por cada elemento de la matriz http.request.headers, el campo de clave se asigna a principal.resource.attribute.labels.key y el campo value.headers.0 se asigna a principal.resource.attribute.labels.value.
http.request.uri read_only_udm.principal.asset.hostname Se extrae la parte del nombre de host del campo http.request.uri y se asigna a principal.asset.hostname.
http.request.uri read_only_udm.principal.hostname La parte del nombre de host del campo http.request.uri se extrae y se asigna a principal.hostname.
http.response.body read_only_udm.principal.resource.attribute.labels.value El campo http.response.body se asigna a principal.resource.attribute.labels.value con la clave "http_response_body".
http.response.headers[].key, http.response.headers[].value.headers.0 read_only_udm.target.hostname Si el campo http.response.headers[].key es "Server", el campo http.response.headers[].value.headers.0 correspondiente se asigna a target.hostname.
http.response.headers[].key, http.response.headers[].value.headers.0 read_only_udm.principal.resource.attribute.labels.key, read_only_udm.principal.resource.attribute.labels.value Por cada elemento de la matriz http.response.headers, el campo key se asigna a principal.resource.attribute.labels.key y el campo value.headers.0 se asigna a principal.resource.attribute.labels.value.
http.response.statusCode read_only_udm.network.http.response_code El campo http.response.statusCode se convierte en un número entero y se asigna a network.http.response_code.
ip read_only_udm.target.asset.ip El campo ip se asigna a target.asset.ip.
ip read_only_udm.target.ip El campo ip se asigna a target.ip.
isSeed read_only_udm.additional.fields.value.string_value El campo isSeed se convierte en una cadena y se asigna a additional.fields.value.string_value con la clave "isSeed".
location.city read_only_udm.principal.location.city El campo location.city se asigna a principal.location.city.
location.continent read_only_udm.additional.fields.value.string_value El campo location.continent se asigna a additional.fields.value.string_value con la clave "location_continent".
location.coordinates.latitude read_only_udm.principal.location.region_coordinates.latitude El campo location.coordinates.latitude se convierte en un valor flotante y se asigna a principal.location.region_coordinates.latitude.
location.coordinates.longitude read_only_udm.principal.location.region_coordinates.longitude El campo location.coordinates.longitude se convierte en un valor flotante y se asigna a principal.location.region_coordinates.longitude.
location.country read_only_udm.principal.location.country_or_region El campo location.country se asigna a principal.location.country_or_region.
location.geoCoordinates.latitude read_only_udm.principal.location.region_coordinates.latitude Si el campo location.coordinates.latitude está vacío, el campo location.geoCoordinates.latitude se convierte en un valor flotante y se asigna a principal.location.region_coordinates.latitude.
location.geoCoordinates.longitude read_only_udm.principal.location.region_coordinates.longitude Si el campo location.coordinates.longitude está vacío, el campo location.geoCoordinates.longitude se convierte en un valor flotante y se asigna a principal.location.region_coordinates.longitude.
location.postalCode read_only_udm.additional.fields.value.string_value El campo location.postalCode se asigna a additional.fields.value.string_value con la clave "Postal code".
location.province read_only_udm.principal.location.state El campo location.province se asigna a principal.location.state.
operación read_only_udm.security_result.action_details El campo de operación se asigna a security_result.action_details.
perspectiveId read_only_udm.principal.group.product_object_id El campo perspectiveId se asigna a principal.group.product_object_id.
puerto read_only_udm.principal.port El campo de puerto se convierte en un número entero y se asigna a principal.port.
risks[].severity, risks[].title read_only_udm.security_result.category_details El campo risks[].severity se concatena con el campo risks[].title y se asigna a security_result.category_details.
serviceName read_only_udm.network.application_protocol Si el campo serviceName es "HTTP" o "HTTPS", se asigna a network.application_protocol.
sourceIp read_only_udm.principal.asset.ip El campo sourceIp se asigna a principal.asset.ip.
sourceIp read_only_udm.principal.ip El campo sourceIp se asigna a principal.ip.
timestamp read_only_udm.metadata.event_timestamp El campo de marca de tiempo se analiza como una marca de tiempo y se asigna a metadata.event_timestamp.
transportFingerprint.id read_only_udm.metadata.product_log_id El campo transportFingerprint.id se convierte en una cadena y se asigna a metadata.product_log_id.
transportFingerprint.raw read_only_udm.additional.fields.value.string_value El campo transportFingerprint.raw se asigna a additional.fields.value.string_value con la clave "transportFingerprint_raw".
tipo read_only_udm.metadata.product_event_type El campo type se asigna a metadata.product_event_type.
- read_only_udm.metadata.product_name El valor "CENSYS_ASM" se asigna a metadata.product_name.
- read_only_udm.metadata.vendor_name El valor "CENSYS" se asigna a metadata.vendor_name.
- read_only_udm.metadata.event_type El tipo de evento se determina en función de la presencia de campos específicos: NETWORK_CONNECTION si has_princ_machine_id y has_target_machine son true y has_network_flow es false, NETWORK_DNS si has_network_flow es true, STATUS_UPDATE si has_princ_machine_id es true y GENERIC_EVENT en el resto de los casos.

¿Necesitas más ayuda? Recibe respuestas de los miembros de la comunidad y de los profesionales de Google SecOps.