Mit dieser experimentellen Einführung stellen wir Entwicklern ein leistungsstarkes Tool zur Objekterkennung und ‑lokalisierung in Bildern und Videos zur Verfügung. Durch das genaue Identifizieren und Abgrenzen von Objekten mit Begrenzungsrahmen können Entwickler eine Vielzahl von Anwendungen erschließen und die Intelligenz ihrer Projekte verbessern.
Hauptvorteile:
- Einfach:Sie können die Objekterkennung ganz einfach in Ihre Anwendungen einbinden, unabhängig von Ihren Computer Vision-Kenntnissen.
- Anpassbar:Erstellen Sie Begrenzungsrahmen basierend auf benutzerdefinierten Anweisungen (z.B. „Ich möchte Begrenzungsrahmen für alle grünen Objekte in diesem Bild sehen“), ohne ein benutzerdefiniertes Modell trainieren zu müssen.
Technische Details:
- Eingabe:Ihr Prompt und die zugehörigen Bilder oder Videoframes.
- Ausgabe:Begrenzungsrahmen im Format
[y_min, x_min, y_max, x_max]
. Die linke obere Ecke ist der Ursprung. Diex
- undy
-Achse verlaufen horizontal bzw. vertikal. Die Koordinatenwerte werden für jedes Bild auf 0 bis 1.000 normalisiert. - Visualisierung:AI Studio-Nutzer sehen im UI umrissene Rechtecke. Vertex AI-Nutzer sollten ihre Begrenzungsrahmen mit benutzerdefiniertem Visualisierungscode visualisieren.
Python
Installieren
pip install --upgrade google-genai
Weitere Informationen finden Sie in der SDK-Referenzdokumentation.
Umgebungsvariablen für die Verwendung des Gen AI SDK mit Vertex AI festlegen:
# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values # with appropriate values for your project. export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT export GOOGLE_CLOUD_LOCATION=global export GOOGLE_GENAI_USE_VERTEXAI=True