Google veröffentlicht Gemini 2.5 Computer Use Modell
Google stellt ein spezialisiertes âGemini 2.5 Computer Useâ-Modell vor, das auf Gemini 2.5 Pro aufbaut und fĂŒr die Steuerung grafischer OberflĂ€chen ausgelegt ist. Das Modell ist als Public Preview ĂŒber die Gemini-API verfĂŒgbar und kann in Google AI Studio sowie ĂŒber Vertex AI genutzt werden. Es adressiert Szenarien, in denen Prozesse nur ĂŒber GUIs zugĂ€nglich sindâetwa Formulareingaben, Filterbedienung oder mehrstufige Webdialoge hinter Logins.
Technisch erfolgt der Zugriff ĂŒber das neue API-Tool computer_use. Der Agent arbeitet in einer Schleife: Aufgabe, Screenshot und Verlauf rein; das Modell schlĂ€gt UI-Aktionen wie Klicken, Tippen oder Scrollen vor; die Client-App fĂŒhrt aus und liefert einen neuen Screenshot zurĂŒckâbis zum Abschluss oder einem Abbruch. Laut Google ist das Modell vor allem fĂŒr Browser optimiert; OS-weite Desktop-Kontrolle ist nicht das Ziel der Preview. Die Funktionsliste und Integrationshinweise dokumentiert Google im Entwicklerbereich.
Zur Leistungsbewertung verweist Google auf Benchmarks wie Online-Mind2Web, WebVoyager und AndroidWorld. Im begleitenden Dokument wird fĂŒr Online-Mind2Web eine durch menschliche Bewertung ermittelte Erfolgsrate von 69 Prozent genannt. ZusĂ€tzlich hat der Anbieter Browserbase Messungen mit identischen Rahmenbedingungen fĂŒr mehrere Computer-Use-APIs durchgefĂŒhrt. Google weist zugleich darauf hin, dass selbstberichtete Ergebnisse zwischen Anbietern schwer vergleichbar sindâetwa wegen DatumsbezĂŒgen und unterschiedlichen Testmengen.
FĂŒr die Praxis betont Google Sicherheitsvorkehrungen: Ein âPer-Stepâ-Dienst bewertet jede vorgeschlagene Aktion vor der AusfĂŒhrung. Entwickler können festlegen, dass bestimmte Schritteâzum Beispiel KĂ€ufe, das Umgehen von CAPTCHAs oder sicherheitsrelevante Eingriffeâverweigert oder nur nach BestĂ€tigung ausgefĂŒhrt werden. Die SchutzmaĂnahmen zielen auf Risiken wie Missbrauch, Prompt-Injections und unerwartetes Modellverhalten im Webkontext. Eigene Tests und Freigaben ersetzen sie nicht.
Einordnung: FĂŒr IT-Teams und Unternehmen Ă€hnelt der Ansatz der Idee moderner RPA, aber mit multimodalem Modell im Kern statt fest verdrahteter Selektoren. Spannend sind wiederkehrende, GUI-gebundene AblĂ€ufe mit klaren Erfolgskriterienâvom Dateneintrag in Portalen bis zu einfachen Backoffice-Tasks. Teams sollten stabile UI-Flows und Audit-Logs vorsehen, Berechtigungen granular steuern und Latenz sowie Kosten beobachten: Der Screenshot-Loop erzeugt naturgemÀà zusĂ€tzliche Runden. Google nennt interne EinsĂ€tze (u. a. UI-Tests) und verweist auf Vorarbeiten wie Project Mariner, den Firebase Testing Agent und agentische Funktionen im âAI Mode in Searchâ.
Wer starten will, findet Zugang in AI Studio und Vertex AI; eine Demo-Umgebung bei Browserbase sowie Referenzimplementierungen erleichtern den Einstieg. FĂŒr Pilotprojekte bieten sich risikoarme Routineaufgaben mit klarer Messung (Schritte, Erfolgsquote, AbbruchgrĂŒnde) an, bevor sensible Prozesse automatisiert werden.
Externer Link zum Thema:
- Beitrag auf dem Google Blog










