
Gemini 2.5 Computer Use, görsel anlama ve mantıksal çıkarım yeteneklerini kullanarak kullanıcıdan aldığı komutları analiz ediyor ve görevi adım adım yerine getiriyor. Örneğin, bir form doldurabiliyor veya bir web sitesinde belirli bir işlemi tamamlayabiliyor. Google, bu özelliğin kullanıcı arayüzü testlerinde veya API bağlantısı bulunmayan servislerde gezinmek için özellikle yararlı olduğunu belirtiyor.
Google’a göre rakiplerinden iyi

[twitter=https://www.youtube.com/watch?v=slOLc1nkKY0]
Google, yeni modelin çok sayıda web ve mobil benchmark testinde rakiplerinden daha yüksek performans gösterdiğini vurguluyor. OpenAI’ın yeni “ChatGPT Agent” sistemi kullanıcı adına karmaşık görevleri tamamlayabiliyorken, Anthropic de geçtiğimiz yıl Claude modelinin “computer use” yeteneğini tanıtmıştı.
Öte yandan Gemini 2.5 Computer Use, şu anda yalnızca web tarayıcısına erişebiliyor. Yani sistem düzeyinde bir bilgisayar kontrolü söz konusu değil. Model, şu anda 13 farklı eylemi destekliyor. Bu eylemler arasında tarayıcı açmak, metin yazmak, sürükle-bırak işlemleri yapmak ve sayfada gezinmek yer alıyor.
Gemini 2.5 Computer Use, şu anda Google AI Studio ve Vertex AI platformları üzerinden geliştiricilere sunuluyor. Ayrıca Browserbase üzerinde herkese açık bir demo da bulunuyor.