Google reacciona rápido y se mantiene en carrera con su Inteligencia Artificial. Todos los detalles de la conferencia de desarrolladores Google I/O 2024.
14 de mayo 2024, 16:09hs
Google lanzó en diciembre su potente Inteligencia Artificial: Gemini. El gigante de internet, dispuesto a competir a capa y espada con OpenAi y su ChatGPT se propuso desarrollar el cerebro informático más fuerte y dúctil. Con el poder de todas las herramientas que usamos a diario en sus manos (mail, buscador, mapas, asistente, etc), ahora anunció en su nuevo servicio estrella y cómo se van a fusionar con cada una de las herramientas de usos cotidiano.
Gemini ya era capaz de razonar con textos, imágenes, video, audio y códigos, a través la comprensión masiva de lenguaje multitareas. Ahora la empresa afinó las características y espera cada día incorporarlo a cada uno de sus servicios.
Leé también: Sam Altman, el CEO de OpenAI, alerta sobre las IAs: “Podrían ser capaces de generar daños significativos”
Cada una de las características las iremos desmenuzando de a poco, pero un breve resumen de algunos de los updates que anunció Sundar Pichai, CEO de Google.
Gemini: un modelo más rápido y con un mayor contexto
Google anunció toda una serie de actualizaciones. Una es el Gemini 1.5 Flash. Hasta ahora estaban Nano -la más sencilla, en forma de aplicación para teléfonos celulares, Pro y Ultra, la más potente herramienta de IA para tareas de gran complejidad.
Gemini 1.5 Flash promete ser liviano, pero con más velocidad y eficiencia. Incorpora mucho más contexto, amplió sus capacidades de razonamiento con grandes cantidades de información y tiene mejor rendimiento. Está optimizado para tareas de gran volumen y alta frecuencia a escala.
Según especificó Demis Hassabis, CEO of Google DeepMind, se destaca en resúmenes, aplicaciones de chat, subtítulos de imágenes y videos, extracción de datos de tablas y documentos extensos: “1.5 Pro ahora puede seguir instrucciones cada vez más complejas y matizadas. También agregamos comprensión de audio en Gemini API y Google AI Studio, por lo que 1.5 Pro ahora puede analizar imágenes y audio para videos cargados en Google AI Studio”.
En cuanto a Gemini Nano, estan expandiendo las entradas para que no sean solo de texto, sino también de imagen, sonido y lenguaje hablado, para los usuarios de Pixel.
Leé también: La predicción de Bill Gates sobre la inteligencia artificial que cambiará el mundo en solo 2 años
También anunciaron Gemma 2, de la familia de modelos abiertos para “la innovación responsable en IA”.
Un asistente que no solo te ayude: que haga
Otra de las actualizaciones más esperadas es el Proyecto Astra, que apunta a que los futuros asistentes de IA que realmente les hagan la vida más fácil a las personas. La idea no es solo que los asistentes nos ayuden, sino que sepan tomar decisiones por nosotros
“Para ser verdaderamente útil, un asistente necesita comprender y responder al mundo complejo y dinámico tal como lo hacen las personas, y asimilar y recordar lo que ve y oye para comprender el contexto y tomar medidas. También debe ser proactivo, fácil de enseñar y personal, para que los usuarios puedan hablar con él de forma natural y sin retrasos ni demoras”, explicó Hassabis.
El desafío es el tiempo de respuesta. Entre que el modelo recibe la información, razona y conversa, el tiempo puede no ser natural. Estos asistentes pueden comprender mejor el contexto en el que se los utiliza y responder rápidamente en la conversación.
Herramientas para creadores de contenido: Image 3 y Veo
Google también actualizó sus herramientas de generación de medios con inteligencia artificial generativa. Veo es el conversor de texto a video, Image 3, el modelo de generación de imágenes de alta calidad, y sumó más pistas en el generador de música por IA.
“Veo genera videos de alta calidad con resolución de 1080p que pueden durar más de un minuto, en una amplia gama de estilos visuales y cinematográficos”, especificó Eli Collins, Vice President, Product Management. El modelo puede ser mucho más realista con prompts más detallados. Comprende términos cinematográficos como “timelapse” o “tomas áreas”. Las imágenes son más coherentes y los movimientos más realistas.
Por ahora, Veo solo está disponible para creadores seleccionados. El cineasta Donald Glover y su estudio experimentaron con Veo para un proyecto cinematográfico. En el futuro, lo incorporarán a Youtube Short y otros productos Google.
Image 3, el generador de imágenes a partir de texto, promete ahora comprender mejor el mensaje y la intención detrás de ese mensaje, para producir imágenes más realistas. También abre la posibilidad de generar tarjetas de cumpleaños personalizadas, diapositivas con títulos para presentaciones, etc.
Música generada por IA
Uno de los desarrollos de la inteligencia artificial que trajo más polémica es, sin dudas, la generación de música por IA. Una larga fila de artistas protestó, pero los proyectos siguen avanzando, como todo.
En este terreno aparece Lyria, el modelo de Google de generación de música por IA y Music AI Sandbox, un conjunto de herramientas de inteligencia artificial musical. Ya hay demostraciones en YouTube, en los canales de los músicos Wyclef Jean, Marc Rebillet y Justin Tranter,
IA generativa en las búsquedas de Google
Esta es una de las ideas más interesantes y de uso cotidiano que se presentaron. La integración de la inteligencia artificial generativa en las búsquedas que hacemos en internet a diario. Y no es casual que el ejemplo haya sido con recetas o con pilates. La ambiciosa pretensión es que Google conozca a cada usuario e interprete más allá de la primera búsqueda y ahorrarle las preguntas más complejas que se suelen hacer para llegar al resultado deseado.
El proyecto, llamado AI Overviews, reúne las capacidades avanzadas de Gemini, incluido el razonamiento de varios pasos, la planificación y la multimodalidad, con los sistemas de búsqueda de Google search. “A veces desea una respuesta rápida, pero no tiene tiempo para reunir toda la información que necesita. La búsqueda hará el trabajo por usted con las descripciones generales de IA”, expresó Liz Reid, VP, Head of Google Search.
Google incorporará Gemini a Google Photos y Google Workspace
Con el objetivo de hacer más fácil y rápida la búsqueda de imágenes, Google incorporará inteligencia artificial a su app de fotos. La idea es ayudar a los usuarios a encontrar imágenes a partir de una pregunta. Hasta ahora, solo se podía buscar a través de etiquetas que Google ponía de manera automática. Con la nueva tecnología, se podrá hacerle preguntas y la IA buscará en las fotos para dar la respuesta.
Gemini también estará presente dentro del Google Workspace, el entorno de aplicaciones en la nube de la empresa. Esto significa que la inteligencia artificial ayudará a encontrar emails, podrá resumirlos y destacar lo más interesante, por ejemplo.
¿Y si en vez de buscar con texto buscamos con video?
“A menudo las preguntas que tienes son sobre las cosas que ves a tu alrededor, incluidos los objetos en movimiento”, dice Google. Y sí, a veces sí. Así que proponen que puedas hacer preguntas con un video. Algo que compraste o que tenés en tu casa no funciona bien. Filmás el fallo y la búsqueda con video te ahorra el tiempo y la molestia de encontrar las palabras correctas para describir el problema. La IA te devolverá una descripción general, con pasos y recursos para solucionar el problema.
El poder de procesamiento, el valor clave en la era de la IA
La IA generativa está transformando la forma en que interactuamos con la tecnología, pero esto implica que a la par del desarrollo de los modelos inteligentes, hay que desarrollar más capacidades de memoria y procesamiento.
Hace poco más de un mes. Sam Altman, creador de OpenAI, ya vaticinó que el poder de procesamiento va a ser “la moneda del futuro” y se transformará en el bien “más preciado del mundo”.
En línea, Google anunció Trillium, una unidad de procesamiento de sexta generación, “el TPU de mayor rendimiento y mayor eficiencia energética hasta la fecha”, según Amin Vadhat, VP/GM, ML, Systems & Cloud AI.
Duplicaron la capacidad y el ancho de banda de la memoria de alto ancho de banda (HBM), y duplicaron el ancho de banda de Interchip Interconnect (ICI). Además, Trillium está equipado con SparseCore de tercera generación, un acelerador especializado para procesar incrustaciones ultragrandes comunes en cargas de trabajo de clasificación y recomendación avanzadas.
Y, otro tema clave, Google asegura que los TPU Trillium un 67% más eficientes energéticamente que sus predecesores.
Gemini llega a Android
La inteligencia artificial de Google también se integrará con Android. Entre las varias características que contarán los smartphones que usen el sistema operativo, hoy se presentó Circle to search, una función para reconocer el contenido de una imagen y generar una búsqueda o solucionar un problemas.
Según explicó Google, esta tecnología es capaz de resolver ecuaciones matemáticas, identificar fórmulas y diagramas, por ejemplo.
Gemini también ayudará a identificar llamadas telefónicas y detectar si se tratan de estafas. La IA podrá monitorear el llamado y alertar al usuario sobre un posible fraude.