Amazon se apresura a trasplantar el “cerebro” de Alexa con IA generativa
El lanzamiento del asistente de voz actualizado se ve afectado por retrasos, mientras el grupo Big Tech se esfuerza por superar obstáculos técnicos.
Por: Financial Times | Publicado: Martes 14 de enero de 2025 a las 10:40 hrs.
T+
T-
Foto: Reuters
Compartir
Amazon se está preparando para relanzar su asistente digital Alexa, activado por voz, como un “agente” de inteligencia artificial que puede completar tareas prácticas, mientras el grupo tecnológico se apresura a resolver los desafíos que han afectado la revisión de la IA del sistema.
La compañía de US$ 2,4 billones (millón de millones) ha buscado durante los últimos dos años rediseñar Alexa, su sistema conversacional integrado en 500 millones de dispositivos de consumo en todo el mundo, para que el “cerebro” del software se trasplante con IA generativa.
Rohit Prasad, quien dirige el equipo de inteligencia artificial general (AGI, por sus siglas en inglés) en Amazon, dijo al Financial Times que el asistente de voz aún necesitaba superar varios obstáculos técnicos antes de su lanzamiento.
Esto incluye la solución del problema de las “alucinaciones” o respuestas inventadas, su velocidad de respuesta o “latencia” y la fiabilidad. “Las alucinaciones tienen que ser cercanas a cero”, afirmó Prasad. “Sigue siendo un problema abierto en la industria, pero estamos trabajando muy duro para solucionarlo”, aseguró.
La visión de los líderes de Amazon es transformar Alexa, que actualmente todavía se utiliza para un conjunto limitado de tareas simples como reproducir música y configurar alarmas, en un producto “agente” que actúe como un conserje personalizado. Esto podría incluir cualquier cosa, desde sugerir restaurantes hasta configurar las luces del dormitorio en función de los ciclos de sueño de una persona.
Las dificultades de Amazon
El rediseño de Alexa ha estado en marcha desde el lanzamiento de ChatGPT de OpenAI, respaldado por Microsoft, a fines de 2022. Si bien Microsoft, Google, Meta y otros han incorporado rápidamente la IA generativa en sus plataformas informáticas y han mejorado sus servicios de software, los críticos han cuestionado si Amazon puede resolver sus luchas técnicas y organizativas a tiempo para competir con sus rivales.
Según varios miembros del personal que han trabajado en los equipos de asistentes de voz de Amazon en los últimos años, su esfuerzo ha estado plagado de complicaciones y es el resultado de años de investigación y desarrollo de inteligencia artificial.
Varios extrabajadores dijeron que la larga espera para un lanzamiento se debió en gran medida a las dificultades inesperadas involucradas en cambiar y combinar los algoritmos predefinidos más simples sobre los que se construyó Alexa, con grandes modelos de lenguaje más poderosos pero impredecibles.
En respuesta, Amazon dijo que estaba “trabajando arduamente para permitir una asistencia aún más proactiva y capaz” de su asistente de voz. Agregó que una implementación técnica de esta escala, en un servicio en vivo y un conjunto de dispositivos utilizados por clientes en todo el mundo, no tenía precedentes y no era tan simple como superponer un LLM (modelo de lenguaje de gran tamaño) al servicio Alexa.
Prasad, exarquitecto jefe de Alexa, dijo que el lanzamiento el mes pasado de los modelos internos Amazon Nova de la compañía —liderados por su equipo de AGI— estuvo motivado en parte por las necesidades específicas de velocidad, costo y confiabilidad óptimos, para ayudar a las aplicaciones de IA como Alexa a "llegar a esa última milla, que es realmente difícil".
Para funcionar como agente, el “cerebro” de Alexa debe poder llamar a cientos de software y servicios de terceros, dijo Prasad. “A veces subestimamos la cantidad de servicios integrados en Alexa, y es una cantidad enorme. Estas aplicaciones reciben miles de millones de solicitudes por semana, por lo que, cuando se intenta que se realicen acciones confiables a gran velocidad, hay que poder hacerlo de una manera muy rentable”, agregó.
La complejidad surge de que los usuarios de Alexa esperan respuestas rápidas y niveles de precisión extremadamente altos. Estas cualidades están en contradicción con la naturaleza probabilística inherente de la IA generativa actual, un software estadístico que predice palabras en función de patrones de habla y lenguaje.
IA conversacional
Algunos exempleados también señalan las dificultades para preservar los atributos originales del asistente, incluida su consistencia y funcionalidad, al tiempo que le aportan nuevas características generativas como la creatividad y el diálogo fluido.
Debido a la naturaleza más personalizada y conversacional de los LLM, la compañía también planea contratar expertos para dar forma a la personalidad, la voz y la dicción de la IA para que siga siendo familiar para los usuarios de Alexa, según una persona familiarizada con el asunto.
Un exmiembro senior del equipo de Alexa dijo que, si bien los LLM son muy sofisticados, conllevan riesgos, como producir respuestas que “a veces son completamente inventadas”.
“A la escala en la que opera Amazon, eso podría suceder una gran cantidad de veces al día”, afirmó, lo que podría dañar su marca y reputación.
En junio, Mihail Eric, excientífico de aprendizaje automático de Alexa y miembro fundador de su “equipo de modelado conversacional”, comentó públicamente que Amazon había “fallado” al intentar convertirse en “el líder inequívoco del mercado en IA conversacional” con Alexa.
Eric dijo que a pesar de tener un fuerte talento científico y “enormes” recursos financieros, la compañía había estado “plagada de problemas técnicos y burocráticos”, sugiriendo que “los datos estaban mal anotados” y que “la documentación era inexistente o estaba obsoleta”.
Según dos exempleados que trabajaban en inteligencia artificial relacionada con Alexa, la tecnología histórica que sustentaba al asistente de voz había sido inflexible y difícil de cambiar rápidamente, lastrada por una base de código torpe y desorganizada y un equipo de ingeniería "demasiado disperso".
Nuevas tecnologías
El software original de Alexa, creado sobre tecnología adquirida a la startup británica Evi en 2012, era una máquina de preguntas y respuestas que funcionaba buscando dentro de un universo definido de hechos para encontrar la respuesta correcta, como el clima del día o una canción específica en la biblioteca de música de una persona.
La nueva Alexa utiliza una serie de modelos de IA diferentes para reconocer y traducir consultas de voz y generar respuestas, así como para identificar infracciones de políticas, como la detección de respuestas inapropiadas y alucinaciones. La creación de software para traducir entre los sistemas heredados y los nuevos modelos de IA ha sido un gran obstáculo en la integración de Alexa-LLM.
Los modelos contemplan el software interno de Amazon, incluidos los últimos modelos Nova, así como Claude, el modelo de inteligencia artificial de la startup Anthropic en el que Amazon ha invertido US$ 8.000 millones en los últimos 18 meses.
“Lo más desafiante de los agentes de IA es asegurarse de que sean seguros, confiables y predecibles”, dijo el director ejecutivo de Anthropic, Dario Amodei, al FT el año pasado.
“El software de inteligencia artificial tipo agente debe llegar al punto en que la gente pueda realmente confiar en el sistema”, añadió. “Una vez que lleguemos a ese punto, lanzaremos estos sistemas”, afirmó Amodei.
Un empleado actual dijo que aún se necesitaban más pasos, como superponer filtros de seguridad para niños y probar integraciones personalizadas con Alexa, como luces inteligentes y el timbre Ring.
“La confiabilidad es el problema: conseguir que funcione casi al 100% todo el tiempo”, añadió el empleado. “Por eso vemos que nosotros, Apple o Google, hacemos envíos de forma lenta y progresiva”, explicó.
Numerosos terceros que desarrollan “habilidades” o funciones para Alexa dijeron que no estaban seguros de cuándo se lanzaría el nuevo dispositivo habilitado con IA generativa ni de cómo crear nuevas funciones para él.
“Estamos esperando los detalles y la comprensión”, dijo Thomas Lindgren, cofundador de la empresa sueca de desarrollo de contenido Wanderword. “Cuando empezamos a trabajar con ellos, eran mucho más abiertos... pero con el tiempo han cambiado”, comentó.
Otro socio dijo que después de un período inicial de “presión” que Amazon ejerció sobre los desarrolladores para que comenzaran a prepararse para la próxima generación de Alexa, las cosas se habían calmado.
Otro desafío: la rentabilidad
Un desafío permanente para el equipo Alexa de Amazon, que sufrió importantes despidos en 2023, es cómo ganar dinero. Descubrir cómo hacer que los asistentes sean "lo suficientemente baratos como para funcionar a gran escala" será una tarea importante, dijo Jared Roesch, cofundador del grupo de inteligencia artificial generativa OctoAI.
Las opciones que se están discutiendo incluyen crear un nuevo servicio de suscripción a Alexa o tomar una parte de las ventas de bienes y servicios, dijo un exempleado del equipo.
Prasad dijo que el objetivo de Amazon era crear una variedad de modelos de IA que pudieran actuar como “bloques de construcción” para una variedad de aplicaciones más allá de Alexa.
“Siempre nos basamos en los clientes y en la IA práctica. No hacemos ciencia por el mero hecho de hacerla”, afirmó Prasad. “Lo hacemos para ofrecer valor e impacto al cliente, algo que en esta era de IA generativa se está volviendo más importante que nunca porque los clientes quieren ver un retorno de la inversión”, manifestó.