Hace poco probé Wan 2.5 , el último modelo de vídeo con IA de Alibaba. Después de todo el revuelo que causó su lanzamiento, tenía curiosidad por ver qué tal funcionaba, y está claro que este modelo trae consigo algunas mejoras notables.
Wan 2.5 se basa en Wan 2.2 con la generación de audio nativa, lo que le permite producir sonido directamente junto con el vídeo: ruido ambiental, música de fondo o incluso una narración de voz diseñada para coincidir con la escena.
Esto lo sitúa a la misma altura que el Veo 3 de Google , que ya ofrece una potente integración de audio. Sobre el papel, Wan 2.5 también promete un movimiento más fluido, una imagen más nítida, una mejor comprensión de las indicaciones y fotogramas más consistentes de principio a fin.
Realicé cuatro pruebas en el mundo real para ver qué tan bien se combinan el audio y los elementos visuales, ya que esta sinergia es lo que separa un buen vídeo de IA de uno excelente.
Vistazo rápido: Wan 2.5 muestra avances.
Wan 2.5 demostró una generación de audio impresionante en varios escenarios, con un ambiente realista y efectos de sonido adecuados. La calidad del vídeo, especialmente para sujetos humanos, fue menos consistente, mostrando momentos sólidos pero también dejando margen de mejora en el realismo y la sincronía labial. En un caso, el audio no se generó en absoluto, lo que sugiere que el modelo aún está en desarrollo para alcanzar una fiabilidad total.
Ejemplos de la vida real de Wan 2.5
Para probar su versatilidad, preparé cuatro prompts diferentes, mezclando escenas realistas y estilizadas, y puntué cada uno en:
- Precisión de audio y concordancia de escena
- Realismo visual y fluidez de movimiento.
- Precisión en el movimiento y las expresiones faciales.
1. Escena de senderismo con amigos — Fluido y natural
Prompt : Dos jóvenes y una joven suben por un sendero de montaña pintoresco, riendo mientras charlan con naturalidad. Una suave brisa mueve las hojas, la luz del sol se filtra entre los árboles y cada uno lleva una mochila. Su conversación distendida y sus sonrisas capturan un momento de relax al aire libre.
Resultado : El ambiente del bosque, la brisa y las risas combinaban de forma natural con las imágenes. Movimiento fluido y sin fallos apreciables.
Puntuación : 8/10 — Un resultado sólido y útil para contenido informal.
2. Mujer en la estación de metro — Buen audio, necesita más vivacidad
Prompt : Una joven asiática está de pie en las escaleras de una estación de metro, sonriendo cálidamente con un teléfono inteligente en la mano. La luz del día se filtra, proyectando sombras tenues sobre su look urbano de calle.
Resultado : Los sonidos de fondo del metro eran creíbles y contribuían a ambientar la escena, aunque su expresión facial y sus movimientos podrían resultar más naturales y dinámicos.
Puntuación : 8/10 — Sonido sólido, margen de mejora en la nitidez.
3. Zorro astuto con traje: un concepto visual cautivador.
Prompt : Un zorro distinguido con un traje impecable lleva una pila de papeles, acercándose a la cámara con paso firme y una sonrisa pícara.
Resultado : El personaje animado tenía un aspecto elegante y expresivo. Sin embargo, esta prueba no produjo audio, lo que sugiere fallos ocasionales en la generación de sonido.
Puntuación : N/A — Falta el audio, el apartado visual es potente.
4. Periodista en directo en la calle — Se oye con claridad, necesita mejor sincronización.
Indicación : Una periodista de pelo corto informa en directo desde una calle concurrida, hablando por encima del ruido del tráfico y el murmullo de la gente.
Resultado : El discurso fue preciso y claro, pero los movimientos de los labios no se alinearon completamente con el audio, lo que hizo que la sincronización fuera menos convincente.
Puntuación : 5/10 — Funciona, pero la sincronización necesita mejoras.
Veredicto final: Una actualización prometedora con potencial.
Wan 2.5 introduce valiosas funciones audiovisuales y puede ofrecer grandes resultados en determinados contextos. Si bien el rendimiento varía según el 'prompt', los buenos momentos demuestran potencial para futuras mejoras y una usabilidad más amplia.
¿Mejor que el Veo 3? Aún no, ya que el Veo 3 sigue siendo más consistente en general. Pero la integración de audio del Wan 2.5 y sus ocasionales imágenes de alta calidad apuntan a un futuro prometedor a medida que la tecnología madure.
Para quién es ideal: Experimentadores, proyectos creativos con la naturaleza o escenas estilizadas, y aquellos abiertos a posibles imperfecciones ocasionales.
Para quién es adecuado: Profesionales que necesiten un realismo preciso y una sincronización perfecta en vídeos centrados en el ser humano.
¿Por qué probar Wan 2.5 en Pollo AI?
Wan 2.5 es una de las varias herramientas de vídeo de IA potentes disponibles en Pollo AI. La plataforma facilita la creación de elementos visuales de alta calidad en infinidad de estilos, e incluye funciones como texto a vídeo , imagen a vídeo y otros generadores avanzados.
También puedes acceder a modelos líderes como Runway , Veo 3 , Seedance , Hailuo AI , Kling AI y PixVerse AI , para que nunca te limites a una sola opción.

Uno de los más destacados es el generador de vídeo de avatares de IA , que convierte una sola foto en avatares realistas con gestos naturales, expresiones faciales realistas y una sincronización labial precisa.

Para una creación rápida y creativa, Pollo AI Shorts produce al instante vídeos cortos (de estilo anime, animal o relajante), además de generar múltiples escenas de una sola vez.

Con su gama de efectos de IA, herramientas personalizables y LoRAs, Pollo AI puede transformar conceptos en vídeos pulidos con tan solo unos pocos clics.
Si quieres explorar la creación de vídeos con IA sin una curva de aprendizaje pronunciada, prueba Pollo AI gratis y descubre adónde pueden llevarte tus ideas.