Cómo crear videos tutoriales con Gemini Omni
Crear un tutorial con IA no va de hacer el video más espectacular posible. Va de explicar algo paso a paso sin que el espectador se pierda en los primeros diez segundos.
Yo usaría Gemini Omni para crear escenas claras, visuales de apoyo, demostraciones simplificadas y clips explicativos. No lo trataría como un editor mágico que entiende tu curso entero; lo trataría como un modelo para construir cada parte del tutorial con intención.
¿Por qué usar Gemini Omni en Pollo AI para videos tutoriales?
Gemini Omni es útil para tutoriales porque combina generación de video, entradas multimodales y edición conversacional. Eso significa que puedes trabajar con texto, imágenes, audio o video como referencia y luego dirigir cambios paso a paso.
Google DeepMind describe Gemini Omni como un modelo capaz de crear desde cualquier tipo de entrada, empezando por video, y también destaca su edición natural mediante conversación. Para tutoriales, eso me parece enorme, porque un buen tutorial casi siempre necesita ajustes: cambiar el ángulo, simplificar una escena, repetir una acción o hacer que el paso se vea más claro.
|
Característica de Gemini Omni |
Por qué importa en tutoriales |
Mi lectura honesta |
|
Entradas multimodales |
Puedes usar texto, imagen, audio o video como referencia |
Ideal para explicar procesos |
|
Edición conversacional |
Puedes pedir cambios por instrucciones |
Muy útil para corregir escenas |
|
Conocimiento del mundo real |
Ayuda a representar acciones con lógica física |
Bueno para demos educativas |
|
Salida con audio |
Puede generar video con sonido |
Útil, aunque yo revisaría siempre |
|
Seguimiento de prompts |
Respeta pasos y acciones específicas |
Clave para tutoriales claros |
Lo que más me gusta es que Gemini Omni puede ayudar a visualizar pasos que serían lentos o caros de grabar. Pero no escondería la parte difícil: si tu tutorial necesita texto exacto, una interfaz real o datos técnicos precisos, conviene añadir esos elementos manualmente después.
¿Cómo configurar Gemini Omni en Pollo AI para un tutorial?
La configuración básica es abrir Gemini Omni en Pollo AI y ajustar duración, relación de aspecto, resolución, número de salida y audio según la plataforma. Yo empezaría con clips cortos, porque un tutorial se construye mejor por escenas.
- Entra en Gemini Omni en Pollo AI.

- En duración, elige clips cortos para explicar un paso por vez.
- En relación de aspecto, usa 16:9 para YouTube o cursos.
- Usa 9:16 si el tutorial será para TikTok, Reels o Shorts.

- En resolución, elige la calidad más alta que tenga sentido para tu plan y créditos.
- En número de salida, genera 2 o 3 versiones si el paso es importante.

- Activa generar audio si quieres sonido ambiente o una primera versión más completa.
- Desactiva generar audio si vas a añadir voz en off, música o explicación manual.
- Genera una escena por paso, no todo el tutorial en un solo prompt.
|
Ajuste |
Recomendación para tutoriales |
|
Duración |
5-10 segundos por paso |
|
Relación de aspecto |
16:9 para YouTube, 9:16 para redes |
|
Resolución |
Alta si el tutorial será público o comercial |
|
Número de salida |
2-3 para pasos clave |
|
Audio |
Activado para ambiente, desactivado para voz en off |
Yo casi siempre desactivo el audio si voy a narrar. La voz del tutorial debe estar bajo tu control, porque ahí está la claridad.
Paso 1: ¿Cómo planear un tutorial antes de generar video?
La mejor forma de empezar es escribir los pasos antes de tocar el generador. Si no tienes una estructura clara, Gemini Omni solo te dará escenas bonitas pero desordenadas.
Para mí, un tutorial simple tiene esta estructura:
- Problema o resultado final.
- Materiales, herramienta o contexto.
- Paso 1.
- Paso 2.
- Paso 3.
- Error común.
- Resultado final.
- Cierre o siguiente acción.
Antes de generar, yo convierto cada paso en una escena. Un prompt debe explicar una acción, no todo el tutorial.
|
Parte del tutorial |
Qué generar con Gemini Omni |
|
Hook |
El resultado final o el problema inicial |
|
Contexto |
Materiales, herramienta o situación |
|
Paso principal |
Una acción visual clara |
|
Error común |
Algo que el espectador debe evitar |
|
Resultado |
Antes/después o logro final |
|
Cierre |
Visual limpio con espacio para CTA |
Esto hace que el video sea mucho más fácil de editar. También reduce errores, porque no obligas al modelo a mantener demasiadas cosas al mismo tiempo.
Paso 2: ¿Cómo escribir un buen prompt para tutoriales?
Un buen prompt para tutoriales debe explicar sujeto, acción, objetivo, cámara, ritmo y restricciones. No basta con decir “crea un tutorial de cocina” o “explica cómo usar una app”.
Mi fórmula favorita es:
Objetivo del paso + sujeto + acción visual + cámara + estilo + restricción
La parte más importante es el objetivo del paso. Si el modelo no sabe qué debe aprender el espectador en esa escena, el clip puede verse bien pero no enseñar nada.
Ejemplo 1: Tutorial faceless para una herramienta de IA
Este prompt sirve para un video explicativo donde no quieres aparecer frente a cámara. Lo usaría para YouTube, blog, curso corto o redes sociales.
Prompt:
Crea un clip horizontal 16:9 para un tutorial faceless sobre una herramienta de IA. La escena muestra un escritorio moderno con un portátil, una idea escrita en una nota y varias tarjetas visuales que representan pasos: escribir prompt, generar video, revisar resultado y exportar. La cámara se mueve lentamente de arriba hacia abajo. Estilo realista, limpio y educativo. Deja espacio en la parte superior para subtítulos. No incluyas texto pequeño ilegible ni interfaces falsas detalladas.
Me gusta porque convierte un proceso abstracto en una escena visual clara. Después puedo añadir voz en off y subtítulos con mis palabras exactas.
Ejemplo 2: Tutorial de producto físico
Este prompt funciona para productos, manuales rápidos, ecommerce, cocina, belleza, gadgets o DIY. La clave es pedir una sola acción por escena.
Prompt:
Crea un clip vertical 9:16 para un tutorial corto de producto. Una persona coloca un pequeño gadget sobre una mesa limpia, presiona un botón principal y muestra el resultado en primer plano. La cámara empieza en plano medio y se acerca suavemente al producto cuando ocurre la acción. Estilo realista, luz natural, ritmo claro y educativo. Mantén el producto estable y reconocible durante todo el clip. Evita manos deformadas, texto ilegible y objetos extraños.
Yo usaría este clip como “Paso 1” dentro del tutorial. Si el producto debe verse igual, también usaría una imagen de referencia.
Ejemplo 3: Tutorial educativo con concepto visual
Este prompt sirve para explicar temas que no se pueden grabar fácilmente, como finanzas, ciencia, IA, marketing o productividad.
Prompt:
Crea un clip horizontal 16:9 para un tutorial educativo. La escena muestra tres bloques visuales sobre una mesa: problema, proceso y resultado. Una luz suave ilumina cada bloque en orden mientras la cámara se mueve lentamente de izquierda a derecha. El estilo debe ser realista, moderno y fácil de entender. La escena debe comunicar una explicación paso a paso sin usar texto pequeño. Deja espacio para añadir etiquetas y subtítulos después.
Este tipo de clip me gusta porque no intenta reemplazar la explicación, la apoya. En tutoriales, eso suele funcionar mejor que llenar la pantalla de elementos generados.
Paso 3: Usar imagen a video para tener más control
Imagen a video es mejor cuando necesitas consistencia visual. Si el tutorial usa el mismo producto, personaje, escritorio, herramienta o composición, yo empezaría con una imagen limpia y luego la animaría.
Puedes usar imagen a video cuando ya tienes una referencia visual clara. Eso reduce el riesgo de que el modelo cambie el producto, el fondo o el estilo entre pasos.

Prompt:
Anima esta imagen para un tutorial en formato 16:9. Mantén el mismo producto, encuadre, colores, fondo y composición. Añade un movimiento de cámara lento hacia adelante mientras la mano señala la parte principal del producto. La escena debe sentirse clara y educativa. No cambies la identidad del producto, no añadas texto nuevo y no modifiques la iluminación principal.
Paso 4: ¿Cómo crear escenas paso a paso con Gemini Omni?
La mejor forma es generar una escena para cada paso del tutorial. No intentes meter cinco instrucciones en un solo clip.
|
Paso del tutorial |
Tipo de escena recomendada |
|
Paso 1 |
Mostrar herramienta o material |
|
Paso 2 |
Acción principal en primer plano |
|
Paso 3 |
Cambio visible o progreso |
|
Paso 4 |
Resultado parcial |
|
Error común |
Comparación visual |
|
Resultado final |
Antes/después o vista limpia |
Yo escribiría cada prompt con una estructura casi repetida, cambiando solo la acción. Eso mantiene coherencia y reduce sorpresas.
Ejemplo de serie:
- “Muestra el producto sobre la mesa.”
- “Muestra cómo se activa.”
- “Muestra qué cambia después de activarlo.”
- “Muestra el resultado final.”
- “Muestra el error común que debe evitarse.”
Los tutoriales buenos no son los más largos; son los más fáciles de seguir. Gemini Omni puede ayudar mucho si cada escena tiene un propósito claro.
¿Cómo añadir voz, subtítulos y texto?
Yo añadiría voz, subtítulos y texto después de generar los clips. Gemini Omni puede generar video con audio, pero para tutoriales prefiero controlar la explicación final.
Google DeepMind reconoce en su model card que renderizar texto perfectamente exacto sigue siendo un reto para Gemini Omni Flash. Por eso, si necesitas pasos, etiquetas o instrucciones precisas, lo más seguro es añadirlas en edición.
|
Elemento |
Mi recomendación |
|
Voz en off |
Añadir después |
|
Subtítulos |
Añadir manualmente o con editor externo |
|
Texto de pasos |
Añadir en edición |
|
Sonido ambiente |
Puede generarse si no distrae |
|
Música |
Añadir después según plataforma |
Esto también ayuda con SEO y retención. Un tutorial con subtítulos claros suele funcionar mejor que un video bonito sin guía verbal.
Pro tips para mejores tutoriales con Gemini Omni
Los mejores tutoriales salen cuando combinas estructura humana con generación visual. Yo no dejaría que el modelo decida el orden de enseñanza.
- Empieza por el resultado final.
Mostrar el resultado al inicio ayuda a que el espectador sepa por qué debe mirar. - Usa una acción por escena.
Un clip debe enseñar una cosa. Si enseña tres, normalmente no enseña ninguna bien. - Escribe prompts como instrucciones de cámara.
Usa frases como “primer plano”, “cámara estable”, “acercamiento lento” o “vista superior”. - Deja espacio para subtítulos.
Pide fondos limpios y zonas vacías. Después añade texto exacto fuera del modelo. - Genera varias versiones de los pasos clave.
Si un paso es difícil de entender, genera 2 o 3 salidas y elige la más clara. - Revisa el tutorial sin sonido.
Si la acción no se entiende visualmente, la narración tendrá que trabajar demasiado.
Mi regla final: Gemini Omni debe hacer visible el aprendizaje, no decorar el video.
¿Cómo sería mi flujo completo para un tutorial?
Mi flujo completo sería guion, escenas, generación, revisión, voz y edición final. No empezaría generando clips al azar.
- Escribo el resultado que quiero enseñar.
- Divido el tutorial en pasos.
- Creo un prompt por paso.
- Abro Gemini Omni en Pollo AI.
- Ajusto duración, relación de aspecto, resolución, número de salida y audio.
- Genero clips cortos.
- Rehago los pasos confusos.
- Añado voz en off y subtítulos.
- Ordeno los clips con ritmo claro.
- Reviso continuidad, texto y precisión.
- Exporto para YouTube, TikTok, Reels o curso.
Lo importante es no saltarse la revisión. Un tutorial puede verse profesional y aun así explicar mal. Yo prefiero un video más simple que enseñe bien a uno espectacular que confunda.
Empieza a crear hoy
La forma más práctica de empezar es crear un tutorial de 30 a 60 segundos. Elige una tarea simple, divídela en tres pasos y genera una escena con Gemini Omni para cada paso.
Yo empezaría con algo pequeño: cómo usar una función, cómo preparar un producto, cómo explicar un concepto o cómo mostrar un antes/después. Cuando el flujo funciona en corto, puedes escalarlo a tutoriales más largos.