2024년 9월, Alibaba는 자체 AI 비디오 생성 모델인 Tongyi Waniang AI(Wan AI라고도 함)를 공식 출시했습니다. 2025년 1월, Alibaba는 AI 비디오 생성기의 최신 버전인 Wan 2.1을 선보였습니다.
이제 OpenAI 및 Kuaishou와 같은 기술 기업과 치열한 경쟁에 직면해 있지만, Alibaba가 돋보일 만한 것을 가지고 있을까요?
이 질문에 답하기 위해 Wan AI가 AI 시각 콘텐츠 제작에서 왜 그렇게 중요한지에 대한 통찰력을 제공하는 심층 가이드를 만들었습니다.
Wan 2.1: 기본 사항

Wan 2.1은 VAE 및 DiT 기술을 혼합하여 영상의 움직임과 시각적 연결을 개선하여 비디오를 매우 사실적으로 보이게 합니다. 기본적으로 정확한 신체 협응과 부드러운 움직임으로 까다로운 실제 움직임을 복제하는 데 탁월합니다.
이는 대부분의 AI 비디오 모델이 종종 실패하는 발레리나 춤, 수영, 피겨 스케이팅과 같은 복잡한 캐릭터 장면을 렌더링하는 데 사용할 수 있다는 것을 의미합니다. 실제로 현실적인 모션 궤적을 따르는 능력 덕분에 Wan 2.1은 AI 비디오 생성 VBench 순위표에서 최고를 차지하고 있습니다.
이 외에도 이 새 버전은 더욱 향상된 프롬프트 기능을 제공하여 더 빠르고 직관적인 생성을 가능하게 합니다. 이러한 이유로 약 15초 안에 1080p 해상도로 1분짜리 비디오를 생성할 수 있습니다. Wan 2.1에는 T2V-1.3B, T2V-14B, I2V-14B-480P, I2V-14B-720P의 네 가지 변형이 있다는 점도 주목할 만합니다.
140억 개의 매개변수(14B)를 지원하므로 AI 비디오 모델은 이전보다 훨씬 더 많은 입력과 컨텍스트를 해석할 수 있습니다. 2025년 2월, 네 가지 변형 모두 이제 오픈 소스가 되었다고 발표되었습니다. 이로써 Wan 2.1은 일반 사용자와 개발자가 자유롭게 액세스하고 수정할 수 있는 몇 안 되는 AI 비디오 모델 중 하나가 되었습니다.
Wan 2.1에 대한 제 개인적인 의견은?
샘플 비디오 몇 개로 테스트하면서 Wan 2.1을 사용해 보았는데, 몇 가지 복합적인 감정이 듭니다. 첫 번째 시도에서 첫 번째 프롬프트는 다음과 같았습니다. "두 마리의 거대한 용이 중세 왕국 상공에서 격렬한 공중전을 벌이며 불과 혼돈을 내뿜고, 카메라는 아래의 파괴를 보여주기 위해 팬합니다."
생성된 비디오는 다음과 같습니다:
파괴를 포함한 장면은 훌륭해 보였지만, 용은 별로였습니다. 하늘에 얼굴을 마주하고 아무것도 하지 않고 떠 있었기 때문에 움직임이 뻣뻣하고 실망스러웠습니다.
더 자세한 프롬프트로 다시 시도했습니다. "두 마리의 거대한 용이 중세 왕국 위에서 충돌하며, 비늘이 번쩍이고 한 마리가 발톱을 휘두르며 급강하하고 다른 한 마리는 불타는 공격으로 반격하며, 날개를 퍼덕이며 연기 자욱한 하늘을 나선형으로 돌고 피하며, 꼬리가 현실적인 힘으로 휘둘러지고, 카메라는 왕국의 광활한 장면과 전투의 클로즈업 사이를 부드럽게 전환합니다."
이번에는 비디오가 훨씬 나아졌습니다. 용의 움직임은 역동적이고 강렬했으며 자연스러운 물리 법칙을 따랐고, 카메라 전환은 부드럽고 생생했습니다.
제 생각에 Wan 2.1은 특히 VAE 및 DiT 기술을 사용하여 현실적인 움직임을 잘 처리하기 때문에 잠재력이 있습니다. 하지만 제대로 작동하려면 상세한 프롬프트가 필요합니다. 그렇지 않으면 움직임이 평평하게 느껴질 수 있으며, 처음에는 약간 짜증이 났습니다. 하지만 약간의 노력을 기울이면 멋지고 역동적인 비디오를 만들 수 있습니다.
Wan 2.1에서 가장 마음에 드는 기능은 무엇인가요?
Wan 2.1이 Alibaba의 AI 비디오 솔루션을 한 단계 끌어올리는 광범위한 발전을 도입했으며, 다른 AI 비디오 도구와 비교해도 그렇다는 것을 부인할 수 없습니다. 따라서 제 관점에서 standout가 되게 하는 AI 모델의 주요 강점을 분석해 보겠습니다.
우수한 성능
Wan 2.1은 자체 VAE 기술을 사용하여 부드러운 움직임을 손상시키지 않으면서 고해상도 1080p 비디오를 재구성할 수 있습니다. 앞에서 언급했듯이 시각적 세부 사항도 잘 보존하므로 프레임 간 일관성이 비교적 좋습니다.
즉, 프레임 전체에 걸쳐 깜박임이나 왜곡에 대해 걱정할 위험이 적습니다. 또한 Wan 2.1의 VAE 아키텍처는 놀라운 속도로 비디오를 인코딩하고 디코딩할 수 있습니다. 이는 거의 실시간 비디오 생성에 의존할 수 있음을 의미합니다.
다국어 이해
Wan 2.1은 영어와 중국어 원어 텍스트 프롬프트를 모두 이해할 수 있는 최초의 AI 비디오 생성 모델입니다. 이 이중 언어 기능은 애니메이션 텍스트 및 비디오의 모든 종류의 오버레이를 제작하는 데 환상적일 수 있습니다.
또한 Wan 2.1을 사용하여 제품 비디오 또는 원어 대상자를 위한 대화형 튜토리얼에 대한 프롬프트를 훨씬 더 효과적으로 만들 수 있습니다. 또한 이러한 강력한 텍스트 생성 기능은 다른 AI 비디오 모델에 비해 상당한 이점을 제공합니다.
비교할 수 없는 모션 다이내믹
Wan 2.1은 AI 비디오 생성에서 모션 다이내믹에 대한 인상적인 마스터리를 가지고 있습니다. 시각적 미학에서 반드시 선두라고 생각하지는 않지만, 이 AI 비디오 모델은 장면 일관성, 모션 사실성 및 공간 정밀도 간의 부인할 수 없는 균형을 유지합니다.
대부분의 경우 이는 Wan 2.1이 사실적으로 보이고 느껴지는 전문적인 품질의 비주얼을 생성하는 데 적합하다는 것을 의미합니다. 트레일러, 뮤직 비디오, 애니메이션 장면 또는 게임 애셋이든 상관없이 부드럽고 신뢰할 수 있는 결과를 제공할 것이라고 확신합니다.
오픈 소스 액세스
Alibaba는 Wan 2.1을 네 가지 변형을 모두 포함한 무료 오픈 소스 솔루션으로 출시하기로 선택했습니다. 저는 이것이 전 세계의 비즈니스, 브랜드, 개발자 및 크리에이터에게 더 쉽게 접근할 수 있도록 효과적으로 만들기 때문에 이것을 정말 높이 평가합니다.
코딩 전문 지식이 없더라도 Wan 2.1을 쉽게 통합하고 모든 종류의 복잡한 비디오 생성 작업을 자동화할 수 있습니다. 또한 진입 장벽이 낮아지면 더 넓은 AI 커뮤니티에서 혁신을 촉진하는 데 도움이 될 것이라는 점이 마음에 듭니다.
Wan 2.1에 어떻게 액세스하는 것을 선호하나요? Pollo AI 소개
Wan 2.1은 로컬에 설치하거나 개발자의 공식 웹사이트인 Wan.Video를 통해 액세스할 수 있습니다. 그러나 이러한 방법이 AI 비디오 모델을 사용하는 가장 쉬운 방법은 아니라는 점을 알려드리고 싶습니다.
대신 Pollo AI를 사용하는 것을 고려해 보는 것이 좋습니다. 이 플랫폼은 업계 최고의 여러 AI 모델과 통합된 최첨단 올인원 AI 이미지 및 비디오 생성 플랫폼입니다. 일부 모델에는 Runway, Kling AI, Pixverse, Hailuo, Luma AI 및 물론 Wan AI가 포함됩니다.
모두 한 곳에 있으므로 모델 간에 비디오 출력을 직접 비교하기 쉽습니다.
또한 Pollo AI에서는 다양한 종류의 맞춤 비디오를 빠르게 만들 수 있는 수많은 AI 도구와 템플릿에 액세스할 수 있습니다.
특히 Pollo AI는 AI Short Video Generator, 다양한 AI Video Generator(Image to Video 및 Text to Video 포함) 및 AI Avatar Generator를 제공하여 크리에이터에게 광범위한 창의적인 옵션을 제공합니다.
무엇보다도 이 플랫폼은 매우 저렴한 가격 계획을 제공하므로 독특한 기능과 도구를 모두 이용하기 위해 큰돈을 들일 필요가 없었습니다. 하지만 제 말을 곧이들을 필요는 없습니다! 지금 무료 평가판을 통해 Pollo AI를 무료로 확인해 보세요!
Wan 2.1에 대한 제 최종 의견
Wan 2.1은 거의 모든 시각적 스타일로 현실적이고 신뢰할 수 있는 캐릭터 비디오를 제작하는 데 도움이 될 수 있습니다. Kling AI와 같은 다른 경쟁자들과 여전히 치열한 경쟁에 직면해 있지만, 역동적인 모션과 장면 간의 일관성 측면에서는 여전히 무적입니다. 지금 Pollo AI로 이동하여 Wan 2.1로 비디오 생성을 시작하고 어떤 기능을 제공하는지 직접 확인해 보세요!