캐릭터가 말을 하게 만드세요. 불쾌한 골짜기(Uncanny Valley)를 넘어 자연스러운 대화 영상을 만드는 법.
정지된 캐릭터 이미지와 녹음된 목소리(TTS)만 있다면, AI가 입모양을 자동으로 맞춰줍니다. ElevenLabs로 목소리를 만들고, SadTalker나 HeyGen으로 입을 움직입니다. 핵심은 '감정 일치'입니다. 화난 목소리에는 화난 표정이 필요합니다.
Viseme은 'Visual Phoneme'의 약자로, 특정 소리를 낼 때의 입 모양을 뜻합니다. AI는 오디오 파형을 분석하여 이 Viseme을 매 프레임마다 배치합니다.