
При длинном промпте нейронка часто меняет местами диалоги, даже при одном и том же промпте - в 4 генераций из 10 нарушен порядок.
Также, если пишешь фразы "cinematic", "wide shot" "film" - любое упоминание "киношной" картинки, сужает кадр, добавляя вверху и внизу черные плашки.
Для большей кастомизации - обязательно прописывать и описание голоса, а не только визуал.
Данное видео создано в режиме text2video, без референсной картинки. Качество не улучшал апскейлерами специально, решил оставить "как есть", для оценки того, что сразу даётся на выходе, без монтажа и доп обработки.