
Sora использует диффузионную модель для создания сложных сцен с несколькими персонажами и точными деталями объектов и фона. Уникальность Sora заключается в том, что она генерирует видео целиком, а не кадр за кадром, что помогает избежать проблем с изменением объектов при движении или перемещении камеры. На сайте проекта сказано, что модель умеет понимать подсказки и знает, как ведут себя различные объекты в физическом мире.