就在大会召开前夕,本土AI初创公司阶跃星辰开源了两款Step系列多模态大模型——Step-Video-T2V视频生成模型和Step-Audio语音模型。前者参数量达到300亿,可以直接生成204帧、540P分辨率的视频;而后者能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达。