据京东黑板报,6月3日,京东推出JoyAI-Echo长音视频生成框架,径直处治行业弥远存在的“长视频生成三浩劫题”——脚色易崩、声息乱变、生成逐渐。该框架已矣了“对话式裁剪”功能,无需为改一个镜头重跑整条视频。
JoyAI-Echo的发布,象征着京东在长视频生成限制干预群众第一梯队。
该框架包含四项中枢本事立异。一是跨模态音视频牵记库,框架内置有益牵记库,能在多镜头生成过程中握续保存并调用脚色外不雅特征和话语东说念主音色信息。实测成果流露,长达5分钟的视频里,脚色身份、视觉形象和声息音色都能保握高度一致。
二是牵记运转后西宾,团队立异性提议牵记运转后西宾历程,都集SFT、跨模态RLHF和DistributionMatchingDistillation(DMD)本事,仅DMD一项本事就带来约7.5倍的速率培育,让长视频生成从“等半天”造成“秒出片”。
三是DirectorAgent智能导演助理,用户用当然语言说需求,开云体育(中国)官方网站系统会自动拆分红脚本、脚色、场景和镜头。那里不平定,径直用对话姿色告诉它修改,只再行生成有问题的局部镜头,整条视频不必重来。
四是轻量化及时超分,配套有益及时超分模块,撑握736×1280到1152×1920、以及736×1280到1472×2560两档辩别率培育,通过单步超分就能生成高辩别率视频和爽快化音频。
2026世界杯中国压球官网为客不雅评估性能,盘问团队基于100个故事、3000个镜头构建了有益的长音视频生成评测集。成果流露,JoyAI-Echo在跨镜头一致性、视频质料、文本一致性和语音实践准确率等扫数中枢思算上都得到跳动推崇,其中文音实践准确率高达0.8646。在用户偏好调研中,81.7%的用户觉得其音频质料偏好,80.6%觉得辅导词降服偏好,63.6%觉得视觉好意思学偏好,59.4%觉得IP一致性偏好。
JoyAI-Echo的代码与权重已一说念开源kaiyun,当今容貌页和GitHub代码仓库已细腻上线。