3D视窗网
加入收藏 | 设为首页 | RSSrss
3D视窗网
 
您当前的位置:首页 > 快讯

?Sora还没来,但腾讯版?Sora来了

2024-12-04 12:31:51  证券之星   阅读:4944次   阅读量:18341   

距离OpenAI发布文生视频模型Sora已经过去了10个月,但至今Sora尚未对公众开放,仅面向少数专业人士进行内测。

这10个月,也给了其他国内外头部模型厂商追赶的时机,海外的Runway、Luma、Pika,国内的快手可灵、字节即梦、智谱清影相继发布文生视频模型。

12月3日,腾讯混元大模型带着最新的文生视频功能来了,并开源视频生成大模型HunYuan-Video,该模型参数量达130亿,这是当前最大的视频开源模型。

目前,HunYuan-Video已向公众和企业开放试用申请。

腾讯混元相关负责人告诉经济观察网,HunYuan-Vieo生成的单个视频最长时长为5秒,在标准模式下生成一个视频所需时间为120秒。

HunYuan-Vieo不仅能实现文生视频模型的基础能力,比如生成画面符合提示词、流畅、不易变形等,而且具备一些独特的能力。尤其是,HunYuan-Vieo能够在保持画面主角不变的情况下,自动切换镜头,这是目前业界大部分文生视频模型不具备的能力。

为了达到这些独特的能力,腾讯混元进行了专项能力的微调,包括画质、高动态、艺术镜头、手写、转场和连续动作六个方面。

腾讯混元相关负责人介绍,在生成某个指定画面上,国内外文生视频模型目前的成功率都不太高,用户需要多次“抽卡”,才能得到一个满意的画面。与相对成熟的文生图相比,文生视频的能力还在比较早期阶段。

他进一步解释原因,一方面是因为视频生成的门槛较高、技术难度大。“文生图只需要一次出一张图,而文生视频,以HunYuan-Video为例,平均帧率为129帧/秒,每一帧画面都要精准、流畅,这其实非常难。”

另一方面,文生视频开源社区还不够繁荣。开源能促进模型的发展,对于独立开发者和开源社区是一个1+1远大于2的事。这也是腾讯混元系列模型坚持开源的重要原因。

相比之下,图像生成开源社区里已经汇集了较多的独立开发者,他们依托开源模型,制作了丰富的插件、小模型等,部分也具有应用与商业价值。

开源是腾讯混元系列模型一以贯之的做法。从年初以来,腾讯已经开源了文生文、文生图和3D生成大模型。此次HunYuan-Vieo开源背后的成本或更高,腾讯混元相关负责人表示,视频生成模型所需的算力和数据消耗量,与图像生成模型之间具有指数级的差距。

据介绍,HunYuan-Vieo首个版本主要有4大特色:一是画质偏写实,二是进行大幅度动作时仍具有流畅性,三是能够理解复杂文本以及进行多主体交互;四是支持原生转场,主体保持直出的同时多镜头切换。

这背后的技术原理主要有4点:

一是建立一套超大规模数据处理系统,其中涵盖了图像和视频数据混合处理,以及文字检测、转景检测、美学打分、动作检测、动作打分、准确度检测、清晰度检测等;

二是引入多模态大语言模型作为文本编码器,能提升文生视频模型对复杂文本的理解能力;

三是采用自研的全注意力DiT,在做到更大参数的同时,也带来更高性能。这种全注意力机制模仿了人类注意力机制,在数据处理时只集中于最相关的部分,忽略其他可见的信息,能够让文生视频模型保持主体一致的前提下,进行多镜头切换;

四是采用自研图像视频混合VAE提升模型细节表现,重点优化人脸占总画面的比例太小,以及高速镜头下人脸模糊、画面抖动等问题。

声明:以上内容为本网站转自其它媒体,相关信息仅为传递更多企业信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。投资有风险,需谨慎。
   
推荐资讯
汇聚千万热爱,一汽丰田千万用户达成
汇聚千万热爱,一汽
税务部门持续开展“便民办税春风行动”去年121条措施全部落地
税务部门持续开展“
《收获日3》Steam页面上线,2023年发售
《收获日3》Ste
年内首批上会企业敲定莱斯信息闯关科创板
年内首批上会企业敲
最新资讯
热门阅读
  1. 千城百县看中国|湖北巴东:川金丝猴种群数量
  2. 奇瑞集团单月销量首次突破28万辆1-11月
  3. “SDGsNEXT”“SDGsNEXT”国
  4. 鸿蒙智行11月交付量41931辆,百万尊界
  5. 公交司机高志伟英勇擒贼,书院镇见义勇为风尚
  6. 财经聚焦·关注政策“组合拳”落地见效丨“真
  7. 《时代周刊》选中的2024年度最佳户外品牌
  8. 人民财评:由“通”到“畅”再到“好”,修人
  9. 估值曾超500亿,“折叠屏鼻祖”柔宇破产
  10. 2024海南东坡文化巅峰唱作营“巅峰之夜”
Copyright © 2014- 3d.s-sound.net All Rights Reserved. [ 3D视窗网 ]版权所有
网站地图  备案号:豫ICP备2022007296号  邮箱:boss_11@teag.net