智谱,https://zhipuai.cn/
商务合作:service@zhipuai.cn
公司地址:北京市海淀区中关村东路1号院9号楼10层
Copyright © 2024 北京智谱华章科技有限公司
京ICP备20011824号-24
专注中文认知大模型,赋能应用
自主创新的算法、***的中文认知大模型企业
关于智谱
北京智谱华章科技有限公司(简称“智谱”)致力于打造新一代认知智能大模型,专注于做大模型的中国创新。公司合作研发了中英双语千亿级超大规模预训练模型GLM-130B,并基于此推出对话模型ChatGLM,开源单卡版模型ChatGLM-6B。同时,团队还打造了AIGC模型及产品矩阵,包括AI提效助手智谱清言(chatglm.cn)、高效率代码模型CodeGeeX、多模态理解模型CogVLM和文生图模型CogView等。公司践行Model as a Service(MaaS)的市场理念,推出大模型MaaS开放平台(https://open.bigmodel.cn/),打造高效率、通用化的“模型即服务”AI开发新范式。通过认知大模型链接物理世界的亿级用户,智谱基于完整的模型生态和全流程技术支持,为千行百业带来持续创新与变革,加速迈向通用人工智能的时代。
发展历程
2024.01
·
新一代基座大模型GLM-4正式推出,整体性能相比上一代大幅提升,比肩世界先进水平
2023.10
·
推出新一代多模态大模型CogVLM
·
发布全面升级的ChatGLM3模型及相关系列产品
2023.06
·
发布全面升级的ChatGLM2模型矩阵,多样尺寸,丰富场景,模型能力登顶C-Eval榜单
2023.08
·
作为国内首批通过备案的大模型产品,AI生成式助手“智谱清言”正式上线
2023.05
·
开源多模态对话模型VisualGLM-6B(CogVLM)
2023.03
·
发布千亿基座的对话模型ChatGLM及其单卡开源版本ChatGLM-6B,全球下载量超过800万
2022.09
·
发布代码生成模型CodeGeeX,每天帮助程序员编写1000万行代码
2022.10
·
发布开源的100+语言预训练模型mGLM-1B
2022.08
·
发布高精度千亿大模型GLM-130B并开源,效果对标GPT-3 175B,收到70余个国家1000余个研究机构的使用需求
2021.09
·
设计GLM算法,发布拥有自主知识产权的开源百亿大模型GLM-10B
2019.06
·
智谱成立,源自清华技术成果
2020.01
·
专注大模型算法研究
我们的团队
智谱汇集了行业***的人才、算力和数据,我们的愿景是实现“让机器像人一样思考”,让技术更好地服务社会,打造支持不同场景、不同方向的智能应用程序的底层人工智能架构,不断开拓努力实现人工智能的行业普惠。
大模型列表
GLM-4
ChatGLM
GLM-130B
CodeGeeX
CogView
CogVLM
大模型产品
智谱开放平台
智谱清言
大模型能理解多长的视频?GLM-4V-Plus:2小时
GLM技术团队 GLM大模型
2025年01月26日 12:38 北京
图片
在前两代视频模型(CogVLM2-Video和GLM-4V-PLUS)的基础上,我们进一步优化了视频理解技术,推出了GLM-4V-Plus-0111 beta版本。该版本引入了原生可变分辨率等技术,提升了模型对不同视频长度和分辨率的适应能力。
短视频理解更精细: 对于视频长度较短的内容,模型支持原生高分辨率视频,确保细节信息的精准捕捉。
长视频理解更强大: 面对长达2小时的视频,模型能够自动调整至更小分辨率,有效平衡时间与空间信息捕捉,实现长视频的深入理解。
通过此次更新,GLM-4V-Plus-0111 beta版本不仅延续了前两代模型在时间问答方面的优势,更在视频长度和分辨率适应能力上实现了显著提升。
一、性能对比
在近日发布的《智谱 Realtime、4V、Air 新模型发布,同步上新API》一文中,我们详细介绍了GLM-4V-Plus-0111 (beta) 模型在图像理解领域的评测成果。该模型在多个公开评测榜单上均达到了sota水平。
图片
此外,我们还针对权威的视频理解评测集进行了全面测试,同样取得较为***的水平。特别是在视频中细粒度动作理解和长视频理解方面,GLM-4V-Plus-0111 beta模型显著***于同级别视频理解模型。
图片
MVBench: 该评测集由20项复杂视频任务组成,旨在全面评估多模态大模型在视频理解方面的综合能力。
VideoMME w/o subs: 作为多模态评估基准,VideoMME用于评估大语言模型的视频分析能力。其中,w/o subs版本表示不包含字幕的多模态输入,专注于视频本身的分析。
VideoMME w/ subs: 与w/o subs版本相似,但增加了字幕作为多模态输入,以更全面地评估模型在处理多模态数据时的综合表现。
MotionBench: 专注于细粒度运动理解,MotionBench是一个包含多样化视频数据和高质量人工注释的综合基准数据集,用于评估视频理解模型在运动分析方面的能力。
LVBench: 旨在评估模型对长视频的理解能力,LVBench挑战多模态模型在处理长视频任务时的表现,验证模型在长时间序列分析中的稳定性和准确性。
二、场景应用
在过去一年中,视频理解模型的应用领域不断拓展,为新媒体、广告、安全审查、工业制造等行业提供了视频描述生成、事件分割、分类、打标签及事件分析等多样化能力。我们***推出的GLM-4V-Plus-0111 beta视频理解模型,在继承并强化这些基本功能的基础上,进一步提升了视频数据的处理和分析能力。
更准确的视频描述能力: 依托原生分辨率输入及持续的数据飞轮幻觉优化,新模型在视频描述生成方面显著降低了幻觉率,并实现了更全面的视频内容描述,为用户提供了更精准、更丰富的视频信息。
图片
图片
高效的视频数据处理: 新模型不仅具备详细的视频描述能力,还能高效完成视频分类、标题生成和打标签任务。用户可通过自定义提示词,进一步提升处理效率,或构建自动化视频数据流程,实现智能化管理。
图片
精准的时间感知能力: 针对视频数据的时间维度特性,我们的模型自***代起便致力于提升时间问答能力。现在,新模型能够更精准地定位特定事件的时间点,实现视频的语义分割和自动化剪辑,为视频编辑和分析提供强大支持。
图片
精细的动作理解能力: 新模型支持更高帧率输入,即使在视频帧率较低的情况下,也能捕捉到微小的动作变化,实现更精细的动作理解,为需要精确动作分析的应用场景提供了有力保障。
图片
图片
超长视频理解能力: 通过创新的可变分辨率技术,新模型突破了视频处理时长限制,支持长达2小时的视频理解,大幅拓宽了视频理解模型的业务应用场景,以下是一个小时级别视频理解的案例展示:
图片
实时视频通话能力: 基于强大的视频理解模型,我们进一步开发了实时视频通话模型GLM-Realtime,具备实时视频理解和问答能力,通话记忆时长达2分钟。该模型已上线智谱AI开放平台(https://bigmodel.cn/dev/howuse/glm-realtime)并***免费。GLM-Realtime不仅助力客户构建视频通话智能体,还可与现有可联网硬件结合,轻松打造智能家居、AI玩具、AI眼镜等创新产品。
目前,普通用户也可以在智谱清言APP上获得和AI进行视频通话的体验。