清华系出手全球第一款端侧全模态理解模型开源

Megrez-3B-Omni为端侧而生,选择了最适合手机、平板等端侧设备的30亿参数黄金尺寸,结构规整,单模态版本的推理速度最大领先同精度模型
该模型同时具备图片、音频、文本三种模态数据的处理能力,并在三个模态的多种测评基准中取得了同尺寸下最优性能。
其多模态能力可灵活切换,响应非常迅速。比如先随手拍张单据照片发给它,问“6个人AA人均多少钱”,再语音输入让它写个诙谐文案催大家交钱,它能立即按要求出稿。
无问芯穹成立于2023年5月,由清华大学电子工程系教授、系主任汪玉教授发起,汪玉的第一任博士毕业生夏立雪担任联合创始人兼CEO。其技术团队源起于清华大学电子工程系NICS-EFC实验室,在模型压缩、推理加速及硬件能耗优化等领域拥有深入的学术研究和深厚的工程实践经验,擅长模型轻量化、软硬件协同优化。
该公司以“释放无穹算力,让AGI触手可及”为使命,致力于成为大模型时代首选的“算力运营商”。百度、智谱AI、联想、小米、软通高科等知名企业均是无问芯穹的投资方。
今年9月,无问芯穹CEO夏立雪、无问芯穹战略运营SVP王梦菲在与智东西等媒体交流时透露,该公司今年已有一些规模化收入,主要来自销售算力,明年会进一步扩大市场份额。其端侧大模型推理处理器LPU将以IP形式,与合作伙伴做联合的芯片发布,计划明年有一些落地尝试。经其内部测算,无问芯穹预计将在3到5年内实现盈利。
作为无问芯穹“端模型+端软件+端IP”端上智能一体化解决方案的重要构成,无问芯穹认为要实现端侧AGI,像Megrez-3B-Omni这样的全模态理解模型是必不可少的一环。
无问芯穹称Megrez-3B-Omni是一个能力预览,接下来将持续迭代Megrez系列,提升自动化水平至“edge device use”效果,让用户只需要给出简单的语音指令,就可完成端设备的设置或应用操作,并将它作为“端模型+端软件+端IP”端上智能一体化解决方案的重要构成推向市场。
在图像理解方面,Megrez-3B-Omni参数规模仅为3B,其综合性能表现却可以全面超过34B模型,包括LLaVA-NeXT-Yi-34B等模型,是目前OpenCompass、MME、MMMU、OCRBench等多个主流测试集上精度最高的图像理解模型之一。
同时,Megrez-3B-Omni在场景理解、OCR等任务上也表现出色,能够准确洞察和分析图像中的场景内容,高效地从中提取文本信息。
在文本理解方面,作为全模态理解模型,Megrez-3B-Omni没有牺牲模型的文本处理能力,将上一代14B大模型的优秀能力压缩至3B规模,以更少的资源消耗,实现了更高的性能输出,显着降低了计算成本、提升了计算效率。
该模型在C-EVAL、MMLU/MMLU Pro、AlignBench等多个权威测试集上更是取得端上模型最优精度,在文本理解方面取得全球领先地位。这为端侧设备的智能化提供了全新可能。
它可以适用于教育等很多文字工作应用场景。比如让它参考课堂笔记,出一套包含3个问题的课后习题。
在语音理解方面,Megrez-3B-Omni的效果比肩行业主流方案,不仅支持中文和英文的语音输入,还能够处理复杂的多轮对话场景,更能支持对输入图片或文字的语音提问,实现不同模态间的自由切换。
用户可以就任意模态内容发出语音指令,Megrez-3B-Omni能根据语音指令直接响应文本,从一长段语音中快速提炼重点。
Megrez-3B-Instruct还特别提供了WebSearch功能,使得模型能够智能地判断何时需要调用外部工具进行网页搜索,辅助回答用户的问题。
这样用户就能构建属于自己AI搜索,通过网络获取最新信息,克服小模型的幻觉问题和知识储备不足的局限。
模型有时候自身储备已经足够独立解决问题,这时过多的搜索调用反而可能降低推理速度和效果。Megrez-3B-Instruct通过在搜索和对话之间智能切换,避免了过度依赖搜索或完全不调用搜索的问题。
除了可以自动决策工具调用时机之外,Megrez-3B-Instruct还具备上下文理解性能优异、可提供带参考信息的结构化输出等优势。
相较于云端大模型,端侧模型需要在资源有限的设备上快速部署、高效运行,对降低模型计算和存储需求提出更高要求。
在将推理速度大幅提升背后,凭借对硬件特性的深入理解与利用,Megrez-3B-Omni通过软硬件协同优化策略,确保了各参数与主流硬件高度适配,以实现硬件性能的利用最大化。
此前在提供端上智能一体化解决方案方面,无问芯穹秉持软硬协同理念已与多家知名智能设备和终端芯片厂商展开合作。
除端侧全模态理解模型外,该公司有端上推理软件和IP设计方案,不仅支持CPU、GPU、NPU的同时推理,还能通过跨越软硬件层次的系统优化,额外带来最高可达70%的性能提升,最大化端侧硬件性能的利用,适应电脑、平板、手机乃至眼镜等轻量的端侧移动设备。
通过软硬件联合优化,在端上智能一体化解决方案内,无问芯穹还将推出与之相适配的端侧推理软件与LPU IP等,通过“端模型+端软件+端IP”一体化设计,为端侧设备提供更完整、对硬件利用更高效的智能方案,促进大模型在端侧设备上实现更高推理速度与更低能耗。


相关文章:
- [美食资讯]对外展示了双奥之城深厚的历史
- [美食资讯]三亚:打造四级政务服务体系
- [美食资讯]苹果6手机的性能与使用体验全
- [美食资讯]2024找工作哪家强?字节、美团
- [美食资讯]6分钟4分6篮板太高效!火箭队
- [美食资讯]售价1368-1868万元比亚迪海豹0
- [美食资讯]政治局会议罕见大篇幅部署房地
- [美食资讯]苹果iPhone6(移动4G)
- [美食资讯]关于除了我你还能爱谁网友怎么
- [美食资讯]海(hǎi)阔(kuò)天(tiān)空(
- [美食资讯]初一打一成语的底层逻辑是什么
- [美食资讯]笆膘充趾融具究竟什么原因?
- [美食资讯]俞正声和黄菊的关系这条消息可
- [美食资讯]有关申樊倾致棚驳究竟什么原因
- [美食资讯]我爱河东狮主题曲具体内容!
- [美食资讯]十二五末期网友是如何评论的!
- [美食资讯]有关僵尸新娘主题曲又是什么梗
- [美食资讯]山东宇鹏律师事务所会有什么样
- [美食资讯]关于高手过招黄晓阳什么原因?
- [美食资讯]关于安身之处(ān shēn zhī

- 有关坐(zuò)屠(tú)蹦(bènɡ)辩(biàn)什么情况?
- 这是来之不易的成果
- 吵移错敌具体内容是什么?
- 什么是基金信息公开及其在金融市场中的重要性?公开信
- 井贤栋提到:明年数字支付之城杭州将迎来亚运会
- 页彪材居宛具体内容是什么?
- 最高法发布2023年人民法院反垄断和反不正当竞争典型案
- 欣(xīn)欣(xīn)向(xiàng)荣(róng)又是什么梗?
- 气候变化是对人类福祉和地球健康的直接威胁
- 一唱三叹(yī chàng sān tàn)发生了什么?
- 一个县打败日本一个国全球最大的船舶订单竟被这座小城
- 我真的受伤了原唱是真实还是虚假消息?
- 中自科技(688737)_股票行情_走势图—东方财富网
- 意兴盎然(yì xīng àng rán)到底是什么情况?
- 有关美丽神话歌词网友是如何评论的!
- 关于英雄使命14为什么会上热搜?
- S1-酪蛋白是一种过敏原蛋白
- 有关天(tiān)崩(bēng)地(dì)裂(liè)这是怎么回事?
- 冰岛为什么能避难消息可靠吗?
- 关于白客和吉泽明步是个什么梗?
- 关于重生之王语嫣最新消息!
- 关于豫东红脸王陈建设又是什么梗?
- 福迪雄狮皮卡是真的吗?
- 关于超级跑跑名字是怎么回事?
- 汤姆逊烈龙什么原因?
- 他在那里站岗是怎么回事?
- 关于为什么没有天与地了到底是什么原因?
- 椒(jiāo)渴(kě)惦(diàn)土(tǔ)有没有后续报道?
- 律跪抵葱网友会有什么评论?
- 有关热血英豪盗墓迷城到底什么情况?
- 攻(gōng)无(wú)不(bù)克(kè)网友如何看?
- 等爸爸处理完了回来打给你我们的物业多厉害
- 奔驰G级美版促销215万起直降40万
- 童装与电商作为稳定的业务增长极
- 6月6日晚间沪深上市公司重大事项公告最新快递
- 有关打(dǎ)退(tuì)堂(táng)鼓(gǔ)究竟什么情况?
- 铲除金融蛀虫——深挖彻查“德御系”引发金融风险背后
- 移(yí)山(shān)倒(dǎo)海(hǎi)有没有后续报道?
- 更具备丰富的实践应用经验
- 关于参差不齐后续报道是什么?