智库首页
菜鸟教程
开通会员
个人中心
浏览记录
我的收藏
我的订单
退出
我的账户
浏览记录
关闭
清空全部浏览记录
登录
后将能永久保存浏览记录
|
免费注册
关注微信
×
分享资源・传播知识
QQ登录
微信登录
分享资源・传播知识
QQ注册
微信注册
登录即可下载素材
登录查看丰富内容
已有
6,718,781
人加入外唐网
分享资源・传播知识
微信扫码登录
首页
研报库
行业研究报告
行业数据图表
研报机构大全
方案库
营销策划方案
数字化转型方案
短视频传播方案
房地产活动策划
智慧城市设计方案
分析
会员
教程库
菜鸟教程导航
Web 编辑器
正则表达式
SVG 编辑器
更多在线工具
标准库
国家标准
行业标准
地方标准
团体标准
企业标准
国际标准
设计图集
其他标准
1
数字化转型
2
ChatGPT
3
新质生产力
4
碳中和
5
人工智能
您的位置:
魔方智库
>
分析资讯
>
未尽研究:为什么腾讯们必须全链路自研大模型
时间:2023-09-09 来源:www.bootwiki.com 作者:魔方智库 来源: 查看:
741
同行们纷纷上台过后,腾讯混元大模型终于压轴登场。
它拥有超千亿参数规模,预训练语料超2万亿tokens,能减少“胡言乱语”,幻觉相比主流开源大模型降低30%至50%;能识别“陷阱”,面对安全诱导类问题的拒答率提升20%;提高超长文本的处理效果,能一口气生成千字长文。
这个全链路自研技术下的通用大模型,在中文的理科、高考题和数学等子项超过了GPT3.5。它仍在以天为单位加速迭代。
今天腾讯等大模型国家队,证明了全链路自研是可行的,也能帮助其他产业合作伙伴训练出大模型。对内,以腾讯旗下腾讯会议、腾讯文档等产品身上的大模型落地,到面向各行各业推出“模型即服务”,证明以自研推动大模型扮演生产力工具,成为行业长期发展的思路。
对外,中国仍在积极投身全球化,参与竞争,或者合作。以往的传统产业,中国是追赶者,国际标准往往受跨国巨头等主导。随着大模型渗入各行各业,未来它们都将面临洗牌。
各国之间将会重新谈判,建立新的国际标准。中国必须掌握大模型的国际话语权。而只有国内的科技巨头拥有全链路自主的大模型技术,才能上牌桌去对话。
全链路自研 is All You Need
“全链路自研”,几乎成为了国产大模型“国家队”的共同选择。腾讯混元的全链路,贯通了大模型问世所要经历的AI基础设施、机器学习框架、语料库与模型算法等全部环节,从第一个token开始,从零训练。
腾讯没有公开预训练用到了哪些语料。但腾讯拥有国内最优质的文本内容,每天有超过100万篇公众号文章推向读者;多模态内容也在争夺注意力,视频号总用户使用时长同比几乎翻倍。
同时,腾讯自研的新一代HCC高性能计算集群,采用了腾讯云星星海自研服务器,加上自研的星脉高性能计算网络,可以实现超高互联带宽,TB级吞吐能力和千万级IOPS(每秒的输入输出量)。
今年,腾讯还发布了国内首个AI原生(AI Native)的向量数据库,主要用于大模型的训练和推理等场景,如果拿它来处理预训练数据的分类、去重和清洗,可以比传统方式提升10倍效率;如果用它来辅助推理,可以将成本降低2-4个数量级。
为了降低大模型的幻觉,腾讯在预训练阶段创新了“探真”算法,相比市场上主流的开源模型,腾讯混元的幻觉比例下降30%到50%;通过强化学习的方法,让模型学会识别陷阱问题,对安全诱导类问题,拒答率提升20%;通过位置编码优化,提高超长文的处理效果和性能;提出思维链的新策略,让大模型能够像人一样结合实际的应用场景进行推理和决策。
每一步都至关重要。马化腾曾在股东大会上回应,这是几百年不遇的、类似发明电的工业革命一样的机遇,腾讯并不急于把半成品拿出来展示。
大模型需要技术积累,全链路自研尤为如此。腾讯等大模型国家队“都有很多的积累,都在做”,技术布局可以追溯到数年前。近五年来,腾讯的研发投入超过了2300亿。
2015年,谷歌写了一篇论文提醒业界,机器学习模型在持续迭代中积累的“技术债”,会最终让大量的人力物力,消耗在系统建设而非模型本身。腾讯正是那个时候,推出了模型全生命周期管理的太极机器学习平台。
在模型训练方面,腾讯拥有自研的全栈机器学习框架Angle,功能涵盖了机器学习的各个阶段,与Tensorflow互补。几经迭代,打通了Spark和PyTorch等其他主流平台用户的无缝迁移。如今,Angel进一步了升级,包括模型训练Angel PTM与模型推理及压缩Angle HCF,大大加快了大模型的开发迭代。
2017年,腾讯开始布局自研服务器。这就是后来的星星海(Star Lake),广泛应用于腾讯云及业务场景。在此基础上,搭载腾讯自研的星脉 RDMA 网络,诞生了如今的新一代HCC高性能计算集群。
2018年,云与智慧产业事业群(CSIG)组建,腾讯正式拥抱产业互联网,为“电”找到了新的巨大应用场景。从2021年开始,腾讯先后推出千亿和万亿参数的稀疏大模型。2023年9月,腾讯混元大模型正式发布。
软件吃掉世界,人工智能吃掉软件
数据之于大模型,重要性毫不逊色于煤炭与天然气之于电力。提升大模型表现的另一条途径,正是喂给它大规模、高质量、多样化的语料,尤其是那些封闭在旗下业务生态下的自有数据。
大模型国家队们,各自都有着自己的业务数据。拥有搜索引擎与社交媒体业务的互联网巨头,它们手上的数据更为“通用”,涉及方方面面。
谷歌正在研发的Gemini,很可能在只有它才能访问的训练数据——包括带注释的 YouTube 视频、Google 图书中的文本内容以及 Google 学术搜索中的科学、医学和技术方面的学术研究——的帮助下,超越OpenAI的竞品。
腾讯的业务形态丰富,场景众多,这为腾讯训练大模型提供了天然的土壤,也是业界对腾讯大模型充满期待的原因所在。腾讯不会使用微信、QQ等个人数据,但腾讯拥有微信公众号的开放生态,去年一年,微信订阅号累计发布了近4亿篇文章。腾讯拥有腾讯新闻、腾讯医点等专业内容。去年收购了搜狗之后,搜索引擎背后的结构化数据也是训练大模型非常宝贵的数据原料。
软件吃掉了世界,人工智能吃掉了软件。在大模型时代,几乎所有的互联网应用都产生了重新做一遍的机会。也必须重做。
微软凭借着OpenAI,为旗下所有办公、安全、企业服务等全家桶安上了副驾驶(Copilot)。谷歌的Bard一推出,就已为 Google 旗下25 项产品赋能。至今,腾讯混元大模型已经接入腾讯50多个业务并取得初步效果。
对腾讯来说,业界开源大模型或者其他厂商的大模型无法满足高并发业务的要求,更无法为腾讯的产品做深入融合和精调、优化,特别是,如果已经训练好的模型有违法错误信息,从使用方角度很难做更改,这会严重影响产品体验以及技术迭代。对于腾讯来说,在大模型这条道路上,只有“全链路自研”这一条路可走。
大模型带动的一场产业革命
正如电力之于当时正在兴起的工业,进入大模型时代的人工智能,越来越显露出成为数字经济的通用技术的潜力。一些主流大型企业已经开始投资及采用大模型技术。
许多高价值、特定领域的工作流程,依赖于大量的专有数据集,甚至只有少数人类专家才能理解的“商业秘密”。它们中的绝大多数,都不需要从头训练大模型,只需要直接利用底座模型的能力,或者调用外部大模型,或者基于开源模型,再通过微调优化,融入自己的洞见。
大模型的国家队们,都向产业开放了自己的底座大模型,也同时上架了更多第三方大模型。今年6月,腾讯云首先推出了MaaS平台。到了8月,全面接入Llama 2、Falcon等20多个主流模型。如今,腾讯混元大模型正式上线。
中国传统产业的工业软件基础薄弱,实现智能升级,相比美国需要跨越大的技术鸿沟,亟需增值服务。在昨天的会上,腾讯云与中国信通院共同发布了《行业大模型标准体系及能力架构研究报告》。
目前,腾讯已经和1万1千家生态伙伴展开紧密合作,推出了覆盖400多个产业场景的行业解决方案。这些生态伙伴收入,占到腾讯云整体收入的1/3,收入增速是腾讯云增速的4倍。这些生态伙伴越来越需要算力、网络、模型与工具等服务,这同时让云基础设施服务商受益。全链路自研的巨头,受益将更为明显。
在推动大模型落地各行各业过程中,也需要关注大模型本身的可信、可控,这也是科技巨头选择自研的一个重要原因。
以大模型最普遍的“幻觉”问题为例,大模型偶尔举止怪异,生成有害内容、强化偏见和传播虚假信息。它们会被坐拥数亿用户的互联网巨头放大。这就需要减少幻觉的出现。
采用外挂插件,可以一定程度上减少幻觉的产生。但治标不治本。而且,大模型仍然是个黑箱,如果再不自研,就无法全局了解和修正它的风险,甚至无法明确责任在谁。相比于知识图谱增强等手段,直接在预训练阶段进行技术优化更为有效,但门槛也更高。腾讯混元大模型采用了“探真”算法,相比其他开源大模型,幻觉比例下降了30%到50%。但并不是所有厂商都有自研的实力和定力。
算力纾困,通往未来的技术主导权
腾讯不是孤例。这家互联网巨头所做的一切,几乎都能在百度、阿里巴巴等国内的大模型国家队处找到对应的布局。国内巨头共同的追赶对象则是谷歌,它首先提出了Transformer。
与计算框架一样核心的是算力,算力是人工智能最紧缺的资源之一。目前,亚马逊、微软与Meta都面临算力赤字。为了提升表现,大模型越来越大。如果参数规模持续膨胀,按以往的方式训练,成本将令市场难以接受;而且,大模型参数规模增长速度,也超过了摩尔定律,终有一天难以为继。这也是为什么越来越多的论文,探索着其他诸如分布式训练、任务调度优化等方式,进一步提高效率。
中国的算力赤字会更严峻一点。一方面是大模型发展趋势,另一方面则是美国降下的那道“硅幕”。中国只能选择缩水的A800与H800,算力落差相对使用A100或H100的美国同行的正在加大。
仍有不少解决办法。一种方法是将更多性能稍弱或不同类型的芯片集成在一起,这在美国相对少见,因为它的技术挑战难度较大,系统稳定性较差。另一种办法是通过软件技术,降低训练大规模人工智能模型的计算强度,美国也在这么做,但论文显示中国企业更为积极。
今年,腾讯的研究团队发了一篇预印本论文,介绍自研的训练框架Angel-PTM,可以解决类似问题。它将多流异步化做到了极致,在充分利用CPU和GPU进行计算的同时,最大化的利用带宽进行数据传输和通信,使用异构流水线均衡设备间的负载,最大化提升整个系统的吞吐,从而支持以更少的资源和更快的速度训练大模型。
为算力纾困,才能确立自己在未来市场中的技术主导权。这就是为什么大模型国家队们,纷纷自研算力基础设施,并针对性地改进算法与框架。
标签:
相关资讯推荐
>
QuestMobile:2026年一季度AI应用洞察报告
>
QuestMobile:2025年AI应用层发展核心数据概览报告
>
QuestMobile:2025下半年AI应用交互革新与生态落地报告:头部梯队玩家快速变化,垂直赛道新秀迭出,三层渗透实现集团化复用
>
QuestMobile:2025年中国AI终端生态发展研究报告:AI终端三大领域格局初定,场景跃迁与品类爆发共振,大厂发力空间智能
>
QuestMobile:2025年三季度AI应用行业报告:移动端AI应用规模突破7亿大关,模型升级加速,MCP助推产业开放
>
QuestMobile:2025年AI应用市场半年报
>
QuestMobile:2025年5月AI应用行业月度报告:插件形态AI应用崛起,原生AI类APP分化,三大趋势重塑产业大格局
>
QuestMobile:2025年618洞察报告:年轻人、老人关注度增长明显,品牌官方直播崛起,各平台AI深度应用首次模拟考
>
QuestMobile:2025全域AI应用市场报告
>
QuestMobile:2025第一季度AI应用市场竞争分析:行业格局全颠覆,DeepSeek、豆包、腾讯元宝位居TOP3
相关报告推荐
1.
牛津经济研究院:2026年主权人工智能的经济学:在亚太地区平衡自主性、创新与增长报告(英文版)
8
2.
Rand兰德:2026年建立应对人工智能驱动的生物威胁的韧性报告(英文版)
7
3.
麦肯锡:2026年智能体机器人与人类AI如何重塑欧洲的工作与技能研究报告(英文版)
10
4.
国际劳工组织(ILO):2025年人工智能应用能力提升-教师指南报告
14
5.
中投顾问:2026年中国脑机接口行业深度分析报告
26
6.
清华大学战略与安全研究中心:2026年人道行动中负责任使用技术研究报告
26
7.
快手:快手2026年第一季度财报-主营业务稳步提效 可灵AI跑出商业加速度
22
8.
帆软:生成式AI在质量和供应链场景中的落地应用实践指南
28
9.
尼尔森IQ:2026年AI时代核心终端生态定位与用户需求洞察报告
31
10.
中投顾问:2026年智能网联汽车行业深度分析报告
28
视频教程索引
软件专题
Word
Excel
PPT
Photoshop
Adobe DW
Fireworks
Flash
AutoCAD
Illustrator
Sketch
Indesign
ArcGIS
After Effects
ProE
Rhino
Vegas
AutoCAD
Maya
FireWorks
SolidWorks
Axure
Premiere
CorelDraw
编程指导
C++
Java
VB
PHP
C
Vue.js
TypeScript
Node.js
TensorFlow
Android
Swift
Kotlin
Swoole
Ruby
Go
易语言
开发框架
Zoomla
Drupal
WordPress
Magento
Electron
Spring
Struts2
Laravel
ThinkPHP
DeDeCMS
Django
Flask
前端技术
Bootstrap
Foundation
jQuery
ExtJS
React
Weex
mpvue
微信公众平台
名校课程
麻省理工学院
哈佛大学
斯坦福大学
耶鲁大学
普林斯顿大学
加州伯克利
清华大学
北京大学
复旦大学
浙江大学
武汉大学
上海交大
电子科技大学
东南大学
东北师范大学
西安交通大学
哈工大
西南师范大学
安徽大学
同济大学
魔方智库
|
菜鸟教程
|
开发笔记
|
魔方文库
|
大学公开课
|
外语学习
|
公务员辅导
|
司法考试
|
瑜伽教程
|
企业年报库
|
营销方案
|
房地产策划
|
数字化转型
|
w3School
|
报告合集
|
BootWiki