华为不想走ChatGPT的老路

日期:2023-07-12 13:45:41 / 人气:301

经过上半年的喧嚣,ChatGPT带来的大模特热潮正在迎来第一轮冷静期。今年6月,ChatGPT的访问人数首次出现下滑,年初接入ChatGPT聊天功能的新版微软Bing的市场份额近期也出现下滑,甚至低于改版前。
一切都表明,大模型赛道“看热闹”的时刻已经过去,市场正在对大模型的实用性提出更高的要求。相比C端市场的集体狂欢,现在大家更关心的是大模式如何在B端行业落地,只“聊天”的大模式已经不能满足需求。
出现了新的竞争局面。就在刚刚过去的人工智能大会上,一批聚焦不同行业和场景的大模型开始涌现。从华为、腾讯、阿里到科大讯飞等等。,都是想让大模特落在商业层面。相比过去“写诗画画”的卖点,现在人们更关心的是如何让大模型帮助用户解决实际问题。
可以说主流的大模型玩家终于准备好踏踏实实做实事了。
作为中国最早的科技巨头,华为早在2021年就推出了盘古模型1.0。然而在今年的行业热潮中,我们并没有拿出自己的产品。直到7月6日的世界人工智能大会,华为轮值董事长胡才正式宣布发布盘古3.0,并提到人工智能未来发展的关键是“深入现实”,赋能产业升级。7月7日,在华为云开发者大会(HDC2023)上,华为云正式发布了盘古大模型3.0版本。
与ChatGPT不同,盘古3.0并不是一个专注于“聊天”的大模式。华为甚至提到盘古大机型一段时间内不会对个人用户开放,这不是产品的主要方向。虽然华为没有透露这个时间有多长,但至少证实了“聊天”不是盘古模型研发的重点。
“我们从来没有和ChatGPT比过,既不聊盘古,也不聊盘古,我们没有时间聊天”。华为常务董事、华为云CEO张平安在7月7日的媒体沟通会上提到过。
据华为介绍,盘古3.0大模型不是单一的大模型,而是一系列大模型集群和工程应用平台,分为三个层次,不仅包括底层(L0)的通用大模型,还包括第二层(L1)的行业大模型和第三层(L2)的细分场景模型。
应该说,在整个大型模型赛道都在比拼谁更擅长写诗画画的时候,盘古3.0选择了一条全新的道路。其优势不仅在于通用能力的迭代,更在于专业能力的进化,以满足不同行业和场景的多样化需求。
华为已经清醒地认识到,大机型要想真正落地,必须落地解决实际需求。大型模特要想生存,在不同的行业和场景下,必须具备较高的专业和实践能力。
不要成为下一个ChatGPT
我们需要什么样的大模型?当ChatGPT以意想不到的速度风靡全球的时候,也许就连顶尖的科技巨头也没有想清楚这个问题的答案。微软迫不及待地对其搜索引擎“Bing”进行激进修改后,事实证明效果并不理想。
但大家都相信,随着生成性AI的智能水平跨越特定节点,它将彻底重塑整个世界的生产模式——效果可能不亚于计算机带来的上一轮信息革命。
在这场大模团战中,作为最新一个进入大模赛道的国内科技巨头,华为选择了从最好的to B进入市场,经过上半年的“折腾”,整个大模赛道已经逐渐意识到,虽然To C市场热闹,但最终大模还是要深度执行,才能落地商用层面。
“华为的大模式不做诗,只做事。”7月7日在华为云开发者大会上正式发布盘古3.0时,华为董事总经理、华为云CEO张平安如此表示。
作为国内最早投入大机型研发的厂商,华为早在2021年就推出了盘古1.0机型,正式发布的盘古3.0是对盘古1.0的重大升级。就像从GPT3.0升级到GPT4.0一样,盘古3.0也是一次革命性的迭代,走了一条与ChatGPT完全不同的道路。
三年磨一剑。近两三年来,盘古模式在架构和训练方式上都有了很大的升级。
架构方面,盘古3.0首创三层架构,底层是CV(视觉)、NLP(中文发音)、多模态、预测决策、科学计算、搜索推荐等一系列通用大模型。第二层是采矿、气象、药物分子、电力、金融等行业的大模型,第三层是解决具体问题的场景模型,具有高度定制化的功能特点。
在训练方式上,盘古3.0也升级了一套从通用到专用的训练模式,既有业内常见的前期训练方式,又有通用的大型模型训练能力。同时增加了有针对性的专项培训,可以通过SFT数据进行微调,满足不同行业的需求,还有RHLF培训,可以针对客户的标签和反馈进行强化学习。
此外,作为业界首个完全分层解耦的大规模模型集群,盘古3.0区分了自己不同的能力,而不是像ChatGPT那样直接打包成巨无霸模型,让用户按需访问。
总的来说,盘古3.0的所有能力都可以独立运行,互不干扰。因为不同行业不同客户的需求不一样,比如铁路行业可能主要需要可视化模型的能力,气象行业可能主要需要科学计算的能力。分层解耦设计适合不同行业的定制需求。
“分层解耦模式可以很好的构建大模式的商业模式,让行业客户像抓药一样,想吃什么就吃什么。”张平安在7月7日的一次媒体采访中提到了这一点。
依托于全新的三层架构和分层解耦能力,盘古大模型的核心定位是赋能各行各业,其中华为主要专注于通用知识的L0级和L1级。
当然,无论在架构和能力上有什么创新,大模型的核心竞争力最终还是体现在训练结果上,而这必须依靠庞大的数据量和计算能力。
数据方面,盘古模型的预训练数据包含了超过3万亿的tokens,超过100TB的数据用于训练,指令微调数据也在千万量级。而且相对于其他通用大模型,盘古行业大模型还利用了很多行业开放客户数据和行业客户授权数据进行训练,有针对性的行业数据训练进一步提升了盘古3.0解决行业问题的能力。
在计算能力方面,由于众所周知的原因,华为无法使用通用的GPU架构,只能自建框架和平台。据张平安介绍,盘古大模型的计算能力是基于华为的上升式AI计算集群,核心是达芬奇架构的上升式芯片的神经网络计算。但据华为介绍,盘古3.0基于升序AI集群的模型训练效率比GPU架构高1.1倍。
为了进一步提升算力规模,张平安在7月7日的大会上宣布,单集群2000P Flops算力的Ascending AI云服务在华为云乌兰察布和贵安AI计算中心同时上线。相对于风靡全球的GPU架构,未来的上升式AI计算集群希望成为国内AI计算能力的另一极。
盘古大模型凭借多重创新,在多项能力上实现了行业领先,其中盘古NLP大模型是业内首个拥有千亿级参数的中文大模型,具有强大的文本理解和生成能力,而CV大模型首次兼顾了图像判别和生成能力,在ImageNet 1%和10%数据集上的小样本分类准确率达到行业最高水平。
从6月份开始,很多AI行业的人都承认,年初ChatGPT火爆的时候,整个行业有一些炒作。当所有企业都在争相发布同一个大聊天模式的时候,也预示着这个方向可能开始陷入某种误区。
今年2月,任在“难题揭示”星火奖座谈会上提到,未来,AI大模型将风起云涌,不只是微软一家。人工智能软件平台公司对人类社会的直接贡献可能不到2%,98%都是工业社会和农业社会的推动。
如今连OpenAI都在考虑进入行业市场,很大程度上说明产业化将是整个行业的必由之路。如何进一步改造工业社会和农业社会,将是所有大模型玩家需要共同思考的问题。
深耕行业,落地场景
当行业内的玩家逐渐意识到产业化正在成为未来大模型竞争的焦点时,不同行业的深度将成为制胜的关键——谁能抓住行业的真实需求,为行业排忧解难,谁就能率先贯穿大模型商业模式。
华为作为全球最大的通信设备制造商,在政企市场有几十年的积累,在行业深度上有很大优势。最近两年,华为为了进一步深入行业,深度服务政企客户,陆续组建了20个军团,下到矿山、煤矿井下。
在7月7日的媒体群访中,华为云CEO提到,华为最大的优势是行业业务比较深,行业哪里有问题,就可以把科学家和数学家派到哪里。
“我们的科学家和数学家可以下到煤矿,在车间里蹲上一个月或三个月。我们敢下到田间地头,别人不一定能下或者不愿意下。这是华为在大模式上最重要的优势。”张平安说。
从实际应用来看,很多曾经被军团深耕的行业,也确实成为了盘古行业模式最早应用的领域。
比如在华为擅长的政务市场,盘古政务模型通过对12345热线、政策文件、政务百科等超过20万条政务数据的微调,掌握了丰富的法律法规、流程等行业知识。在深圳市福田区政务服务数据管理局的应用案例中,基于盘古政务模型训练的福田政务智能助手符晓,能够准确理解人们的咨询意图。
再比如,在金融领域,盘古金融模型通过对银行的各种操作、政策、案例文档进行预培训,可以根据客户的问题自动为柜台人员生成流程和操作指引,将原来平均5次的操作减少到1次,完成时间缩短5分钟以上。
在气象领域,盘古气象模型是首个比传统数值预报方法更精准的AI预报模型,预报速度也有了很大提升。结果发现,要预测一个台风未来10天的路径,在一个有3000台服务器的高性能计算机集群上模拟需要5个小时。
就在华为云开发者大会召开之前,7月6日,《自然》杂志发表了华为云盘古模型R&D团队的研究成果——3D神经网络精准中期全球天气预报。论文表明,盘古气象模型突破了AI天气预报精度不如传统数值预报的世界性难题,是首个精度超过传统数值预报的AI模型,速度比传统数值预报快一万倍以上。
此外,在煤矿、铁路、药物研发等行业,盘古大模型都推出了专门的行业大模型,进一步帮助行业提升效率。华为表示,盘古大模型的目标是让每个行业、每个人都有自己的“专家助手”。
“我们始终坚持AI for Industries战略,在深耕行业的道路上不断前行。我坚信大模式会重塑千万个行业,每一个开发者都是改变世界的英雄。”华为云CEO张平安说。
在行业模型之上,创建了一个更详细的场景模型(L2 ),专门用于解决特定的问题。华为表示“开箱即用”。盘古模型已在100多个实际场景中应用,降低了人工智能的开发门槛,平均节省研发成本80%以上。
例如,在国家电网重庆供电公司,盘古CV模型经过对海量无标签电力数据的预训练和少量数据的微调,成功应用于电力智能巡检,在很大程度上替代了传统的无人机智能巡检AI模型。在数据标注能力方面,新模型的样本筛选效率提升约30倍,筛选质量提升约5倍。以永川为例,人工贴标时间可节省170人/天。
在司法案例检索的应用中,盘古NLP模型针对很多行业难点进行了微调和优化,甚至设计了新的预测功能。最后,在中国China法律挑战赛)中,@30的总分是0.943,排名第一。
在货运列车智能检测应用中,盘古模型对货车运行故障进行了准确检测,可准确识别故障442种。重大故障检出率达到99.99%,一般故障检出率超过98%,整体检出率达到99.8%,超出客户预期。
在华为看来,未来的大模型将成为从通用到专用的综合体,其中大语言模型更像是一个内部大脑中心,提供自然语言处理领域的通用解决方案:它可以通过调用各种子行业模型来理解人类意图,服务行业,而各种聚焦场景的优化模型更像是解决具体问题的具体小功能。
毫无疑问,今年大模赛道的爆发将成为一场科技革命,彻底重塑整个工业社会,很多行业将被彻底改变。作为企业,华为除了研究和工程之外,还需要探索新的大规模商业模式,以确保大模型的商业成功。
如今,盘古大模型分为三层,L0到L2。盘古大模型在完全解耦的基础上,根据不同客户的需求进行拆分组合,以进一步探索大模型的商业化边界。
华为的大模式之路
几个月前,国产大机型诞生的时候,业界就一直在期待华为机型的出现。华为作为国内AI行业的头部玩家,一直被认为是人工智能积累最深的企业之一。华为将走上怎样的大模式之路,也一直被业界关注。
虽然盘古3.0出现的比其他主流玩家晚,但如果回头看,华为对大机型的研究由来已久。
据华为披露,早在2020年,华为就判断未来的AI产业将有两个主要发展方向,一个是从小模型到大模型的趋势,另一个是AI与传统科技计算的结合,即面向科学的AI。当时,华为提出了关于数据模型和知识的六个子课题,其中模型高度计划和万物预览计划与大模型高度相关,在GPT-3推出之前,华为一直在向这个方向推进。
但ChatGPT对行业的推动作用不容忽视,尤其是2020年GPT-3发射后,让整个行业都注意到了大型号加速崛起的新趋势。华为也在2020年夏天开始研究大模型NLP和大模型CV的方向,之后逐渐扩展到多模态、个性计算和预测决策。
除了入局足够早,华为在大模式上的人才积累也足够深厚。据华为介绍,盘古大模团队50%以上是博士,有很多才华横溢的少年。这支队伍的平均年龄不到30岁。这样一个技术过硬、敢于创新的年轻团队,是盘古大模型背后最坚实的人才保障。
现在盘古3.0的出现,选择了扎根行业的路线,意味着华为终于向自己选择的大模式迈出了最重要的一步,但下一步会是什么呢?和整个行业一样,华为还在探索。
但是摸索不代表犹豫。据华为云CEO张平安在7月7日的媒体群访中透露,华为为盘古模式的下一步做了一个非常激进的路线图。“我们现在是all in盘古模式,路标图密密麻麻。”张平安说。
在张平安看来,未来的盘古模式更关注的是行业的垂直渗透率有多高,而不是参数有多大。除了现在已经切入的铁路、煤矿、金融、政府等行业,还有更多的行业需要自己的大模型。
“未来盘古模型最有价值的参数不是5000亿或者万亿。就是在哪些行业深化了,在哪些新行业拓展了。”张平安说。
虽然现在大家都在走向产业化,但是华为毕竟和其他玩家不一样。由于长期积累的计算基础和开发框架,盘古大模型还有一大优势,那就是全栈R&D能力。
今年大模赛道火了之后,为了满足大模训练的巨大计算能力需求,英伟达的GPU核心一位难求。国内的整个大模型赛道现在都面临着计算能力不足的问题,而NVIDIA GPU未来很有可能面临供应约束,这就要求国内的大模型必须具备全栈的自主研发能力。
在华为云CTO张玉玺看来,盘古大模型从计算能力到运营商,再到框架和开发平台,都是自主创新,没有使用开源技术。之所以能实现全栈自主研发,主要得益于华为之前在AI基础、算力、芯片等根技术上的积累。
因为有了崛起的AI基础,有了Mindspore的计算框架,有了ModelArts训练平台等全栈AI root技术,华为在做一个大模型的时候可以针对不同的行业和场景做更深入的优化,比其他玩家更有深度。
正如华为轮值主席胡在7月6日提到的,华为目前在人工智能发展方面有两个主要重点。一方面是打造强大的计算基础,做好产业基础设施,另一方面是从通用模型到行业模型,服务于千万个行业。
盘古大模型3.0发布时,盘古也发布了全新的LOGO。新LOGO是盘古开天辟地的简化符号。“古之时,盘古开天地,万物生;今天,盘古已经走遍全球,行业被重塑。”张平安说。
华为把自己的大型号命名为盘古,可能是指盘古的大型号负担很重。如果未来国内大模式也面临“卡脖子”的问题,盘古必须自己养活自己。
作者|曾光
编辑|李原
操作|刘山”

作者:博定宝娱乐




现在致电 5243865 OR 查看更多联系方式 →

COPYRIGHT 博定宝娱乐 版权所有