垂直大模型竞争，能突破数据“卡点”吗？

当前位置：首页 > 滚动 > >正文

垂直大模型竞争，能突破数据“卡点”吗？

来源：维科号时间：2023-05-19 18:51:20

AI大模型火遍全球，中国产业也激发了对人工智能应用的新热情。

(资料图)

随着各大厂商参与竞逐，市场正在分化为通用与垂直两大路径，两者在参数级别、应用场景、商业模式等方面差异已逐步显现。

企业涌入垂直大模型赛道

通用AI大模型像ChatGPT，能够处理各种领域和场景的自然语言，但由于需要巨大的计算资源和数据量，已经成为国内外大厂的重点项目。

这类企业往往有着强大的技术团队和资金支持，且有着自己的场景和流量优势。比如百度、阿里、腾讯、字节、华为等，在搜索、社交、电商、办公等领域都有着自己的通用AI大模型。

相较之下，创业公司、细分领域企业很难在这样的竞争中获得先发优势或者差异化优势。

而垂直AI大模型只关注某个特定的领域或者场景，它能够利用行业的数据和知识，提供更精准和高效的解决方案，更好地满足用户在某个领域或者场景下的需求和期待，如：医疗、金融、教育等。

同时，它可以利用一些开源或者闭源的通用AI大模型作为基础，然后在其上进行指令微调（instruction tuning），来适应自己的目标领域或者场景。

因此，它的参数规模比通用大模型低一个量级，如果让数据飞轮和模型训练能够很好结合，在某些特定领域甚至比通用大模型的效果更好、成本更低。

在这样的背景下，越来越多的企业加入了垂直大模型的赛道。

5月18日，深信服发布国内首个自研安全大模型，成为安全领域GPT技术应用首秀；

5月5日，学而思宣布正在进行自研数学大模型的研发，命名为MathGPT，面向全球数学爱好者和科研机构；

3月，达观数据公布正在开发曹植系统，专注于金融、政务、制造等垂直领域的大语言模型。

明确的商业化落地场景和更低的算力成本，为各类企业打开了进军垂直大模型的大门。

垂直大模型的考验

垂直大模型的优势在于不够大：算力不够大、算法难度低，但并不代表垂直大模型谁都能做。

众所周知，AI大模型三要素：算力、算法、数据，都是喂养AI的“饲料”。

先说算力。

大模型之所以“大”，就是因为参数众多和数据量庞大。AI大模型所需要的计算量，大致上相当于参数量与数据量的乘积。

过去5年，AI大模型的参数量几乎每年提升一个数量级，例如GPT-4参数量是GPT-3的16倍，达到1.6万亿个。

随着图像、音视频等多模态数据的引入，大模型的数据量也在飞速膨胀。这意味着想要玩转大模型，必须拥有大算力。

而一套垂直大模型的训练和推理成本，做个参考，在数字人垂类技术场景中，可以做到比Open AI同参数规模的模型低一个量级，像启元世界的战略总监王思捷就曾提到：先构建更小的垂类模型（比如百亿参数、十亿参数），让数据飞轮和模型训练能够很好结合，垂类模型在某些领域可能比Open AI的效果更好成本更低。

即便垂直大模型在算力要求上已远远低于通用大模型，但对算力基础设施的投入依然会阻挡部分小公司的入局。

再说算法。

在三要素中，算法的研发难度相对较低，每家公司都有自己实现大模型的路径算法，且有众多开源项目可作为参考，中国公司最容易缩短甚至抹平差距。

最后说数据。

高质量的数据是助力AI训练与调优的关键，足够多、足够丰富的数据，是AI大模型的根基。

OpenAI此前披露，为了AI像人类那样流畅交谈，研发人员给GPT-3.5提供多达45TB的文本语料，相当于472万套中国“四大名著”。这些语料的来源包括维基百科、网络文章、书籍期刊等，甚至还将代码开源平台Github纳入其中。

但是聚焦到细分行业，数据的获取就没那么容易了。

兴业证券公开表示，要训练专业的行业大模型，优质的行业数据、公共数据至关重要。

就国内数据市场而言，据发改委官方批露，我国政府数据资源占全国数据资源的比重超过3/4，但开放规模不足美国的10%，个人和企业可以利用的规模更是不及美国的7%。

而行业数据更是非常核心的私域数据，私域数据量越大，质量越高，就越有价值。

比如，一个医疗公司拥有大量医疗数据、病例数据，那么它就能开发出医疗垂直大模型类的产品。同理，建筑行业的项目数据、金融行业的用户画像数据、海运行业的船位数据等，都是赋能垂直大模型的关键。

但是这些私域数据都攥在企业自己手中，而且为了数据安全和合规，绝大部分机构是要本地化部署才会尝试大模型训练，很难想象企业会把自己的核心数据拿给别人去训练。

此外，如何合理地给数据打上分级标签、做好标注也非常重要。数据分级分类能够帮助产品提效，而高精度的标注数据能够进一步提升大模型的专业表现。

但现阶段垂直行业想要获取高精度标注数据的成本较高，而在公开数据库中，行业专业数据也较少，因此对垂直大模型的建构提出了很高的要求。

总体而言，想要做好垂直大模型，数据的重要性，远超过算力和算法。

数据，已成为企业突破垂直大模型的“卡点”。

手握行业数据领先一步

垂类大模型讲求应用与场景先行的逻辑，而在国内更是强调产业侧的价值。

一方面，在当前中国的智能化浪潮下，产业侧数字化革新本就有广阔的市场需求；另一方面，在toB生态下，基于垂直应用的实践也有利于形成数据飞轮与场景飞轮。

而这一切的前提，是推出垂类大模型的公司在该行业已建立技术壁垒与护城河，即“人无我有”的竞争优势。

如此看来，在垂直行业深耕多年的企业或将有更大的赢面。

这类企业在数据层面、大模型以及知识图谱方面都有较为深厚的积累，对于大模型的优化更具优势。同时，它们对于to B客户需求和落地场景有很深的理解，能够更好地保证垂直大模型产品的可信和可靠，满足企业级对于安全可控合规的需求。

目前，已有一些垂类大模型在金融、教育、医药、营销等场景中得到试炼。

例如，彭博社利用自身丰富的金融数据源，基于开源的GPT-3框架再训练，开发出了金融专属大模型BloombergGPT；

网易有道则面向教育场景，推出自研的类ChatGPT模型“子曰”；

在ChatGPT发布后仅几周，谷歌公布了一个专门用于回答医疗保健相关问题的大型医用语言模型Med-PaLM......

相信随着越来越多企业入局，垂直大模型在各个行业和细分领域中将大量涌现。而那些能将一个垂直领域做专、做透，用高质量的数据持续优化模型，跑通商业闭环，构建起产业生态的企业，最终将把价值链做到足够长。

【科技云报道原创】

转载请注明“科技云报道”并附本文链接

X 关闭

最近更新

垂直大模型竞争，能突破数据“卡点”吗？

2023-05-19 18:51:20

滚动
[快讯]华畅科技公布2022年年度分红实施方案-焦点报道

2023-05-19 17:54:54

滚动
全球今日讯！当代吃货减重，关键做好这件事

2023-05-19 17:29:11

滚动
海源复材：公司非公开发行股票事项正在正常推进中

2023-05-19 17:02:54

滚动
【世界速看料】民勤县2023年中国旅游日宣传活动启动

2023-05-19 16:13:31

滚动
苹果恢复失败无法开机_苹果恢复模式无法开机_天天亮点

2023-05-19 15:45:38

滚动
20连升！日本4月CPI同比涨3.4%

2023-05-19 15:32:34

滚动
【天天播资讯】“第八届天津市科普讲解大赛”决赛圆满举行

2023-05-19 14:46:28

滚动
平安老将任汇川拟任三星财险董事长，腾讯派驻豪华阵容重组董事会，能否再造平安产险神话？-当前速读

2023-05-19 13:53:32

滚动
暖心！全科护士名字和特点，他都记得……|消息

2023-05-19 13:29:15

滚动
恩阳区观音井小学开展防溺水暨“一盆水闭气”警示安全教育活动今日最新

2023-05-19 12:50:12

滚动
詹姆斯谈崴脚：我会为下场做好准备什么都不能阻止我出场比赛今日热议

2023-05-19 12:11:19

滚动
江苏新首富诞生了，坐拥3万多亩的地皮，还有控制京东的千亿股份-每日头条

2023-05-19 11:22:36

滚动
盘中速览 | 三大指数集体下挫，科指跌逾2%，阿里、快手齐挫逾5%领跌科网股，美团跌超4%_天天速看

2023-05-19 11:05:22

滚动
【聚看点】史丹利：5月18日获融资买入477.45万元，占当日流入资金比例31.57%

2023-05-19 10:39:34

滚动
杭州热电5月19日快速回调世界热推荐

2023-05-19 10:27:53

滚动
探索“双主体两融合多通道”育人模式

2023-05-19 09:35:26

滚动
cada4图框标题栏尺寸_cada4图框怎么画

2023-05-19 09:01:37

滚动
万盛股份：5月18日融资买入117.66万元，融资融券余额7613.68万元

2023-05-19 08:35:15

滚动
全球焦点！华大九天05月18日被深股通减持4.3万股

2023-05-19 08:18:34

滚动
美联储官员：预计美国经济将在第二季度增长

2023-05-19 08:01:31

滚动
云海金属获7家机构调研：目前公司正在巢湖新建5万吨原镁产能、在五台新建10万吨原镁产能、在青阳新建30万吨原镁产能（附调研问答）

2023-05-19 06:42:03

滚动
古人称自己的儿子的谦词_古人讲究谦辞礼让谈到自己儿子时一般称为什么当前关注

2023-05-19 05:38:14

滚动
小农户的未来发展道路环球聚焦

2023-05-19 03:57:42

滚动
全球快播：三国卡牌策略类手游挂江湖-魔童降世带你领略真实三国风貌！

2023-05-19 01:00:45

滚动
美股异动 | 黄金板块走低 Fortuna Silver(FSM.US)跌超5%|播报

2023-05-18 23:02:57

滚动
全球即时看！雷吉-米勒：若我是老板会留下里弗斯因为炒了他哈登仍可能会走

2023-05-18 22:01:57

滚动
全球热门:河南开封科技传媒学院毕业作品展暨优秀毕业生企业精准就业双选会举行

2023-05-18 21:28:22

滚动
【环球报资讯】银行有停息挂账的政策？停息挂账如何收费？

2023-05-18 20:28:16

滚动
专家称笑果文化3年内不能上市李诞去年卸任董事-环球播报

2023-05-18 19:44:29

滚动
烟雨韶华,浮金留影狼人杀全新六星时装正式上线

2023-05-18 19:04:10

滚动
环球资讯：贵州省册亨县发布雷电黄色预警

2023-05-18 18:24:03

滚动
全球视点！武汉企业信息化云服务平台（关于武汉企业信息化云服务平台介绍）

2023-05-18 17:52:30

滚动
笑果文化被处罚后，购票平台已无法搜到演出门票-世界热闻

2023-05-18 17:09:26

滚动
“羽绒服”风潮你上车了吗？建议多穿这几种颜色，时髦又个性！播资讯

2023-05-18 16:55:52

滚动
全球微速讯：老里下课也留不住他？既要竞争力又想做自己哈登该何去何从

2023-05-18 16:06:13

滚动
又发现42辆盗油车！美军再次非法偷盗叙利亚石油|天天观焦点

2023-05-18 15:42:23

滚动
顺丰在湖北成立飞机维修公司# 注册资本1亿

2023-05-18 15:09:14

滚动
探宝觅踪！首部大湾区民间博物馆人文纪录片即将上线

2023-05-18 14:48:44

滚动
三国诛将录武将陆逊怎么样

2023-05-18 14:04:29

滚动
2023中国铁路成都局集团有限公司本科生招聘|天天快看点

2023-05-18 13:14:55

滚动
赞比亚官员：“不希望错过中国为非洲国家提供的机会”

2023-05-18 12:37:29

滚动
冷空气发力多地气温将“打对折”

2023-05-18 11:51:33

滚动
全球速读：国际医学(000516.SZ)：正布局医美整形、辅助生殖、康复、妇儿、特需医疗、质子治疗等服务

2023-05-18 11:22:55

滚动
昨日获得资金净流入，创新药ETF（159992）今日微跌0.56%

2023-05-18 10:49:09

滚动
天天快资讯丨国家医保局：2018-2022年全国人口参保率稳定在95%左右

2023-05-18 10:40:43

滚动
世界微头条丨警务围着警情转民警围着百姓转（基层治理新实践）

2023-05-18 09:53:19

滚动
如何制作纸浆马_送男生礼物推荐高级小众

2023-05-18 09:40:46

滚动
泡泡玛特将于6月8日派发末期股息每股8.7分|世界热文

2023-05-18 09:10:04

滚动
百余项目超千亿投资同步推进鄂州加速临空产业布局世界聚焦

2023-05-18 08:29:02

滚动
没文化真可怕让你笑到肚子疼_没文化真可怕-当前简讯

2023-05-18 07:55:37

滚动
魏都区颖昌办事处七里店社区文体志愿服务队_关于魏都区颖昌办事处七里店社区文体志愿服务队简述|天天讯息

2023-05-18 06:41:29

滚动
环球即时看！江苏首例未成年人参与“密室逃脱”致伤案宣判

2023-05-18 06:04:18

滚动
量比低换手率高说明什么问题_换手率高说明什么问题全球球精选

2023-05-18 04:41:11

滚动
全球快看：泓淋电力、大港股份等28股获陆股通增仓超50%

2023-05-18 01:00:04

滚动
儿马是什么意思_ems什么意思

2023-05-17 23:04:01

滚动
良品铺子：股东拟减持不超7.5%股份

2023-05-17 21:46:31

滚动
环球今日报丨欧盟上调经济增长预期通胀粘性+金融压力仍强

2023-05-17 21:45:33

滚动
百事通！目前汽车雨刷有几种品牌_目前汽车雨刷有几种

2023-05-17 20:47:24

滚动
弢怎么读（洮怎么读）天天观热点

2023-05-17 20:46:35

滚动
周黑鸭的做法及配方_周黑鸭怎么做

2023-05-17 19:41:08

滚动
雾芯科技美股盘前跌超11%

2023-05-17 19:13:39

滚动
欧盟统计局：欧元区4月通胀率升至7% 快播报

2023-05-17 18:16:12

滚动
华立科技拟定增募资不超1.28亿元 2021年上市募3.1亿世界通讯

2023-05-17 17:51:36

滚动
黑石-汤森路透财团折价出售伦交所集团股票，套现约27亿英镑

2023-05-17 17:50:14

滚动
epson打印机已暂停状态怎么解除-热门

2023-05-17 17:36:23

滚动
关注：these怎么读音_英语these怎么读音

2023-05-17 17:04:52

滚动
2023年山东成人高考报名入口

2023-05-17 16:28:52

滚动
沙巴百科_沙巴兹穆罕默德个人资料和图片-全球报资讯

2023-05-17 16:14:06

滚动
《小满奇遇记》定档5月21日！天天最新

2023-05-17 15:19:31

滚动
收评：沪指震荡调整跌0.21%两市成交金额不足8000亿

2023-05-17 14:52:35

滚动
全球看点：快递打印机一联单二联单是什么意思_淘宝助理怎么打印一联单

2023-05-17 14:59:21

滚动
阿里、腾讯拆掉微信、淘宝中间的墙，京东、拼多多该紧张了_世界实时

2023-05-17 14:49:06

滚动
娱乐圈谁都黑不了的4位明星，只有一位女星上榜，你知道是谁吗-当前聚焦

2023-05-17 13:49:05

滚动
开心农场jar_开心农场单机版视讯

2023-05-17 13:21:35

滚动
连续84天！广州市总工会为户外劳动者免费送雪糕

2023-05-17 12:25:01

滚动
这届上门服务，瞄准“生活不自理”的年轻人

2023-05-17 11:50:04

滚动
Fitbit的新应用看起来很像现在的应用全球讯息

2023-05-17 11:24:26

滚动
梅赛德斯-奔驰VAN.EA平台将逐步淘汰化石燃料货车|天天快看

2023-05-17 11:02:09

滚动
张卫健疑“背妻”与索女游船河现神秘女孩，开腔回应藏感人故事

2023-05-17 10:19:42

滚动
5家公司披露回购预案孚日股份拟回购不超4亿元

2023-05-17 10:04:13

滚动
【全球独家】C上4下8怎么算

2023-05-17 09:16:21

滚动
火箭队仅获4号签！马刺锁定文班亚马，休城运气差，或无缘3大新秀-世界热消息

2023-05-17 08:50:02

滚动
世界速递！中国人民大学继续教育学院院长刘鹏突发疾病逝世

2023-05-17 08:17:06

滚动
物产中大：融资净买入1433.32万元，融资余额11.2亿元（05-16）|今头条

2023-05-17 07:36:40

滚动
世界热消息：韶音耳机配对模式（tws配对模式什么意思）

2023-05-17 06:17:45

滚动
【播资讯】入京将满月，笑果不好笑

2023-05-17 05:07:50

滚动
臻于至善，自成一派！PYE派 x 绅装骑行，一场绅士们的运动派对_世界快资讯

2023-05-17 03:03:48

滚动
世界快看：iPhone 越用越卡，自己还不能换电池！苹果计划性报废终于被调查

2023-05-17 00:04:18

滚动
【世界报资讯】宿松同城游下载安装宿松同城游

2023-05-16 22:07:07

滚动
美监管机构警告：债务违约将给美国家庭带来可怕后果

2023-05-16 21:42:43

滚动
世界最新：荣耀90系列外观现身：潜望长焦遗憾继续缺席

2023-05-16 20:44:18

滚动
凯大催化（830974）2023年一季报财务简析：净利润减38.7%，三费占比上升明显

2023-05-16 14:31:35

滚动
车辆法定证明凭证主要包括哪些证明材料？车辆变更手续都有什么？

2023-05-16 13:55:40

滚动
旅游政务礼仪_关于旅游政务礼仪介绍

2023-05-16 12:59:47

滚动
声迅股份：长沙县智慧停车管理二期项目正式签约总投资4018.82万元

2023-05-16 12:02:31

滚动
标价上千的关羽高达模型展会图赏析官方残次品二爷胡子过于出戏世界观天下

2023-05-16 11:51:48

滚动
天天精选！关注债务上限谈判进展美股周一收涨

2023-05-16 11:23:05

滚动
钢铁市场周度观察：钢价大跌后或迎来盘整但难言反转-今日快讯

2023-05-16 10:49:21

滚动
如何快速分辨真石英石和假石英石

2023-05-16 10:16:43

滚动

垂直大模型竞争，能突破数据“卡点”吗？

推荐内容

最近更新