首页资讯

80%行业模型未达预期?数据“欠账”成AI落地最大拦路虎!

时间:2025-07-31 15:24 作者:遗忘之志

80%行业模型未达预期?数据“欠账”成AI落地最大拦路虎!

从“卷模型”到“卷数据”

作者/  IT时报记者  贾天荣 林斐

编辑/  王昕 孙妍

在被誉为“史上最热闹”的WAIC2025现场,具身智能与智能体的热度席卷全场,而隐藏在背后的“数据”话题却显得更有厚重感。

在WAIC多场主题论坛中,“数据与AI的关系”成为贯穿始终的议题。数据质量、治理能力和场景化深度,正决定着AI从“实验室”走向“产业界”的速度与广度。

“目前AI领域的主要工作量已从模型算法转向数据处理,这是目前最大的工作量,占了90%。”7月27日下午举行的WAIC“语料筑基 智生时代”语料创新发展论坛上,中国科学院院士、上海算法创新研究院学术委员会主任鄂维南表示,人工智能的发展正经历一次重要的范式转变:从以模型为中心的“拼模型”阶段,进入以数据为核心的“拼数据”阶段。

这一观点得到多位业界人士的呼应。“数据是人工智能发展的核心问题,解决不好数据问题,算力再强、模型再先进也难以落地。”中国电子信息产业集团副总经理王桂荣直言,当前80%的行业大模型未达预期,根源在于数据基础薄弱,行业数字化水平不足、数据与业务场景脱节、训练数据质量不高,“算力可以通过技术优化提升,但数据的‘欠账’必须先补。”

中国信息通信研究院人工智能研究所所长魏凯同样强调,数据是AI发展的“第一要素”,“历次技术突破都伴随着数据产业模式的迭代,从早期判别式AI到如今的大模型,数据已从‘拼量’转向‘拼质’。”

IDC中国高级分析师李浩然则表示,2024年全球非结构化数据占比已达92%,但企业中仅有33%的数据被有效分析,“数据分散、质量参差、跨主体共享难,仍是制约AI落地的三大瓶颈。”

从“卷模型”到“卷数据”

“过去我们有一整套基础设施帮助‘卷模型’,现在要拼数据,就必须建设全新的基础设施来‘卷数据’。”鄂维南指出,人工智能要真正“做实”,在企业落地是必要环节,但现实中企业普遍面临三大困境:其一,企业数据不能轻易外流;其二,企业数据质量参差、治理门槛高;其三,缺乏高水平的人工智能团队。

“国家推动大数据行业发展十余年,建设各级数据局、数据要素和流通机制,但整体效果与预期相比还有差距。我个人认为,核心问题在于需求端不足。企业的数据大多用于内部商业智能,而非面向外部开放。如果AI能真正落地,企业对外部数据的需求会迅速增长,整个数据要素市场才能真正转动起来。”鄂维南直言。

挑战不止于此,业界专家普遍认为,AI的成熟度取决于数据的“质量”而非“数量”,高质量数据需满足多元性、场景化与安全性三大特征。

在多元性上,数据要覆盖成功和失败的样本,以提升模型鲁棒性。魏凯提到,上海人形机器人创新中心正建设大规模训练场,采集机器人操作的“高维物理数据”,“这类数据能让AI理解物理规律,是通向通用智能的桥梁”。

场景化则要求数据与业务深度绑定。中铝集团CIO谢海以“有色金属行业大模型”为例,其覆盖勘探、冶炼全流程的60余个场景模型正是基于“高价格金属材料金相组织数据集”训练而成,“电解铝工艺优化模型已实现生产效率提升,这离不开针对性的数据积累”。

安全性是底线,谢海强调,数据集建设需同步构建“安全防控体系”,“数据治理不仅要保障质量,更要兼顾合规与隐私,否则模型再高效也难以落地”。

高质量结构化数据

准备好了吗?

为破解数据瓶颈,行业正从技术工具与生态协作两方面突破。

上海人工智能实验室青年科学家何聪辉表示,当前所有的模型都是用非常类似的公开数据集做训练,模型的同质化不可避免。

如何打破僵局?何聪辉认为,AI数据的价值发生了跃迁,模型将会从规模之争走向数据质量的竞赛。他介绍了MinerU 2,在原来的基础上,用更新的架构把数据解析推向了新高度,性能提升了6倍,准确性提升22%,能支持更加广泛的场景。

在谈及如何应对“拼数据”时代的挑战时,鄂维南提出,AI需要一套新的Data-Centric(以数据为中心)基础设施,涵盖数据库、数据准备、质量评估、数据合成与安全。

2018年,鄂维南和团队率先推出全球首个AI数据库MyScale,实现了文本、向量、表格、结构化与非结构化等多模态数据的统一管理与高效查询,成为AI for Science等复杂科研场景的基础工具。

与此同时,鄂维南介绍了DataFlow数据准备工具:“它对标模型训练中的TensorFlow(主流AI框架),希望通过基础算子和管线,让复杂的数据操作模块化、自动化,从而显著降低成本与门槛。”

鄂维南团队目前正在探索“自动化数据产线”,通过AI数据库与DataFlow的结合,使模型能够像“看医生”一样按需调用最合适的数据,而非依赖人工经验“作坊式”处理。

在医疗、金融等行业测试中,该自动化体系在成本和效果上均优于人工团队。用这套方法训练的8B模型,在专业场景中甚至超过了671B级别的大模型,这证明了高质量数据基础设施的价值。

魏凯也提到了微软2023年发布的研究成果——用规模仅为7B Token的“教科书质量”数据训练了一个1.3B参数的模型。尽管在数据集和模型大小方面比竞品模型小几个数量级,但准确率并不输竞品模型。

在技术层面,“数据工程化”成为核心方向。星环科技CEO孙元浩提出“AI就绪数据平台”概念,通过自动化工具将非结构化数据(如文档、视频)转化为结构化数据,“某客户升级后,数据处理实时性从‘T+1天’提升至‘T+1秒’,直接支撑了实时AI决策。”

清华大学郑纬民院士则聚焦数据预处理效率,其团队研发的文件系统可预处理400亿个文件,“解决海量数据的存储与定位问题是模型训练的前提”。

生态层面,跨主体协作加速数据流通。东航数字科技董事长高志东介绍,东航与中国电子云共建“航空业训练数据空间”,推动机场、维修企业等数据共享,“基于此开发的‘旅客服务多智能体’已覆盖出行全流程,中转预警模型让浦东机场中转效率提升30%”。

此外,政策引导也至关重要。魏凯表示,国家正推动30家央企开展垂直领域数据建设试点,7个数据标注基地已形成335个高质量行业数据集,“新一代数据标注不再依赖低端劳动力,而是聚焦‘高技术、高附加值’,这是数据产业升级的关键”。

全国首个

语料运营公共服务统一门户成立

本届WAIC上,业界专家达成共识,数据与AI的关系已从“支撑与被支撑”升级为“共生共荣”。

波士顿咨询公司董事总经理及全球合伙人俞晨骜指出,AI价值的终极释放需“碳基(人)与硅基(AI)协同”,即通过数据串联业务流程与组织变革。

李浩然则预测,到2028年,实时数据管理、多模态数据融合将成为企业核心竞争力,“数据与AI的深度耦合,将推动千行百业真正迈入智能时代。”

正如魏凯所言:“数据是AI的‘燃料’,唯有夯实数据基础、打通流通壁垒,人工智能才能真正成为驱动产业变革的‘引擎’。”

《IT时报》记者注意到,对于AI语料,上海市委、市政府一开始就高度重视,2024年库帕思成立,以市场化运营的方式为行业发展赋能,为中小企业的创新发展赋能,重点突破具身智能、强推理数据集、稀缺数据集等3个专项工程。通过建立共建、共享、共同收益的机制,把高质量语料库建设好,构建多层次的语料供给体系,强化语料的标准建设,升级语料的运营平台,进一步攻关数据合成、思维链等新技术,赋能新应用,真正实现有效供给,加速推动模型迭代。

WAIC2025期间,上海在建设语料基座方面释放出明确信号:一方面通过进一步加大稀缺语料数据集、思维链数据集建设等专项工程,聚焦具身智能、科学智能,做优行业语料,构建多层次语料供给体系;此外,强化语料标准建设,升级语料运营平台,进一步攻关数据合成、思维链数据集成等新技术,持续优化创新新型数据底座的建设。

WAIC2025上,库帕思按上海市整体部署打造了全国首个语料运营公共服务统一门户,深化众包众创和开源开放的语料运营机制。库帕思曾于WAIC2024期间发布《语料库建设导则》,今年则集中发布了10项团体标准、3项行业标准、1项指南。

上海市信息投资股份有限公司副总裁、上海库帕思科技有限公司董事长山栋明表示,人工智能的浪潮已经扑面而来,模型正在发生一系列的变化,从过去的大参数、多模态模型逐渐向小参数生产力模型、强推理慢思考模型、科学智能模型和面向物理AI的具身智能模型转变。相应的语料数据也会发生一系列变化。因此,库帕思进行了一系列的创新实践,用三个重构来表达:语料数据方法体系重构、语料技术设施体系重构、语料行业生态体系重构,同时坚持做好四件事:建基座、强技术、搭平台、育生态。

鄂维南指出,未来必须建立高质量的“数据产线”,这是未来人工智能最重要的基础设施,在上面可以支撑各种各样的大模型或智能体。如果把原始数据比作“原油”,这套基础设施则是“炼油厂”,把原油炼成了可以用的精品油,同时也要有一个比较好的存储机制,里面有一系列工具能把数据高精度提取出来、用起来,这就是AI数据库。整套连在一起,才能把“数据产线”做好。

鄂维南表示将和库帕思一起,把这样的“炼油厂”“仓库”等建起来,然后在全国范围内批量落地高质量、高水平的专业数据产线。

排版/  季嘉颖

图片/  WAIC  豆包AI

来源/《IT时报》公众号vittimes

E N D

Top

1、瑞幸获赔超500万 品牌维权攻防战持续升级

2、新闻1+1丨多地持续强降雨 北京、河北防汛情况如何?

3、《明末:渊虚之羽》,游戏质量平稳落地了吗?,明末渊虚之羽图片

小编推荐

当前文章:http://www.share.tuanjian7.cn/MZH/detail/sudupi.html

相关阅读

网友评论

我要评论

发表 取消

遗忘之志