金沙990cc登录·(中国)官方网站

AI时代的数据要素开发与治理

——

人工智能概念的提出已有60多年时间，但直到1997年IBM的深蓝计算机战胜国际象棋大师才为大众所知，不过基于专家系统经验的智能有限。2022年底，ChatGPT的问世标志着人工智能从判别式发展到生成式的跨越，虽然目前的大模型只是针对特定任务和指定模态，离通用人工智能还有不少距离，但语言大模型让机器初步具有常识，懂得推理，学会创作，让人和机器能以较自然的方式互动，通过与周边工具的结合，表现出拟人的智能。与AlphaGo将数据作为查询和判别的依据不同，ChatGPT可以说读透与消化了数据，融会贯通计上心来，得出源于数据高于数据的结论。生成式大模型赋予数据以新的生命力，AI时代大数据蕴含的价值将进一步涌现。数据因AI而变得越来越重要，数据要素是新型生产力的代表，数据挖掘能力成为新时代的国家重要竞争力。

一、培育数据资源，促进开放共享

政府与研究机构及企业都会存储大量数据，其中政府掌握全社会数据约80%，而且是高质量数据，但主要却仅供内部使用甚至是本部门内小单位各自存储和使用而非共享，数据利用率不高。需要从制度上明确共享内容、权限和责任，促进政府部门间数据共享，更精准地把握社会和经济运行全局，提升政府部门间工作的协同性。与共享相比，数据开放更是社会数字化的标志之一，政府及企事业单位掌握的公共数据具有很强的社会性，政府开放数据对提升政府公信力、降低社会成本，带动数字经济发展有重要作用。国际上将政府数据开放作为数字政府的重要衡量指标，据《联合国电子政务调查报告2022》数据显示，从2012年到2022年的十年间，中国在线服务指数从0.5294上升到0.8876，在193个国家中排名从第62位上升到第15位，我国还存在政务数据标准规范体系待健全、政务数据统筹管理机制待完善，政务数据安全保障能力待加强的问题，需要从建设数据流通基础制度体系入手，加快数据立法，完善制度规范，统筹协调推进，编制数据目录，分类分级管理，夯实共享开放机制，提升安全保障。

除了政府开放数据以外，社会公共数据的开源开放也表征数据流通的水平。人工智能生成内容（AIGC）大模型都是利用语料库训练的，一些互联网大厂利用电商、社交、搜索等业务收集和标注了海量的语料供自身训练大模型使用，没有语料积累的企业和研究机构虽然可以从网络获得语料，但自媒体内容质量良莠不分，未经清洗与标注就用作大模型的训练语料其效果堪忧。国内高校也有数亿到数十亿字的语料库但尚未开源。国内一些语言大模型直接采用国外开源语料库训练，在价值观的把控上存在潜在风险，建议对面向公众开放应用的对话类大模型需要做语料来源的评估。面向重要应用场景的大模型不宜强调训练用数据免标注和无监督学习，还是要采用经过清洗标注的数据集和保留人工微调，即有监督学习环节。

行业大模型的训练也面临挑战，专业数据没有通用数据容易获得，行业内的企业间往往不愿共享专业数据。为此有必要建立高质量国家级重要行业领域基础知识库、数据库、资源库等。此外要鼓励社会数据要素的合理流动和利用。中共中央、国务院《关于构建数据基础制度更好发挥数据要素作用的意见》提出，依法规范、共同参与、各取所需、共享红利的发展模式，将合理降低市场主体获取数据的门槛，增强数据要素共享性、普惠性，激励创新创业创造。

二、大模型驱动数据范式创新

基础大模型通常从通用语料训练生成，通识能力强，从聊天对话入手容易反馈迭代优化，但聊天难成刚需，落地行业应用将更显大模型的价值，但基础大模型缺乏行业专业知识，需要大模型提供方与垂直行业合作开发行业大模型。一种模式是企业将数据交基础大模型进行再训练，待调优至理想后再进行知识蒸馏、量化及针对特定场景迁移等缩小模型规模的工作，但后续模型微调和云边端部署等仍需算法工程师支撑，企业技术力量不足还得依赖模型提供方，企业数据交到模型提供方有数据泄漏风险，但数据不全面则会导致训练效果差。另一种模式是企业具有算法工程师，按照特定业务场景以专有数据对基础大模型进行微调，形成行业大模型或多个基于实际业务的小模型，最好是在预训练阶段就加入垂直行业企业的数据，预训练和指令微调交错进行，提高模型对行业知识的表达、理解、迁移和泛化能力。

三、数据助力社会治理信息化

习近平总书记指出“随着互联网运用普及和大数据等技术快速发展，国家治理正逐步从线下向线下线上相结合转变，从掌握少量‘样本数据’向掌握海量‘全体数据’转变，这为推动治理模式变革、提升国家治理现代化水平提供了有利条件”。从网格化管理、精细化服务、信息化支撑的基层治理平台，到一网统揽一网通办的城市大脑，利用大数据、人工智能、物联网等信息化手段感知社会态势、畅通沟通渠道、支持快速响应，推进政府决策科学化、社会治理精准化、公共服务高效化。特别是AIGC技术的应用，重构政府与民众之间的互动过程，大模型能够提升对现实生活中复杂大系统问题的处理能力，能够精准防控社会发展中的风险，能够有力维护政治稳定和社会安全，进一步促进经济发展和社会进步。

AI特别是生成式大模型技术是双刃剑，其推理过程不透明，解答有自圆其说的成分，尤其使用了未经鉴别的语料训练用于社会治理的大模型，可能会触发对公众的误导，甚至引起价值观的冲突。AI技术也可能被滥用或恶意利用来制造虚假新闻，引发社会传播风险，危害国家安全。我们既要用AI来辅助社会治理也要治理AI行为，但不能因AI的使用可能失控而限制对AI技术的研究与应用，AI技术需要在应用中反馈和迭代升级。当前，国际贸易、科技合作、人员往来不可避免数据跨境流动，数据的社会治理也面临对外开放的挑战，解决之道是AI监管制度体系建设与AI技术研究并重，发展与安全治理协同，使AI的监管创新与技术发展相辅相成，以技术手段和治理规范两手应对大模型的算法偏见和伦理道德失序，以法律法规防止各类数据安全事件发生和维护国家安全。为此，首先需要按照《关于构建数据基础制度更好发挥数据要素作用的意见》，尽快完善数据产权制度、数据要素流通和交易制度、数据要素收益分配制度、数据要素治理制度，为AI技术的发展与治理提供行为规范。其次是重视数据监管的技术创新，APN6（基于IPv6的应用感知网络）和iFIT（基于IPv6的随流检测）可以标注IP流的属性，包括数据类型和对IP流路径溯源，有利于对跨境数据流动的管理，IPv6的多归属特性可以分流敏感数据。多方计算等技术可以在不同所有者的数据融合时做到数据可用不可见。加快各类数据监管和数据安全技术的研究已成当务之急，要为数据管理规范尽快填补技术支撑手段的不足或缺失。

四、加快数据基础设施建设

“东数西算”作为国家战略部署具有中国特色，反映我国区域经济、地理气候特点和能源分布的格局，政府之手的作用在东西部数据资源配置与有效应用上不是可有可无的。西部不足之处是数据中心产业配套能力薄弱和人才短缺，需要同步规划布局数据清洗标注、数据机房产品及服务业的培育发展，延伸产业链上下游，在做好承接东部的温冷数据的存算的同时，还要带动起当地热数据的上云服务，使西部的数据集群发展形成良性循环。

数据作为生产要素是经济理论与实践的创新。数据与土地、劳动力、资本等传统生产要素不同，数据要素的开发与治理有很多需要深入研究的问题，例如数据的可复制性、使用无损性等导致数据产权和安全管理边界难以界定。党中央决策部署组建国家数据局，负责协调推进数据基础制度建设，统筹数据资源整合共享和开发利用，统筹推进数字中国、数字经济、数字社会规划和建设等，将有力促进数据要素技术创新、开发利用和有效治理，以数据强国支撑数字中国的建设。

上一篇以数智化转型赋能制造业绿色低碳发展

下一篇无

企业新闻

AI时代的数据要素开发与治理

以数智化转型赋能制造业绿色低碳发展

创新信息技术行业管理　发挥“一业带百业”

关于金沙990cc登录

信息改变世界，科技引领未来。金沙990cc登录是一家集研发、销售、服务为一体的新兴科技型信息化企业。公司成立于2020年7月，注册资金2000万元，坐落于享有“百年绿色养生圣地”之称的黑龙江省延寿县，公司秉承“用心打造智能应用系统，全面推动数字中国建设”的核心理念，一心致力于软件研发和互联网产业，紧密结合信息科技发展趋势，科学融合互联网+、大数据、人工智能等新理念新技术，专注为公安、城管、交通

了解更多

金沙990cc登录·(中国)官方网站