东方网记者王佳妮7月8日报道:2022年全市数据核心企业突破1200家,核心产业规模近3400亿元;建设上海数据交易所,累计挂牌数据产品超1300个,率先提出数商体系,全国首个数据要素产业集聚区在张江启动建设……作为国家大数据综合示范区,上海始终致力于推动数据产业发展、数据要素市场培育,数字经济红利充分释放。
数据是人工智能的基石,其质量和数量最终决定人工智能水平高低,并影响其安全性、可信性。如何使数据要素更有效流通?在今天上午举行的“大模型时代下的数据要素流通”主题论坛,业内大咖上演了一场精彩的“头脑风暴”。
上海数据要素建设有“新动作”
“大模型时代下的语料库建设存在语料库供给不足、语料库质量不高、语料库多样性匮乏、语料库标准欠缺等问题。”上海数交所总经理汤奇峰在作题为“大模型时代下的语料库”的主旨演讲中指出,语料库建设不是单一企业的责任,需要多方共同推进,“如果每个企业都单独建设维护语料库,会拉低效率,也会增加企业成本,数交所希望通过自己的努力加强数据要素建设提升语料库建设效率”。
上海数交所总经理汤奇峰
东方网记者了解到,上海数交所官网已于7月7日正式上线语料库,累计挂牌近30个语料数据产品,包含文本、音频、图像等多模态,覆盖金融、交通运输和医疗等领域。为更好打造高质量语料库、围绕语料数据共建数商生态,上海数交所牵头发起语料数据生态创新合作伙伴计划,携手首批合作伙伴上海人工智能实验室、商汤科技、中国知网、澜舟科技、OpenKG、拓尔思、新致和蜜度正式启动该计划,积极引导不同行业、不同领域、具有一定规模的高质量语料数据产品挂牌交易,推动人工智能大模型技术创新与应用落地,进一步丰富语料库多样性,助力数据要素市场建设。
汤奇峰指出,目前,语料库采购已经在不少大模型企业成本中占据重要比重,上海数交所希望以市场配置的方式组织数据要素推动语料库建设。“上海数交所建设语料库,主要考虑两个维度:一是语料库的质量,另一个是语料库的开放程度。”汤奇峰举例称,比如有的企业具有海量高质量数据资源,开放意愿度也很高,但需要组织大量社会第三方企业帮助组织相关的大模型训练,上海数交所针对四类数据产品开发情况不同、实际需求不同的供方企业制定了差异化工作策略,着力打造语料数据生态。
数据合规确权等问题亟待破解
数据要素在人工智能大模型的发展中具有关键性的作用,决定了模型的训练质量、性能表现和应用领域的广度与深度。
论坛现场图
中国电子副总经理陆志鹏围绕“数据要素驱动的大模型体系”做主旨演讲,他认为,大模型技术实现高质量发展,数据有效供给是关键,亟需建设安全可信的数据底座。当前数据合规确权、计量估价、协调分配、安全隐私保护等核心难题需要破解。
大数据流通与交易技术国家工程实验室常务副主任黄丽华则表示,数据驱动三大变革,包括经济结构、创新范式、企业模式。面向大模型,数据要素市场大有可为,多层次数据要素市场的建设将提供重要助力。多层次数据要素市场的建设需要有明确的数据需求应用场景,数据要素产权制度可以提供重要支撑,合规安全机制提供保障,基于这样的一个市场,数据产品低成本、大规模可得才有可能实现,才能更好地赋能商业高效应用,促进数字化转型。未来,颠覆性创新一定是基于“数据+人工智能+行业专业知识”发生的。
转载请注明出处。