《科创板日报》5月20日讯(编辑 邱思雨)5月19日,北京拟组织实施“北京市通用人工智能产业创新伙伴计划”,谋划建设国家级数据训练基地。
北京提出,在谋划建设国家级数据训练基地的过程中,要开发涵盖文本、图像、视频等多模态的高质量数据集,助力国家级数据训练基地建设。支持发展基于AIGC技术的合成数据新产业。
【资料图】
回溯到今年3月初,中国证监会科技监管局局长姚前曾在《中国金融》杂志撰文称,建议重点发展基于AIGC技术的合成数据产业。以更高效率、更低成本、更高质量为数据要素市场“增量扩容”,助力打造面向人工智能未来发展的数据优势。
被多次点名强调的合成数据,究竟是何方神圣?
顾名思义,合成数据(synthetic data)是通过计算机技术人工生成的数据,而不是由真实事件产生的数据。但合成数据具备“可用性”,能够在数学上或统计学上反映原始数据的属性,因此可以作为原始数据的替代品来训练、测试并验证大模型。
在训练大模型的过程中,除了需要庞大的数据量以外,数据的质量同样至关重要。例如,ChatGPT的训练使用了45TB的数据、近1万亿个单词。据姚前分析推测,ChatGPT等大模型的训练数据主要来自于维基百科、书籍、期刊、Reddit社交新闻站点等。总体来看,数据来源严重依赖于现有的互联网公开文本数据。
但互联网文本数据有限,GPT-3的参数量已达到千亿级别,如果下一代大模型的参数达到万亿级别以上的话,数据短缺问题恐成为训练的瓶颈。在此背景下,合成数据的重要性日益凸显。
▌合成数据:更高效率、更低成本、更高质量
正如上文所述,“更高效率、更低成本、更高质量”是目前合成数据的优势所在。市场调研机构Gartner预测,到2024年,人工智能和数据分析项目中的数据预计有60%将来自合成数据。具体来看:
“更高效率”:合成数据能够在相对较短的时间内大量生成,且能够精确地复制原始数据集的统计特征,但又与原始数据不存在任何关联,便于在更大范围内分享和使用;
“更低成本”:合成数据服务商AI.Reverie指出,人工标注一张图片可能需要6美元,但人工合成的话只需要6美分;
“更高质量”:合成数据能够补充边缘案例,可以通过深度学习算法合成原始数据中没有的罕见样本,保障了数据的多样化。
除此以外,在AIGC时代,数据的隐私性、保密性、安全性等问题尤为重要。例如,医疗行业的数据通常会包括患者个人健康信息等;金融行业则涉及到历史交易信息等敏感数据。
利用合成数据训练AI大模型则能够有效规避用户隐私问题。在上述案例中,通过合成数据集,医疗机构能够在不提供患者隐私信息的条件下训练相关模型完成药物研发工作;金融机构则能够在不提供敏感的历史交易信息前提下,通过合成数据集训练量化交易模型提升获利能力,也可以用来训练客服机器人以改善服务体验。
《麻省理工科技评论》(MIT Technology Review)将大模型合成数据列为2022年十大突破性技术之一,称其有望解决人工智能领域的“数据鸿沟”问题。
▌先行应用于计算机视觉 巨头已争相布局
具体到产业应用层面,合成数据先行应用于计算机视觉领域,例如自动驾驶、机器人、安防等应用场景。这些场景下的AI大模型都需要大量图像、视频数据来训练,但获取原始数据却相对较难。
以自动驾驶领域为例,实际驾驶场景路况复杂、变量较多,且极端天气下获取真实路况数据可能存在困难或危险,因此难以完全依赖于真车现场数据。但是,通过合成数据集模拟各种驾驶场景,就能够在保障人员和设备安全的条件下,提升自动驾驶能力。
目前,合成数据应用正迅速向金融、医疗、零售、工业等诸多产业领域拓展。摩根大通于2021年9月提出通过合成数据来加快金融领域的AI研究和模型开发,以解决欺诈检测和反洗钱等问题,并改善服务体验;美国运通也同样正在尝试创建合成数据来训练、优化其用于欺诈检测的AI模型。
微软、谷歌、英伟达等硅谷巨头均在加速布局合成数据领域的相关业务。
英伟达自动驾驶仿真平台DRIVE Sim通过Replicator合成数据工具来缩小仿真数据与真实数据之间差异并提高场景泛化能力;
谷歌利用AI生成的医疗记录来帮助预测保险诈骗;
微软开发了可以生成合成和聚合数据集的开源工具Synthetic Data Showcase,并创建了合成人脸数据库。
Meta于2021年11月收购了合成数据创业公司AI.Reverie。
国内方面,据《科创板日报》不完全统计,A股上市公司中:
天风证券、上海证券等多家机构分析师一致认为,AIGC模型算法创建的合成数据功能将为新技术产业提供支撑,让数据约束不再成为产业发展瓶颈。
标签:
《科创板日报》5月20日讯(编辑邱思雨)5月19日,北京拟组织实施“北京市通用人工智能产业创新伙伴计划...
《暗黑破坏神4》无障碍功能介绍:冒险不应受能力阻碍介绍了 暴雪目前详细介绍了即将于6月6日推出的《暗
音频解说一、江西省宜春市天气预报1、靖安县气象台2023年05月20日10时07分发布雷电黄色预警信号。2、预计未来6小
1、吴秀波天价分手费因女方索要3100万天价分手费不得不报警?,吴秀波里的天价分手费是多少?最近吴秀波出
1、如果您连接WLAN提示网络拒绝接入,可以通过以下方法操作:1 如果是家庭网络,建议确认路由器是否开启了M
5月20日,“2023年粤港澳大湾区风投创投高峰论坛”在广州粤科金融大厦举办。广东省推进粤港澳大湾区建设...
1、肝素在妊娠期有广泛的应用,如孕早期人绒毛膜促性腺激素上升缓慢、胚胎发育延迟、反复自然流产、孕妇患
稳汇率,官方再释重要信号。5月18日,中国外汇市场指导委员会2023年第一次会议在北京举行。会议认为,我国
5月19日北向资金增持9 74万股意华股份。近5个交易日中,获北向资金减持的有4天,累计净减持199 69万股。近2
北京仅少数银行三年期定存超3 5%,北京市,理财产品,江苏银行,南京银行,定存利率,存款利率
1、最近我们分析了好几个关于历史沿革的案例,基本上都不涉及具体的技术问题,就是看几个故事而已。讲真,
虽然BLG是以3比0轻取GEN,但是T1是一支截然不同的战队,上路Zeus现在风格非常全面不说,Gumayusi和Keria也
证券时报•数据宝统计,截至5月19日收盘,沪深两市共639只个股连续5日或5日以上主力资金净流出。从净流出持
湖南日报·新湖南客户端5月19日讯(通讯员吕琳薇)5月17日下午,廖先生在药店购药总费用184 4元。廖先生在
为充分发挥人民群众在平安钟山建设、基层社会治理中的重要作用,区委政法委制定出台《钟山区群众参与社会治
5月18日,央视多个频道专题报道西北工业大学和“阿里·法拉比”哈萨克斯坦国立大学在西安签署合作协议,...
5月19日,A股市场整体涨跌互现。截至收盘,上证指数收报3283 54点,下跌0 42%,深证成指收报11091 36点,上
1、姓名:释迦牟尼佛,南无大师!阿弥陀佛,没有西方的南方天堂!没有观世音菩萨!南方没有大势至菩萨!南
【ITBEAR科技资讯】5月19日消息,瑞声科技今日发布其全新声学解决方案品牌RichSound。这一品牌旨在为各类智
随着绿色、低碳、环保的理念在消费领域不断升温,当不断进阶的绿色消费理念融入消费者的日常生活时,消费者
民生银行菏泽分行扎实推进合规文化建设向纵深发展,菏泽,案防,全行,民生银行,文化建设
(观察者网讯)据英国广播公司(BBC)、路透社等媒体报道,当地时间5月18日,英国政府宣布了针对俄罗斯的新
ofo没落之后,曾经光环加身的戴威彻底隐身,不论是资本圈还是公开场合,都不再有他的身影。近日,有外媒报
DoNews5月19日消息,小米RedmiBook14轻薄本19日上架京东开启预约,5月22日正式发布,售3699元(i5-12500H版
1996年6月,被告人田永明潜入其嫂子赵某某家躲藏,待嫂子睡后实施了强奸。1996年9月,法院一审判决被告人田
针对有钱不还的被执行人,最高法作出提醒:切莫以身试法。5月19日,最高人民法院举行新闻发布会,发布10件
地块名称为黄埔区开创大道与广深高速连接处YP-P-3地块,占地面积近18 9万㎡,计容总建面超50万㎡,起拍总价
5月19日是第13个“中国旅游日”,受近期多项利好因素影响,文化和旅游行业复苏势头强劲,流动的中国折射...
5月15日,长沙民政职院启动为期4周的2023年上学期课堂教风学风专项督导。当天上午,该校校长陈静彬带队,对
证券时报e公司讯,格林美(002340)9月20日晚间公告,下属公司青美邦QMB与NickelIndustries下
Copyright @ 2015-2018 西南it网版权所有 备案号:皖ICP备2022009963号-8 联系邮箱:39 60 29 14 2@qq.com