【短讯】AI大模型“无米下锅”?合成数据多重优势凸显 硅谷巨头正加速布局 世界热推荐

来源:开利财经时间:2023-05-20 14:14:42


(相关资料图)

5月20日讯(编辑 邱思雨) 5月19日,北京拟组织实施“北京市通用人工智能产业创新伙伴计划”,谋划建设国家级数据训练基地。北京提出,在谋划建设国家级数据训练基地的过程中,要开发涵盖文本、图像、视频等多模态的高质量数据集,助力国家级数据训练基地建设。支持发展基于AIGC技术的合成数据新产业。回溯到今年3月初,中国证监会科技监管局局长姚前曾在《中国金融》杂志撰文称,建议重点发展基于AIGC技术的合成数据产业。以更高效率、更低成本、更高质量为数据要素市场“增量扩容”,助力打造面向人工智能未来发展的数据优势。被多次点名强调的合成数据,究竟是何方神圣?顾名思义,合成数据(synthetic data)是通过计算机技术人工生成的数据,而不是由真实事件产生的数据。但合成数据具备“可用性”,能够在数学上或统计学上反映原始数据的属性,因此可以作为原始数据的替代品来训练、测试并验证大模型。在训练大模型的过程中,除了需要庞大的数据量以外,数据的质量同样至关重要。例如,ChatGPT的训练使用了45TB的数据、近1万亿个单词。据姚前分析推测,ChatGPT等大模型的训练数据主要来自于维基百科、书籍、期刊、Reddit社交新闻站点等。总体来看,数据来源严重依赖于现有的互联网公开文本数据。但互联网文本数据有限,GPT-3的参数量已达到千亿级别,如果下一代大模型的参数达到万亿级别以上的话,数据短缺问题恐成为训练的瓶颈。在此背景下,合成数据的重要性日益凸显。▌合成数据:更高效率、更低成本、更高质量正如上文所述,“更高效率、更低成本、更高质量”是目前合成数据的优势所在。市场调研机构Gartner预测,到2024年,人工智能和数据分析项目中的数据预计有60%将来自合成数据。具体来看:“更高效率”:合成数据能够在相对较短的时间内大量生成,且能够精确地复制原始数据集的统计特征,但又与原始数据不存在任何关联,便于在更大范围内分享和使用;“更低成本”:合成数据服务商AI.Reverie指出,人工标注一张图片可能需要6美元,但人工合成的话只需要6美分;“更高质量”:合成数据能够补充边缘案例,可以通过深度学习算法合成原始数据中没有的罕见样本,保障了数据的多样化。除此以外,在AIGC时代,数据的隐私性、保密性、安全性等问题尤为重要。例如,医疗行业的数据通常会包括患者个人健康信息等;金融行业则涉及到历史交易信息等敏感数据。利用合成数据训练AI大模型则能够有效规避用户隐私问题。在上述案例中,通过合成数据集,医疗机构能够在不提供患者隐私信息的条件下训练相关模型完成药物研发工作;金融机构则能够在不提供敏感的历史交易信息前提下,通过合成数据集训练量化交易模型提升获利能力,也可以用来训练客服机器人以改善服务体验。《麻省理工科技评论》(MIT Technology Review)将大模型合成数据列为2022年十大突破性技术之一,称其有望解决人工智能领域的“数据鸿沟”问题。▌先行应用于计算机视觉 巨头已争相布局具体到产业应用层面,合成数据先行应用于计算机视觉领域,例如自动驾驶、机器人、安防等应用场景。这些场景下的AI大模型都需要大量图像、视频数据来训练,但获取原始数据却相对较难。以自动驾驶领域为例,实际驾驶场景路况复杂、变量较多,且极端天气下获取真实路况数据可能存在困难或危险,因此难以完全依赖于真车现场数据。但是,通过合成数据集模拟各种驾驶场景,就能够在保障人员和设备安全的条件下,提升自动驾驶能力。目前,合成数据应用正迅速向金融、医疗、零售、工业等诸多产业领域拓展。摩根大通于2021年9月提出通过合成数据来加快金融领域的AI研究和模型开发,以解决欺诈检测和反洗钱等问题,并改善服务体验;美国运通也同样正在尝试创建合成数据来训练、优化其用于欺诈检测的AI模型。微软、谷歌、英伟达等硅谷巨头均在加速布局合成数据领域的相关业务。英伟达自动驾驶仿真平台DRIVE Sim通过Replicator合成数据工具来缩小仿真数据与真实数据之间差异并提高场景泛化能力;谷歌利用AI生成的医疗记录来帮助预测保险诈骗;微软开发了可以生成合成和聚合数据集的开源工具Synthetic Data Showcase,并创建了合成人脸数据库。Meta于2021年11月收购了合成数据创业公司AI.Reverie。国内方面,据不完全统计,A股上市公司中:天风证券、上海证券等多家机构分析师一致认为,AIGC模型算法创建的合成数据功能将为新技术产业提供支撑,让数据约束不再成为产业发展瓶颈。

标签:

相关阅读

推荐阅读

【短讯】AI大模型“无米下锅”?合成数据多重优势凸显 硅谷巨头正加速布局 世界热推荐

【短讯】AI大模型“无米下锅”?合成数据多重优势

【短讯】AI大模型“无米下锅”?合成数据多重优势凸显硅谷巨头正加速布局。新闻资讯提供最新、最及时的新闻更多

2023-05-20 14:14:42
【短讯】“AI+硬件”时代拉开序幕 业界期待下一“iPhone时刻” 边缘算力或成胜负手 当前报道

【短讯】“AI+硬件”时代拉开序幕 业界期待下一

【短讯】“AI+硬件”时代拉开序幕业界期待下一“iPhone时刻”边缘算力或成胜负手。新闻资讯提供最新、最及更多

2023-05-20 11:52:49
【短讯】银行倒闭潮还没完?美财长耶伦一句话“吓坏”银行股

【短讯】银行倒闭潮还没完?美财长耶伦一句话“吓

【短讯】银行倒闭潮还没完?美财长耶伦一句话“吓坏”银行股。新闻资讯提供最新、最及时的新闻服务。包括:更多

2023-05-20 12:03:34
天天微资讯!【短讯】国资委指导推动央企加大集成电路等布局力度!受益股梳理

天天微资讯!【短讯】国资委指导推动央企加大集成

【短讯】国资委指导推动央企加大集成电路等布局力度!受益股梳理。新闻资讯提供最新、最及时的新闻服务。包更多

2023-05-20 10:53:13
世界通讯!【短讯】股份回购计划频出!年内19家科创板公司出手 半导体个股成主力军

世界通讯!【短讯】股份回购计划频出!年内19家科

【短讯】股份回购计划频出!年内19家科创板公司出手半导体个股成主力军。新闻资讯提供最新、最及时的新闻服更多

2023-05-20 10:04:21
【短讯】出海周报 | Shopee一季度营收21亿美元;Shein美国站平台上线 拟重返印度市场;SHEIN融资20亿美元……

【短讯】出海周报 | Shopee一季度营收21亿美元

【短讯】出海周报|Shopee一季度营收21亿美元;Shein美国站平台上线拟重返印度市场;SHEIN融资20亿美元……更多

2023-05-20 09:04:01
【短讯】小家电德尔玛上市破发 雷军、薇娅丈夫提前入股 能赚多少?

【短讯】小家电德尔玛上市破发 雷军、薇娅丈夫提

【短讯】小家电德尔玛上市破发雷军、薇娅丈夫提前入股能赚多少?。新闻资讯提供最新、最及时的新闻服务。包更多

2023-05-20 07:55:28
【短讯】美国共和党债务上限谈判代表:谈判已经暂停 全球实时

【短讯】美国共和党债务上限谈判代表:谈判已经暂

【短讯】美国共和党债务上限谈判代表:谈判已经暂停。新闻资讯提供最新、最及时的新闻服务。包括:个股新闻更多

2023-05-20 07:02:49
+ 点击查看更多精彩

精彩放送

太原12个楼盘发放18张预售证 仅有3个项目为纯新盘
    今年9月,太原市房产管理局给省城12个楼盘正式发放了18张预售证。...
截至9月底 杭州共完成不动产登记988.72万件
    房产证、土地证,两证合一了!2016年6月1日,在市民之家举行的全市...
各地继续密集发布楼市宽松政策 多地支持农民进城购房
    近期以来,各地继续密集发布楼市宽松政策,其中包括长春、遵义多...
宁波:关于“带押过户”新模式的7个典型问题权威解答来了
    日前,宁波市不动产登记中心试点二手房带押过户新模式。新模式下...
多地政府大手笔回购商品房 苏州拟对10个板块回购约1万套新房
    越来越多的地方政府出手回购当地商品房。近日,一份苏州市政府部...
市场降温豪宅不冷 媒体:北上广深掀起“豪宅热”
    尽管整体市场低迷,但豪宅板块比较稳定。争取成交,忙完这一次,...
    最新见闻