欢迎访问
高算力时代下的新赛道,AI与存储互生“情愫”,携手“奔赴”数据处理高峰
2022-11-30 来源:网络整理
7559

关键词: AI 人工智能

说起“存储”和“AI”,很多人会说存储对AI很重要,因为AI的发展是由海量数据支撑起来的,这就使得人们对数据处理提出了极高的要求,需要更大的内存去存储更多的数据,不得不承认,高性能的存储能让AI技术发挥出最大威力。但其实AI对存储也很重要,AI 时刻推动着存储的发展,究其原因绕不开存内计算(PIM :Processing in-memory)。

存内计算是一项打破传统冯诺依曼架构的新型运算架构,通过将存储和计算有机结合,直接利用存储单元进行计算,极大地消除了数据搬移带来的开销,解决了传统芯片在运行人工智能算法上的“存储墙”与“功耗墙”问题,可以数十倍甚至百倍地提高人工智能运算效率,降低成本。

虽然存内计算的基本概念早在上个世纪七十年代就已经被提出,但直到近些年才逐渐成为人们关注的焦点,原因在于,算力和运算数据量的激增导致存储墙问题愈发凸显,想要进一步提高算力,只有解决存储墙问题,而在各种解决方案中存内计算是最直接的一种方式,可以实现高能效、低功耗、低成本。



早在2019年,美光首席执行官 Sanjay Mehrotra 就指出,曾经的计算架构并不适合未来的发展趋势,从长远来看认为计算最好在内存中完成。当时美光另一位技术高管也坚信计算和内存的融合对于提高性能效率和降低延迟是必要的,并愿意为此付出努力。不少业内人士认为,未来存储器可能不仅仅是存储设备,还可能是加速器,或者还会具备其他的功能,例如更好的ECC等。

那么,面对数据量激增的未来,如何应对内存带宽挑战,实现更优质的 PIM来减轻各种 AI 驱动所面对的诸如HPC、培训和推理等工作负载?AI就是一个很好的选择,随着技术的演进,越来越多的存储厂商开始加入AI战…


AI存储,百亿空间

IDC预测,全球AI(人工智能)市场支出将在2021年达到850亿美元,并在2025年增至2,000亿美元,五年复合增长率(CAGR)约为24.5%。2025年,全球约8%的AI相关支出将来自于中国市场,市场规模在全球九个区域中位列第三。

“十四五”规划纲要将“新一代人工智能”作为议题重点提及,加上新基建、数字经济在内的持续利好政策的推动,中国AI市场将稳步发展。根据最新预测,2021年,中国在AI市场的支出规模将达到82亿美元。2021-2025的五年预测期内,中国市场AI相关支出总量将以22%左右的CAGR增长,有望在2025年超过160亿美元。

人工智能市场的高速发展,也带动了AI存储的发展。根据IDC,从2018年开始,全球AI存储的年复合增长率高达37%,到2022年,AI存储的市场规模将达100亿美金。

也就是说,今年AI存储的市场规模就将进入百亿美金俱乐部了。


AI 时代,存储比以往更加重要

在 AI 的快速发展下,数据量出现了爆炸式增长,AI 工具也开始在各种不同的、以存储为中心的应用程序中展开。比如,在 AI 训练工程中,需要存储智能分层;亦或者,从更实际的层面上来看,AI 训练亟待解决在多云环境下的存储问题。

为此,人们开始对于数据处理的极高需求与底层存储技术之间的不匹配感越来越强烈。当数据增长得越多,在内存和存储上的数据堵塞就越严重,人们愈发希望扩大内存,在 DRAM 上存储更多数据,同时需要保持低时延,不能和 CPU 的运算速度相差太远。于是,我们看到了来自 AI 对存储的正向驱动,也了解到企业对软件定义存储有了更大的需求。


AI 激活存储的隐藏潜力

尽管 AI 时刻在推动存储发展,但是想要进一步激活存储潜力,仍需要解决 AI 场景下,存储容易面临的挑战:

海量小文件,由于训练任务需要的文件数量都在几亿到十几亿的量级,所以存储需要能承载几十亿甚至上百亿的文件数量。同时,由于很多训练模型都是依赖于图片、音频片段、视频片段文件,而这些文件基本上都是在几 KB 到几 MB 之间。

读多写少,在大部分场景中,训练任务只读取文件,中间很少产生中间数据,即使产生了少量的中间数据,也是会选择写在本地,很少选择写回存储集群。



目录热点,由于训练时,业务部门的数据组织方式不可控,很有可能用户会将大量文件存放在同一个目录,容易导致多个计算节点在训练过程中,会同时读取这一批数据,这个目录所在的元数据节点就会成为热点。

“工欲善其事,必先利其器”,要想发挥出 AI 人工智能技术的最大威力,解决存储挑战就成为企业构建强有力的 IT 基础设施的重要一环。如果没有高性能的存储,就会导致整个系统性能出现延迟的情况。

因此 AI 对存储性能的要求是很苛刻的,企业希望存储系统能满足高吞吐量和低延时的需求,让更多的数据能更及时地传输和执行,那么对于这个愿望应该如何实现呢?


卡位AI,投资先行

如何最快获得一项新技术,投资/收购就是极为常见的一种方式,存储厂商开启AI投资热潮大约是在2018年前后,这一年也是人工智能的狂欢年,Google Duplex代替人类自动接打电话、欧盟正式发布的人工智能道德准则草案、OpenAI的5v5 DOTA AI“Open AI Five”再次完胜人类、全球第一个“AI合成主播”正式上岗…种种一切似乎让人们意识到,只在小说中存在的AI时代真的要来了。

2018年6月,存储龙头三星公布了一项专注于 AI 科技和初创公司的新基金“Samsung NEXT Q Fund ”,将为那些解决AI问题以及使用AI解决计算机科学问题的初创公司提供种子轮和 A 轮融资支持,公告中特别提到,包括的领域涉及模拟学习、场景理解,问题学习方案和人机交互。

到了2018年8月,三星集团宣布,未来三年将在AI、汽车零部件等领域投资逾220亿美元,其中大部分投资由三星电子承担;2021年8月,三星再次公布未来三年会投资240万亿韩元(约合2055亿美元)到生物制药、人工智能、半导体、机器人等领域。从2018年的220亿美元,到2021年的2055亿美元,十倍的增长,虽然AI并不是三星电子加大投资的惟一领域,但显然已经是被锁定的新成长领域。

在2018年三星宣布成立新基金后不久,美光也宣布通过美光创投投入一亿美元在人工智能及机器学习新创公司,当时消息显示,投资新创不仅有助于加速人工智能的发展,还能间接带动对于DRAM与NAND内存与3D Xpoint等次世代内存的需求。

或许是投资已经没办法满足需求,又或许是美光进一步认识到了存内计算的重要性,到了2019年,美光科技直接收购了人工智能硬件和软件初创公司Fwdnxt,这在当时的行业内掀起了不小的波澜。美光认为,Fwdnxt的技术与美光的存储芯片结合使用时,能够使美光具备探索数据分析所需的深度学习AI解决方案的能力,尤其是物联网和边缘计算。

美光方面还表示,收购Fwdnxt不仅不会与英特尔、英伟达等有更多的竞争,相反反而会有更多的合作。在美光看来,没有人可以在数据中心领域与他们竞争,存储厂商想要分得一杯羹,为英特尔等提供更多帮助,那么在边缘计算方面进行研究,将会是美光获得最大效率和规模经济的地方。

数据中心是互联网、云计算和人工智能等领域的通用支撑技术,中国信通院《数据中心白皮书2022》报告显示,2021年全球数据中心市场规模超过679亿美元,预计2022年市场收入将达到746亿美元。而存储和AI都是数据中心不可缺少的重要部分,一方面任何数据中心的数据最终都要放置到存储设备上。另一方面,AI能够帮助数据中心提高能源效率,进而节省成本,还能帮助优化运维,使用预测分析来帮助数据中心分配工作负载。那么,当数据中心的“左膀右臂”结合在一起,势必会带来奇效,这或许也是美光收购Fwdnxt的一部分考量。

而在2019年,SK海力士也加入了这场AI投资战,甚至攻势十分凶猛。2019年年初,SK海力士投资了地平线;2020年9月,宣布投资Gauss Labs公司,旨在通过工业人工智能(AI)解决方案引领半导体制造业创新;2022年1月,SK 海力士又同SK Telecom 以及 SK Square一起宣布,成立联合发展协会,首先将砸 800 亿韩元,在美国设立 AI 半导体公司 SAPEON,SK 海力士持有25%的股份,这对于SK 海力士来说,在 NAND 闪存以及AI领域的事业也会更进一步扩张。




国产厂商,迎头赶上

国产厂商,推出类似Pure Storage这样的AIRI通用AI一体机的不多,但推出AI存储的厂商就很多了。

比如华为,就专门推出了针对HPDA的OceanStor Pacific系列。

其中高端AI场景,就需要采用Pacific最高端的全闪型号Pacific 9950了。但从华为官网宣传的规格看,目前Pacific 9950虽然同时支持以太网和IB,但是最高速率还是100G。

反而国内专门做高性能文件系统的初创公司焱融科技,最近发布的全闪分布式文件存储一体机焱融追光 F8000X 系列,率先支持200G IB双端口,令人眼前一亮。


下一代存储助攻边缘AI发展

将存储进行异质整合的近存储运算(Near Memory Computing;NMC)与PIM形成两大派别,虽然在业界各有拥护者,但多家存储大厂多半采取同步进行的双重布局,其中,近存储运算的异质整合设计虽然具有较多I/O数量,但存储与逻辑芯片进行叠加的设计较为成熟,并可达到节省连接线及降低功耗的效益。

PIM技术仍处于初期研究阶段,至于异质整合则与多家潜在客户进行合作及讨论相关规格,包含云端AI运算、服务器运算、AI独角兽等相关客户,并希望在DRAM芯片进行灌孔设计,类似于让讯号可以透过灌孔进行对外传输,未来希望将导入于边缘服务器等相关应用。

不同于过去AIoT主要集中于工控客户,边缘AI将全面开发全球软件及新应用客户,边缘AI将是未来5~10年的重要成长动能。

边缘AI落地需要整合要多方串连,因此必须透过集团力量去符合客户需求,举例在AI智能城市的智能电杆,其监控环境功能需搭配参考判断,也需要高度整合模组进行针对空气感测、远端监控和标案部分,并加入频外远端管理等功能,透过结合软硬整合、远端管理及数据安全等三大关键要素,将可望助力全球客户加速达成AI最佳化目标。



Baidu
map