打通算力服务“最后一公里”(科技视点)

发布时间:2024-12-27 15:02:25 来源: sp20241227

  成都超算中心科研人员在巡检机房设备。   新华社记者 刘 坤摄

  今年《政府工作报告》提出:“适度超前建设数字基础设施,加快形成全国一体化算力体系,培育算力产业生态。”近日,国家超算互联网平台正式上线。国家超算互联网可将全国众多超算中心连接起来,构建一体化的超算算力网络和服务平台。目前,国家超算互联网平台已经连接了10余个算力中心,已有超过200家应用、数据、模型等服务商入驻,并提供超3200款商品,这些商品覆盖科学计算、工业仿真、人工智能模型训练等前沿数字化创新领域,满足经济社会发展对先进计算服务的需求。

  为何要建设国家超算互联网?国家超算互联网如何实现算力资源统筹调度、赋能产业创新?

  通过市场化的运营和服务体系,实现算力资源统筹调度

  打开国家超算互联网“商品广场”,由复旦大学类脑智能科学与技术研究院开发的“数字孪生脑平台”显示在售。这个平台整合了多模态的生物数据和先验知识,利用超算集群计算资源,将相关数据与算法集成为一个数字孪生的脑模拟平台,为脑科学与类脑智能研究提供服务支撑。用户在国家超算互联网上填写使用申请表后,即可申请试用“数字孪生脑平台”。详情页上,“商品说明”“服务与支持”“客户案例”“商品评价”等信息一目了然。

  在国家超算互联网平台上,科研人员、仿真工程师、人工智能研发人员可以像网络购物一样方便地购买和使用算力基础资源、应用软件、应用平台、数据资产等,并按照软件类型、算力、时长等付费。

  超算,即超级计算或高性能计算,经常应用于高精尖科研领域,被视为科技突破的“发动机”。如何更好地发挥超算的性能、高效求解各类应用中的科学问题,是超算发展的关键。

  近年来,随着超算与人工智能、大数据等新技术持续融合,超算应用场景日益丰富,服务科学研究、产业发展的方方面面,成为科技创新和产业创新的重要驱动力。另一方面,算力已从单纯以性能比拼,过渡到服务能力、计算应用、绿色低碳等新优势的比拼,对超算环境和应用提出了更高的要求。

  在此背景下,2023年4月,国家超算互联网正式启动建设,目标是突破现有单体超算中心运营模式,紧密连接供需方,通过市场化的运营和服务体系,实现算力资源统筹调度,以应对算力设施分布不均衡、接口不统一、应用软件自主研发和推广不足等问题,有效支撑原始科学创新、重大工程突破、经济高质量发展等目标,成为支撑数字中国建设的“高速路”。

  国家超算互联网依托一体化的算力调度、数据传输、生态协作体系,实现算力供给、软件开发、数据交易、模型服务等产业链各主体的紧密连接,构建市场化、互联网化、服务化、标准化的高性能计算服务环境。经过近一年建设,国家超算互联网工作取得了突破性进展,并完成了首阶段的建设目标。

  从“提供算力”向“提供服务”转变,国家超算互联网有望促使超算应用模式转变。中国科学院院士、超算互联网总体专家组组长钱德沛解释道:“狭义上,国家超算互联网通过高速网络将全国众多的超算中心连接起来,构建统一使用、对外服务的基础设施。广义上,则是通过互联网的形式,方便更多用户获取资源。同时,软件和服务也可以给更多人使用,实现计算资源、软件资源、应用解决方案资源的深度整合,从根本上提高超算的应用水平。”

  在超算互联网总体专家组副组长、上海交通大学教授管海兵看来,我国超算发展经历了硬件积累、软件创新到高性能计算环境建设的发展阶段,以互联网思维来运营超算算力,把相关软硬件、从业者和计算能力连接起来,能够更好发挥超算作用,为经济社会发展服务。

  已迭代100多个版本,建立了大型的基础服务平台

  超算中心与智算中心、云计算中心的应用场景有明显差异。云计算中心即传统数据中心,主要提供通用算力、大数据分析等服务,在数据存储和虚拟化等方面具备优势;智算中心则主要应用于人工智能、机器学习、图像处理、语音识别等领域,这些应用需要快速迭代和优化模型,对计算效率要求较高;超算中心通常由大量的计算节点和高速互联网络组成,可同时进行大量并行计算任务,应用于大规模科学计算、工程仿真、气象预报等。

  “很多的科学计算里面需要人工智能技术,很多人工智能应用也需要高精度、混合精度的计算。未来,单一精度的计算会变少,混合精度的计算会成为主流。多元融合、超智融合将是算力基础设施发展的重要趋势。”国家高性能计算机工程技术研究中心副主任曹振南说。

  中国信息通信研究院副院长王志勤认为,过去的通用算力正逐渐向超算、智算、通用算力三种类型方向发展,“因此,分散化的算力如何通过更好的机制实现互联互通,亟须一些新技术、新模式的探索。”

  曹振南介绍,架构上,国家超算互联网可分为3层。最底层是汇聚各个不同算力中心的异构算力资源;中间通过一体化服务与调度平台,进行分布式异构算力资源调度,与应用服务化封装、发布、管理,包括面向不同用户、不同资源的各类管理、交易、作业等;最上层则建立了算力应用商店,为用户提供各种算力、软件、数据、模型、源码、技术等。

  国家超算互联网建设过程中,多家国家/区域超算中心、应用软件单位、支撑单位,以及从事超算相关领域的企业和高校院所等组织成立了超算互联网联合体。成员单位从成立时的22家扩展到现在的128家。联合体还成立了工作组和研发团队,开展相关设计研发工作。

  “同时,我们也希望用互联网的模式‘共创’整个国家超算互联网。在研发过程中,有500多个共创者参与进来,进行软件打包、适配、软件应用设计等工作,来自各个行业的1000多位‘体验官’给我们提出了很多宝贵意见。一年来,国家超算互联网平台已迭代100多个版本,形成10个主要模块和100万行以上的源代码,建立了大型的基础服务平台。”曹振南说。

  曹振南表示,面向未来,国家超算互联网要建立更多元的算力服务模式和更多样的资源部署模式。“我们希望为用户提供‘一点接入、随取随用’的服务。用户无需关注算力类型、地理位置、软件归属,甚至不需要知道谁在为你服务。”

  建立良好的商业模式,使更多行业和领域受益于超算

  近年来,我国在超算互联网领域已经开展了一些探索和实践。

  比如,国家超算无锡中心联合国家超算广州中心等超算中心,以及清华大学、之江实验室等应用单位开展了超算互联网技术体系和应用模式研究;山东上线超算互联网工程,以实现数据和算力的互联互通,打造“山东算网”。2023年10月,工业和信息化部等6部门印发了《算力基础设施高质量发展行动计划》,提出“探索构建布局合理、泛在连接、灵活高效的算力互联网”。

  中国科学院院士鄂维南认为,国家超算互联网应用生态的打造,有利于降低超算应用门槛,加快科学计算和人工智能等技术的发展。华大生命科学研究院生物信息首席科学家黎宇翔表示,有了国家超算互联网,相当于打通了算力服务的“最后一公里”,可以基于自己的平台跟国家超算互联网结合,进行跨区域的数据传输和计算,选择最合适的算力类型,适配具体的应用。

  在国家超算天津中心党组书记、应用研发首席科学家孟祥飞看来,经过多年发展,我国超算研制和建设已经规模化,形成了广泛的超算算力布局能力。“从算力供给侧来说,超算‘微—宏’架构差异越来越大,可扩展性、可靠性、可编程性等方面也面临巨大的挑战。新的数据范式的发展,使得超级计算机要兼顾数值计算、数据处理等各方面的应用需求,它的支撑能力也面临着巨大的挑战。从需求侧来说,重大科学与工程领域面临巨大的多元化算力需求,而多学科交叉、多领域团队协同的系统性创新,底层需要有一个综合能力的信息化载体、算力载体来支撑。”

  中国工程院院士、清华大学教授郑纬民认为,推动国家超算互联网平台再上新台阶,一是要提升平台的互联带宽,二是要将超算节点之间的互通做好,统一编程框架,使一个程序可以在不同机器上运行,三是要进一步挖掘超算互联网平台的新应用。

  钱德沛说:“构建支撑应用的国家超算互联网,不单要做网络,更重要的是建立超算互联网平台上各角色之间良好的商业模型,鼓励更多的力量投入超算应用事业,使更多行业和领域受益于超算,让超算资源得到充分应用,成为支撑国家创新发展的基础设施。”

  《 人民日报 》( 2024年05月06日 19 版)

(责编:牛镛、岳弘彬)