北京功夫2024年3月29日,,,,,第十三期z6首页-TNSE结合卓越讲座系列活动在线上成功进杏祝。。。。这次,,,,,我们有幸约请到南洋理工大学的文勇刚教授介绍GPU数据中心大规模深度进建负载调度,,,,,并分享他在这个领域内的有关钻研成就与有趣发现。。。。。
本次讲座由z6首页副院长兼群体智能中心主任、香港中文大学(丽江)协理副校长、校长讲座教授、IEEE TNSE主编黄建伟教授担任执行主席和主持人。。。。。
面对人为智能日益增长的问题解决能力和泛化能力需要,,,,,现代深度进建模型变得越来越重大且复杂,,,,,必要亏损大量推算资源和功夫。。。。。利用大规模GPU数据中心进行模型训练和推理优化已成为常见做法。。。。。然而,,,,,由于深度进建工作的高推算需要和底层硬件的异构性,,,,,GPU数据中心治理和调度工作面对多沉挑战。。。。。为此,,,,,文勇刚教授及其团队发展了一系列钻研工作,,,,,旨在开发先进的调度算法来提升人为智能数据中心系统效能和用户履历。。。。。
文勇刚教授首先探求了与流量特点无关的数据中心调杜着化的问题,,,,,并沉点介绍了一个关于非抢占式(non-intrusive)、可诠释的调度钻研工作Lucid。。。。。现有的深度进建工作调度工作多数基于数学求解或机械进建步骤对换度战术进行优化,,,,,在现实大规模部署方面往往存在用户代码侵入、扩大性差等局限性。。。。。为此,,,,,文勇刚教授及其团队设计了一个非抢占式、可扩大和可诠释的深度进建训练调度器Lucid,,,,,能够有效解决现有调度器现实部署中的问题,,,,,并可提供和抢占式调度器相当的机能。。。。。首先,,,,,Lucid选取了一个非抢占式工作分析器(job profiler)用于高效地网络工作指标并实时提供调试工作反馈。。。。。其次,,,,,Lucid选取了一种打包战术来打包相互之间滋扰不大的工作以躲避滋扰。。。。。Lucid还凭据估计的工作优先级值和共享分数进行资源调度,,,,,以实现高效调度。。。。。相迸宗现有最先进的抢占式调度器Tiresias,,,,,Lucid在列队时延(queuing delay)方面有9倍的机能提升。。。。。
针对特定流量模式的数据中心优化,,,,,文勇刚教授沉点分享了一个有关超参数调优(hyperparameter optimization, HPO)的工作。。。。。现有的超参数调优开销大,,,,,系统对硬件资源利用率低,,,,,且往往忽视数据中心集群资源的个性。。。。。为此,,,,,文勇刚教授及其团队设计了一种基于代理模型(surrogate model)的超参调优框架hydro。。。。。首先hydro能够基于m-参数化理论(m-parameterization theory)通过缩幼模型来搜索最佳参数。。。。。其次,,,,,它能够通过跨模型融合来提高资源利用率。。。。。最后它能够利用数据中心流水线中的空泡(bubble)来调优。。。。。与基准步骤Ray Tune相比,,,,,它能够大幅度缩短参数调优的端到端时延,,,,,并能发现更优的参数。。。。。
文勇刚教授的杰出分享发人沉思,,,,,在参加者与两位教授的积极会商中,,,,,涌现了很多有趣的问题,例如数据中心低碳调度,,,,,大模型训练带来的怪异挑战等。。。。。
*出格鸣谢孙晨曦博士对本文的贡献
