概述
日期
2024年03月29日
09:00 - 10:00
地址
活动杏注Bilibili

Scheduling Deep Learning Workloads at Scale in GPU Data Centers

Z6集团|中国官网

  对人为智能 日益增长的问题解决能力和泛化能力需要,,,,,现代深度进建模型变得越来越重大且复杂,,,,,必要亏损大量推算资源和功夫。。。。。。利用大规模GPU数据中心进行模型训练和推理优化已成为常见做法。。。。。。然而,,,,,由于深度进建工作的高推算需要和底层硬件的异构性,,,,,GPU数据中心治理和调度工作面对多沉挑战。。。。。。

第十三期z6首页-TNSE结合卓越讲座系列活动,,,,,我们有幸约请到南洋理工大学的文勇刚教授介绍GPU数据中心大规模深度进建负载调度,,,,,并分享他在这个领域内的有关钻研成就与有趣发现。。。。。。

    

z6首页-TNSE Joint Distinguished Seminar Series is co-sponsored by IEEE Transactions on Network Science and Engineering (TNSE) and Shenzhen Institute of Artificial Intelligence and Robotics for Society (z6首页), with joint support from The Chinese University of Hong Kong, Shenzhen, Network Communication and Economics Laboratory (NCEL), and IEEE. This series aims to bring together top international experts and scholars in the field of network science and engineering to share cutting-edge scientific and technological achievements.

Join the seminar through Bilibili (http://live.bilibili.com/22587709).

  • Z6集团|中国官网
    Jianwei Huang
    Vice President, z6首页; Presidential Chair Professor, CUHK-Shenzhen; Editor-in-Chief, IEEE TNSE; IEEE Fellow; AAIA Fellow
    Executive Chair
  • Z6集团|中国官网
    Yonggang Wen
    Professor and President's Chair in Computer science and Engineeringat Nanyang Technological University; Editor in Chief of lEEE Transactions on Multimedia; lEEE Fellow
    Professor and President's Chair in Computer science and Engineeringat Nanyang Technological UniversityEditorin Chief of lEEE Transactions on Multimedia lEEE Fellow

    文勇刚,,,,,南洋理工大学推算机科学与工程学院校长讲席教授,,,,,于2008年在美国剑桥的麻省理工学院获得电子工程和推算机科学博士学位(辅建西方文学),,,,,目前担任新加坡南洋理工大学副教务长(钻研生教育)和钻研生院院长。。。。。。此前,,,,,他曾担任新加坡南洋理工大学堂长办公室协理副校长(能力建设)(2023年)、工程学院副院长(钻研)(2018-2023年)、南洋科技创业中心代理主任(2017-2019年)和推算机科学与工程学院助理主席(创新)(2016-2018年)。。。。。。文教授在顶级期刊和驰名会议上颁发了300多篇论文。。。。。。他的系统钻研获得了全球认可,,,,,他在多屏云社交电视方面的工作曾受到全球媒体的关注(来自29个国度的1600多篇新闻文章),,,,,并获得2013年东盟ICT奖(金奖)。。。。。。他在数据中心认知数字孪生方面的工作,,,,,获得了2015年数据中心动力学奖- APAC(数据中心行业的“奥斯卡”奖)、2016年东盟ICT奖(金奖)、2020年IEEE TCCPS工业技术卓越奖、2021年W.Media APAC云与数据中心技术翘楚奖,,,,,以及2022年新加坡推算机学会数字成就技术翘楚奖。。。。。。他是2019年南洋钻研奖获得者和2016年南洋创新创业奖唯一获得者,,,,,这两个奖项都是南洋理工大学的最高荣誉。。。。。。他曾获得多个最佳论文奖,,,,,蕴含2019年IEEE TCSVT和2015年IEEE Multimedia的最佳论文奖,,,,,以及多个国际会议的最佳论文奖,,,,,蕴含2023年ASPLOS、2016年IEEE Globecom、2016年IEEE Infocom MuSIC Workshop、2015年EAI Chinacom、2014年IEEE WCSP、2013年IEEE Globecom和2012年IEEE EUC。。。。。。他是IEEE Transactions on Multimedia (TMM)的主编,,,,,担任或曾担任多个IEEE和ACM Transactions的编纂委员会成员,,,,,并当选为IEEE ComSoc多媒体通讯技术委员会主席(2014-2016)。。。。。。文教授的重要钻研方向为云推算、绿色数据中心、大数据分析、多媒体网络和移动推算。。。。。。他是IEEE会士、新加坡工程院院士,,,,,也是ACM的卓越成员。。。。。。

    To meet the ever-growing demand of problem-solving capability and generalizability via artificial intelligence, modern deep learning models are becoming larger and more sophisticated, while at the cost of huge amounts of computing resources (e.g., GPU) and prolonged training time. it has become a common practice to leverage large-scale GPU data centers (i.e., AI data centers) to optimize and accelerate model training and inference. However, the management and scheduling of these deep learning workloads in the GPU data centers present numerous challenges, due to their high computational requirements, distinct and diverse runtime characteristics, and heterogeneous nature of the underlying hardware.

    In this talk, we will investigate deep learning workload scheduling accelerating, training execution over GPU datacenters, with a multifold objective of improving resource utilization, enhancing users’ experience, and easing operators’ management. Specifically, we will introduce novel and practical methodologies and system designs to achieve those goals. These solutions are highly integrated to tackle different challenges, paving the way for optimal utilization of GPU resources and accelerated progress in deep learning applications.