新闻动态

  

北京功夫2023年8月18日 ,,,,,第九期z6首页-TNSE结合卓越讲座系列活动在线上成功进行。。。。。。。。

北京功夫2023年8月18日 ,,,,,第九期z6首页-TNSE结合卓越讲座系列活动在线上成功进行。。。。。。。。这次 ,,,,,我们有幸约请到加州大学戴维斯分校的Junshan Zhang教授介绍热启动强化进建的有关钻研 ,,,,,并分享他在这个领域内的成就与有趣发现。。。。。。。。

本次讲座由 z6首页 副院长兼群体智能中心主任、香港中文大学(丽江)协理副校长、校长讲座教授、IEEE TNSE 主编黄建伟教授担任执行主席和主持人。。。。。。。。

热启动强化进建在离线训练中获得的先验战术的援手下 ,,,,,在成为一种拥有现实利用价值的强化进建步骤。。。。。。。。然而 ,,,,,最近的经验钻研批注 ,,,,,热启动强化进建的机能在某些情况下能够急剧提高 ,,,,,但在其他情况下却变得滞碍不前 ,,,,,出格是当使用函数逼近时。。。。。。。;;;;;;诖 ,,,,,Junshan Zhang教授及其合作者聚焦于钻研关键性问题:是否以及何时能够通过离线强化进建的热启动战术显著加快在线进建???????

Junshan Zhang教授及其合作者首先思考宽泛利用的拥有先验战术的Actor-Critic(A-C)步骤:通过度别量化Actor更新和Critic更新中的近似误差 ,,,,,将热启动A-C算法转化为带扰动的牛顿法 ,,,,,从而得出近似误差对不正确的Actor/Critic更新的有限功夫进建机能的影响。。。。。。。。进一步地 ,,,,,钻研提供了次优差距(Suboptimality Gap)的上限 ,,,,,为热启动强化进建的设计提供了领导 ,,,,,以实现所需的有限功夫进建机能。。。。。。。。出格地 ,,,,,有偏近似误差情况下的次优差距下限的钻研批注 ,,,,,即便有优良的先验战术 ,,,,,机能差距也可能远离零。。。。。。。。

Junshan Zhang教授的杰出分享发人沉思 ,,,,,在参加者与两位教授的积极会商中 ,,,,,涌现了很多有趣的问题。。。。。。。。例如非线性方程近似的场景、选取预训练模型的机遇选择、异构数据散布的影响等。。。。。。。。

视频回首:https://www.bilibili.com/video/BV1or4y1976H/

*出格鸣谢李想对本文的贡献