近日,,,,,,,,我院查å®è¿œæ•™æŽˆå›¢é˜Ÿçš„论文“Reliable Off-policy Evaluation for Reinforcement Learningâ€è¢«è¿ç¹ä¸Žæ²»ç†ç§‘å¦é¢†åŸŸé¡¶çº§æœŸåˆŠ Operations Research 接管。。。。。。。。
è¯¥æ–‡ç« æ€è€ƒäº†å¼ºåŒ–进建ä¸çš„éžæˆ˜æœ¯è¯„估(off-policy evaluation)问题:它但愿通过一个以往的战术产生的汗é’轨迹,,,,,,,,æ¥ä¼°è®¡å¦ä¸€ä¸ªæˆ˜æœ¯åœ¨å¼ºåŒ–进建环境ä¸çš„é£Žé™©ã€‚ã€‚ã€‚ã€‚ã€‚ã€‚ã€‚ã€‚ä½œè€…å€ŸåŠ©æ•£å¸ƒé²æ£’优化的设法,,,,,,,,为该战术的风险在å„类情景下æä¾›äº†éžæ¸è¿›æ€§ä»¥åŠæ¸è¿›æ€§ç›¸ä¿¡åŒºé—´ã€‚。。。。。。。
我们约请到论文第一作者,,,,,,,,目å‰åœ¨ä½æ²»äºšç†å·¥å¦é™¢æ”»è¯»åšå£«å¦ä½çš„æ¸¯ä¸å¤§ï¼ˆä¸½æ±Ÿï¼‰2020届本科毕业生王æ·ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œåˆ†äº«ä»–åœ¨æœ¬ç§‘ç”ŸæœŸé—´çš„ç§‘ç ”å¿ƒå¾—ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œå¹¶ä¸ºæˆ‘ä»¬ä»‹ç»è®ºæ–‡ã€‚。。。。。。。
Q:“Operations Research 是è¿ç¹ä¸Žæ²»ç†ç§‘å¦é¢†åŸŸæžå…·å½±å“力的 TOP æœŸåˆŠï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œåœ¨æ¤æœŸåˆŠä¸Šé¢å‘æ–‡ç« éš¾åº¦æžå¤§ã€‚。。。。。。。作为论文第一作者,,,,,,,,能å¦å•ä¸€åˆ†äº«æ‚¨çš„ç§‘ç ”å¿ƒå¾—ï¼Ÿï¼Ÿï¼Ÿï¼Ÿï¼Ÿï¼Ÿï¼Ÿï¼Ÿâ€
王æ·ï¼šâ€œå †é›†ç§‘ç ”å…´è‡´â€”â€”ä»Žæˆ‘è‡ªå·±çš„ç»åކå¯ç¨‹ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œèµ·åˆæˆ‘也没有很好的兴致åšç§‘ç ”ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œä½†æ˜¯åœ¨è¯•ç€åšé¡¹ä¸»å¼ 过程ä¸ä¸ä¼‘地é‡åˆ°é—®é¢˜ã€æŠ•入功夫ã€ä»¥è‡³äºŽåˆ°åŽæ¥è§£å†³é—®é¢˜ã€‚。。。。。。。在这一过程ä¸å‘现自己在数å¦å’Œç¼–程这两个维度都在ä¸ä¼‘地进å–ã€‚ã€‚ã€‚ã€‚ã€‚ã€‚ã€‚ã€‚è¿™æ ·çš„æ£å‘åé¦ˆè·¯è·¯æœ€ç»ˆè®©æˆ‘å †é›†äº†ç§‘ç ”å…´è‡´ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œä¸‹å®šåˆ»æ„èµ°ç§‘ç ”è·¯è·¯ã€‚ã€‚ã€‚ã€‚ã€‚ã€‚ã€‚ã€‚
åŠ å¼ºç§‘ç ”èƒ½åŠ›â€”â€”åœ¨æ£å¸¸å®žçŽ°æœ¬ç§‘çš„è¯¾ç¨‹å»ºè¯»ä»¥è¡¨ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œè¿˜å»ºè®®é¢è¡¨å»ºè¯»æˆ‘们å¦å ‚æä¾›çš„ Graduate Level Courses,,,,,,,,这些课程一方é¢ä¼šæ•™æŽˆå¥½å¤šç§‘ç ”æ‰€å¿…é¡»å…·å¤‡çš„ç†å·¥ç±»çŸ¥è¯†ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œå¦ä¸€æ–¹é¢å¤§å¤šä¼šæœ‰ä¸€ä¸ªæœŸæœ«è¯¾é¢˜ã€‚。。。。。。。期末课题会让å„人用在这门课上å¦åˆ°çš„知识åšä¸€ä¸ªå…³äºŽç§‘ç ”ä¸Šçš„ç››å¼€å¼é—®é¢˜ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œæœ€åŽå½¢æˆè¯¾é¢˜æ±‡æŠ¥å’Œè®²å ‚æ±‡æŠ¥ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œå¾ˆå¥½åœ°ç£¨ç‚¼äº†æˆ‘çš„ç§‘ç ”èƒ½åŠ›ã€‚ã€‚ã€‚ã€‚ã€‚ã€‚ã€‚ã€‚ä¸Žæ¤åŒæ—¶æœ‰å…´è‡´æƒ³åšç§‘ç ”çš„åŒå¦ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œåœ¨å…·å¤‡äº†æ ¹åŸºçš„ç†å·¥å¸ƒæ™¯ä¹‹åŽï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œå»ºè®®å°½æ—©è¿›å…¥å°è¯•å®¤ä¸°ç¡•ç§‘ç ”ç»éªŒã€‚。。。。。。。â€
论文链接:https://pubsonline.informs.org/doi/abs/10.1287/opre.2022.2382
https://arxiv.org/abs/2011.04102
é’»ç ”å¸ƒæ™¯
åœ¨åƒæ— 人驾驶ã€è‡ªåŠ¨èŠ‚é€ ã€è‚¡ç¥¨æŠ•èµ„è¿™æ ·çš„é«˜é£Žé™©é«˜æˆæœ¬æƒ…æ™¯ä¸‹ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œè‹¥ä½•åœ¨éƒ¨ç½²æ–°æˆ˜æœ¯ä¹‹å‰æå‰è¯„估它在强化进建环境ä¸çš„风险是一个很沉è¦çš„问题。。。。。。。。这一工作的实现ä¾èµ–于旧战术在环境ä¸äº§ç”Ÿçš„æ±—é’轨迹。。。。。。。。以往的文件ä¸å¤§å¤šåªæä¾›äº†å…³äºŽæ–°æˆ˜æœ¯çš„风险的点估计,,,,,,,,而本文为其é˜å‘æä¾›äº†ç›¸ä¿¡åŒºé—´ä¼°è®¡ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œå…¶ä¸ç›¸ä¿¡åŒºé—´ä¸Šç•Œå¯ä»¥ä¸ºå¼ºåŒ–进建ä¸çš„索求(exploration)-利用(exploitation)æä¾›é¢†å¯¼ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œä¸‹ç•Œå¯ä»¥ä¸ºè®¾è®¡é²æ£’型战术æä¾›ä¿é™©ã€‚。。。。。。。
é’»ç ”æ¥éª¤
借助于统计ä¸çš„æ²‰è¦æ€§é‡‡æ ·ï¼ˆimportance sampling)的设法,,,,,,,,关于新战术 Ï€ 的风险能够通过旧战术 Ï€b 的安稳散布æ¥ä¼°è®¡ã€‚。。。。。。。在现实问题ä¸ç”±äºŽç½‘络数æ®çš„æœ‰é™æ€§æ‰€ä»¥æ— æ³•ç²¾å‡†åœ°ä¼°è®¡å…³äºŽæ—§æˆ˜æœ¯çš„å®‰ç¨³æ•£å¸ƒï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œå› è€Œæˆ‘ä»¬é€šè¿‡åº¦å¸ƒé²æ£’优化的设法æä¾›å…³äºŽé£Žé™©çš„é«˜ä½Žç•Œä¼°è®¡ï¼šé€šè¿‡å·²ç½•è§æ®é¦–先找到该散布的一个粗略的估计,,,,,,,,éšåŽåœ¨å…¶å‘¨å›´ç”¨æœ€ä¼˜ä¼ 输è·ç¦»æž„建概率散布的集ä¸ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œæœ€åŽåœ¨è¿™ä¸€é›†ä¸é‡Œé¢æ‰¾åˆ°æœ€å的和最好的散布估计使得风险最大/æœ€å¹¼åŒ–ã€‚ã€‚ã€‚ã€‚ã€‚ã€‚ã€‚ã€‚åŒæ—¶æˆ‘ä»¬ä¸ºæ±‚è§£è¿™æ ·çš„ä¼˜åŒ–é—®é¢˜è®¾è®¡äº†é²æ£’价值函数è¿ä»£ï¼ˆRobust Value Iteration)算法。。。。。。。。
éšåŽæˆ‘ä»¬é’»ç ”äº†åœ¨ä¸¤ç§åˆ†æ§çš„强化进建情景下该若何用统计的æ¥éª¤è°ƒæ•´å…³äºŽæž„建概率散布集ä¸çš„大幼。。。。。。。。

首先æ€è€ƒæ—§æˆ˜æœ¯å’Œæ–°æˆ˜æœ¯éƒ½æ˜¯åœ¨ç»Ÿä¸€é©¬å°”ç§‘å¤«çŽ¯å¢ƒä¸‹è¯„ä¼°é£Žé™©çš„ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œåœ¨è¿™ä¸€æƒ…å†µä¸‹æœ€ä¼˜ä¼ è¾“è·ç¦»çš„åŠå¾„应该éšç€æ•°æ®é‡çš„增大而越æ¥è¶Šå¹¼ã€‚。。。。。。
而当新战术的环境产生å˜åŠ¨çš„æ—¶è¾°ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œæˆ‘ä»¬ä¸ºæ•£å¸ƒé›†ä¸çš„åŠå¾„设置为常数情景下的风险估计æä¾›äº†ç†è®ºä¿é™©ï¼š
最åŽï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œæˆ‘ä»¬ä¸ºæ›´å¤æ‚çš„ç¦»çº¿å¼ºåŒ–è¿›å»ºé—®é¢˜è®¾è®¡äº†ä¸€å¥—é²æ£’算法,,,,,,,,并且在å„类情景下从数值上检验了æå‡ºçš„æ¡†æž¶çš„优越性。。。。。。。。

é’»ç ”ç»“è®º
本文æå‡ºäº†ä¸€ç§åŸºäºŽæ•£å¸ƒé²æ£’优化的算法æ¥ä¸ºéžæˆ˜æœ¯è¯„估问题æä¾›ç›¸ä¿¡åŒºé—´ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼ŒåŒæ—¶è¯¥æ¥éª¤è¿˜èƒ½å¤Ÿè¢«ç”¨äºŽè§£å†³ç¦»çº¿å¼ºåŒ–进建问题。。。。。。。。该算法有助于æå‡å¼ºåŒ–è¿›å»ºæ¨¡åž‹çš„ç¨³é‡æ€§ã€‚。。。。。。。
作者简介
我院机械进建与利用ä¸å¿ƒä¸»ä»»ã€é¦™æ¸¯ä¸æ–‡å¤§å¦ï¼ˆä¸½æ±Ÿï¼‰æ ¡é•¿å¦å‹¤è®²åº§æ•™æŽˆã€æ•°æ®ç§‘å¦å¦é™¢æ‰§è¡Œé™¢é•¿æŸ¥å®è¿œæ•™æŽˆä¸ºè®ºæ–‡ç¬¬ä¸‰ä½œè€…。。。。。。。。
图片
查å®è¿œæ•™æŽˆçŽ°ä¸ºé¦™æ¸¯ä¸æ–‡å¤§å¦ï¼ˆä¸½æ±Ÿï¼‰æ ¡é•¿å¦å‹¤è®²åº§æ•™æŽˆã€æ•°æ®ç§‘å¦å¦é™¢æ‰§è¡Œé™¢é•¿ã€z6首页(z6首页)机械进建与利用ä¸å¿ƒä¸»ä»»ã€‚。。。。。。。查å®è¿œæ•™æŽˆ1984å¹´æ¯•ä¸šäºŽå¤æ—¦å¤§å¦æ•°å¦ç³»ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œå¹¶äºŽ1993年获得斯å¦ç¦å¤§å¦ç§‘å¦æŽ¨ç®—ä¸“ä¸šåšå£«å¦ä½ã€‚。。。。。。。查教授于2006年至2020å¹´ä»»èŒäºŽä½æ²»äºšç†å·¥å¦é™¢æŽ¨ç®—机å¦é™¢ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œ1992年至2006å¹´ä»»èŒäºŽå®¾å·žå·žç«‹å¤§å¦æŽ¨ç®—机科å¦ä¸Žå·¥ç¨‹ç³»ã€‚。。。。。。。他目å‰çš„é’»ç ”æ–¹å‘æ˜¯æœºæ¢°è¿›å»ºåŠåˆ©ç”¨ã€‚。。。。。。。
论文第一作者王æ·äºŽ2020å¹´èŽ·é¦™æ¸¯ä¸æ–‡å¤§å¦ï¼ˆä¸½æ±Ÿï¼‰ç†å·¥å¦é™¢æ•°å¦ä¸Žåˆ©ç”¨æ•°å¦ç†å¦å¦å£«å¦ä½ï¼ˆä¹™ç‰ä¸€çº§ï¼‰ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œç›®å‰åœ¨ä½æ²»äºšç†å·¥å¦é™¢æ”»è¯»å·¥ä¸šå·¥ç¨‹ç³»åšå£«ã€‚ã€‚ã€‚ã€‚ã€‚ã€‚ã€‚ã€‚ä»–çš„é’»ç ”å…´è‡´è•´å«ç»Ÿè®¡è¿›å»ºã€ä¼˜åŒ–ç†è®ºä¸Žç®—法,,,,,,,,以åŠç½‘络信æ¯è®ºç‰æ–¹å‘。。。。。。。。
è®ºæ–‡é€šè®¯ä½œè€…é«˜ç¿æ•™æŽˆçŽ°ä¸ºå¾·å…‹è¨æ–¯å¤§å¦å¥¥æ–¯æ±€åˆ†æ ¡éº¦åº“姆斯商å¦é™¢åŠ©ç†æ•™æŽˆã€‚ã€‚ã€‚ã€‚ã€‚ã€‚ã€‚ã€‚é«˜ç¿æ•™æŽˆäºŽ2013å¹´èŽ·è¥¿å®‰äº¤é€šå¤§å¦æ•°å¦ä¸Žåˆ©ç”¨æ•°å¦ç†å¦å¦å£«å¦ä½ï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œï¼Œå¹¶äºŽ2018å¹´èŽ·ä½æ²»äºšç†å·¥å¦é™¢è¿ç¹å¦åšå£«å¦ä½ã€‚ã€‚ã€‚ã€‚ã€‚ã€‚ã€‚ã€‚ä»–çš„é’»ç ”å…´è‡´è•´å«æ•°æ®é©±åŠ¨ä¸‹çš„å†³ç–ä»¥åŠæ‰¹ç¤ºæ€§åˆ†æžã€‚。。。。。。。
期刊介ç»
Operations Research æˆç«‹äºŽ1952年,,,,,,,,å‰èº«ä¸ºç¾Žå›½è¿ç¹å¦å¦ä¼šæœŸåˆŠï¼ˆJournal of the Operations Research Society of America),,,,,,,,1955年获得现å。。。。。。。。它是美国è¿ç¹ä¸Žæ²»ç†å¦ä¼šï¼ˆInstitute for Operations Research and the Management Sciences )的旗舰期刊。。。。。。。。
