新闻动æ€

  

è¿‘æ—¥,,,,,,,,我院查å®è¿œæ•™æŽˆå›¢é˜Ÿçš„论文被è¿ç­¹ä¸Žæ²»ç†ç§‘学领域顶级期刊 Operations Research 接管。。。。。。。 。

è¿‘æ—¥,,,,,,,,我院查å®è¿œæ•™æŽˆå›¢é˜Ÿçš„论文“Reliable Off-policy Evaluation for Reinforcement Learningâ€è¢«è¿ç­¹ä¸Žæ²»ç†ç§‘学领域顶级期刊 Operations Research 接管。。。。。。。 。

该文章æ€è€ƒäº†å¼ºåŒ–è¿›å»ºä¸­çš„éžæˆ˜æœ¯è¯„估(off-policy evaluation)问题:它但愿通过一个以往的战术产生的汗é’轨迹,,,,,,,,æ¥ä¼°è®¡å¦ä¸€ä¸ªæˆ˜æœ¯åœ¨å¼ºåŒ–进建环境中的风险。。。。。。。 ã€‚ä½œè€…å€ŸåŠ©æ•£å¸ƒé²æ£’优化的设法,,,,,,,,为该战术的风险在å„类情景下æä¾›äº†éžæ¸è¿›æ€§ä»¥åŠæ¸è¿›æ€§ç›¸ä¿¡åŒºé—´ã€‚。。。。。。 。

我们约请到论文第一作者,,,,,,,,目å‰åœ¨ä½æ²»äºšç†å·¥å­¦é™¢æ”»è¯»åšå£«å­¦ä½çš„æ¸¯ä¸­å¤§ï¼ˆä¸½æ±Ÿï¼‰2020届本科毕业生王æ·,,,,,,,,分享他在本科生期间的科研心得,,,,,,,,并为我们介ç»è®ºæ–‡ã€‚。。。。。。 。

Q:“Operations Research 是è¿ç­¹ä¸Žæ²»ç†ç§‘学领域æžå…·å½±å“力的 TOP 期刊,,,,,,,,在此期刊上é¢å‘文章难度æžå¤§ã€‚。。。。。。 。作为论文第一作者,,,,,,,,能å¦å•一分享您的科研心得????????â€

王æ·ï¼šâ€œå †é›†ç§‘研兴致——从我自己的ç»åކå¯ç¨‹,,,,,,,ï¼Œèµ·åˆæˆ‘也没有很好的兴致åšç§‘ç ”,,,,,,,,但是在试ç€åšé¡¹ä¸»å¼ è¿‡ç¨‹ä¸­ä¸ä¼‘地é‡åˆ°é—®é¢˜ã€æŠ•入功夫ã€ä»¥è‡³äºŽåˆ°åŽæ¥è§£å†³é—®é¢˜ã€‚。。。。。。 。在这一过程中å‘现自己在数学和编程这两个维度都在ä¸ä¼‘地进å–。。。。。。。 。这样的正å‘å馈路路最终让我堆集了科研兴致,,,,,,,,下定刻æ„走科研路路。。。。。。。 。

加强科研能力——在正常实现本科的课程建读以表,,,,,,,,还建议é¢è¡¨å»ºè¯»æˆ‘们学堂æä¾›çš„ Graduate Level Courses,,,,,,,,这些课程一方é¢ä¼šæ•™æŽˆå¥½å¤šç§‘研所必须具备的ç†å·¥ç±»çŸ¥è¯†,,,,,,,,å¦ä¸€æ–¹é¢å¤§å¤šä¼šæœ‰ä¸€ä¸ªæœŸæœ«è¯¾é¢˜ã€‚。。。。。。 。期末课题会让å„人用在这门课上学到的知识åšä¸€ä¸ªå…³äºŽç§‘研上的盛开å¼é—®é¢˜,,,,,,,,最åŽå½¢æˆè¯¾é¢˜æ±‡æŠ¥å’Œè®²å ‚汇报,,,,,,,,很好地磨炼了我的科研能力。。。。。。。 ã€‚ä¸Žæ­¤åŒæ—¶æœ‰å…´è‡´æƒ³åšç§‘研的åŒå­¦,,,,,,,,在具备了根基的ç†å·¥å¸ƒæ™¯ä¹‹åŽ,,,,,,,,建议尽早进入å°è¯•室丰硕科研ç»éªŒã€‚。。。。。。 。â€

论文链接:https://pubsonline.informs.org/doi/abs/10.1287/opre.2022.2382

https://arxiv.org/abs/2011.04102

钻研布景

åœ¨åƒæ— äººé©¾é©¶ã€è‡ªåŠ¨èŠ‚é€ ã€è‚¡ç¥¨æŠ•èµ„è¿™æ ·çš„é«˜é£Žé™©é«˜æˆæœ¬æƒ…景下,,,,,,,ï¼Œè‹¥ä½•åœ¨éƒ¨ç½²æ–°æˆ˜æœ¯ä¹‹å‰æå‰è¯„估它在强化进建环境中的风险是一个很沉è¦çš„问题。。。。。。。 。这一工作的实现ä¾èµ–于旧战术在环境中产生的汗é’轨迹。。。。。。。 ã€‚ä»¥å¾€çš„æ–‡ä»¶ä¸­å¤§å¤šåªæä¾›äº†å…³äºŽæ–°æˆ˜æœ¯çš„é£Žé™©çš„ç‚¹ä¼°è®¡,,,,,,,,而本文为其é˜å‘æä¾›äº†ç›¸ä¿¡åŒºé—´ä¼°è®¡,,,,,,,,其中相信区间上界å¯ä»¥ä¸ºå¼ºåŒ–进建中的索求(exploration)-利用(exploitation)æä¾›é¢†å¯¼,,,,,,,,下界å¯ä»¥ä¸ºè®¾è®¡é²æ£’型战术æä¾›ä¿é™©ã€‚。。。。。。 。


钻研步骤

å€ŸåŠ©äºŽç»Ÿè®¡ä¸­çš„æ²‰è¦æ€§é‡‡æ ·ï¼ˆimportance sampling)的设法,,,,,,,,关于新战术 Ï€ 的风险能够通过旧战术 Ï€b 的安稳散布æ¥ä¼°è®¡ã€‚。。。。。。 。在现实问题中由于网络数æ®çš„æœ‰é™æ€§æ‰€ä»¥æ— æ³•精准地估计关于旧战术的安稳散布,,,,,,,ï¼Œå› è€Œæˆ‘ä»¬é€šè¿‡åº¦å¸ƒé²æ£’优化的设法æä¾›å…³äºŽé£Žé™©çš„é«˜ä½Žç•Œä¼°è®¡ï¼šé€šè¿‡å·²ç½•è§æ®é¦–先找到该散布的一个粗略的估计,,,,,,,,éšåŽåœ¨å…¶å‘¨å›´ç”¨æœ€ä¼˜ä¼ è¾“è·ç¦»æž„建概率散布的集中,,,,,,,,最åŽåœ¨è¿™ä¸€é›†ä¸­é‡Œé¢æ‰¾åˆ°æœ€å的和最好的散布估计使得风险最大/最幼化。。。。。。。 ã€‚åŒæ—¶æˆ‘ä»¬ä¸ºæ±‚è§£è¿™æ ·çš„ä¼˜åŒ–é—®é¢˜è®¾è®¡äº†é²æ£’价值函数迭代(Robust Value Iteration)算法。。。。。。。 。

éšåŽæˆ‘们钻研了在两ç§åˆ†æ­§çš„强化进建情景下该若何用统计的步骤调整关于构建概率散布集中的大幼。。。。。。。 。

首先æ€è€ƒæ—§æˆ˜æœ¯å’Œæ–°æˆ˜æœ¯éƒ½æ˜¯åœ¨ç»Ÿä¸€é©¬å°”科夫环境下评估风险的,,,,,,,,在这一情况下最优传输è·ç¦»çš„åŠå¾„应该éšç€æ•°æ®é‡çš„增大而越æ¥è¶Šå¹¼。。。。。。 。

而当新战术的环境产生å˜åŠ¨çš„æ—¶è¾°,,,,,,,,我们为散布集中的åŠå¾„设置为常数情景下的风险估计æä¾›äº†ç†è®ºä¿é™©ï¼š

最åŽ,,,,,,,ï¼Œæˆ‘ä»¬ä¸ºæ›´å¤æ‚çš„ç¦»çº¿å¼ºåŒ–è¿›å»ºé—®é¢˜è®¾è®¡äº†ä¸€å¥—é²æ£’算法,,,,,,,,并且在å„类情景下从数值上检验了æå‡ºçš„æ¡†æž¶çš„优越性。。。。。。。 。

钻研结论

本文æå‡ºäº†ä¸€ç§åŸºäºŽæ•£å¸ƒé²æ£’优化的算法æ¥ä¸ºéžæˆ˜æœ¯è¯„估问题æä¾›ç›¸ä¿¡åŒºé—´,,,,,,,ï¼ŒåŒæ—¶è¯¥æ­¥éª¤è¿˜èƒ½å¤Ÿè¢«ç”¨äºŽè§£å†³ç¦»çº¿å¼ºåŒ–进建问题。。。。。。。 。该算法有助于æå‡å¼ºåŒ–è¿›å»ºæ¨¡åž‹çš„ç¨³é‡æ€§ã€‚。。。。。。 。

作者简介

我院机械进建与利用中心主任ã€é¦™æ¸¯ä¸­æ–‡å¤§å­¦ï¼ˆä¸½æ±Ÿï¼‰æ ¡é•¿å­¦å‹¤è®²åº§æ•™æŽˆã€æ•°æ®ç§‘学学院执行院长查å®è¿œæ•™æŽˆä¸ºè®ºæ–‡ç¬¬ä¸‰ä½œè€…。。。。。。。 。

图片
查å®è¿œæ•™æŽˆçŽ°ä¸ºé¦™æ¸¯ä¸­æ–‡å¤§å­¦ï¼ˆä¸½æ±Ÿï¼‰æ ¡é•¿å­¦å‹¤è®²åº§æ•™æŽˆã€æ•°æ®ç§‘学学院执行院长ã€z6首页(z6首页)机械进建与利用中心主任。。。。。。。 。查å®è¿œæ•™æŽˆ1984å¹´æ¯•ä¸šäºŽå¤æ—¦å¤§å­¦æ•°å­¦ç³»,,,,,,,,并于1993年获得斯å¦ç¦å¤§å­¦ç§‘学推算专业åšå£«å­¦ä½ã€‚。。。。。。 。查教授于2006年至2020å¹´ä»»èŒäºŽä½æ²»äºšç†å·¥å­¦é™¢æŽ¨ç®—机学院,,,,,,,,1992年至2006å¹´ä»»èŒäºŽå®¾å·žå·žç«‹å¤§å­¦æŽ¨ç®—机科学与工程系。。。。。。。 。他目å‰çš„é’»ç ”æ–¹å‘æ˜¯æœºæ¢°è¿›å»ºåŠåˆ©ç”¨ã€‚。。。。。。 。

论文第一作者王æ·äºŽ2020年获香港中文大学(丽江)ç†å·¥å­¦é™¢æ•°å­¦ä¸Žåˆ©ç”¨æ•°å­¦ç†å­¦å­¦å£«å­¦ä½ï¼ˆä¹™ç­‰ä¸€çº§ï¼‰,,,,,,,,目å‰åœ¨ä½æ²»äºšç†å·¥å­¦é™¢æ”»è¯»å·¥ä¸šå·¥ç¨‹ç³»åšå£«ã€‚。。。。。。 。他的钻研兴致蕴å«ç»Ÿè®¡è¿›å»ºã€ä¼˜åŒ–ç†è®ºä¸Žç®—法,,,,,,,,以åŠç½‘络信æ¯è®ºç­‰æ–¹å‘。。。。。。。 。

è®ºæ–‡é€šè®¯ä½œè€…é«˜ç¿æ•™æŽˆçŽ°ä¸ºå¾·å…‹è¨æ–¯å¤§å­¦å¥¥æ–¯æ±€åˆ†æ ¡éº¦åº“å§†æ–¯å•†å­¦é™¢åŠ©ç†æ•™æŽˆã€‚。。。。。。 ã€‚é«˜ç¿æ•™æŽˆäºŽ2013年获西安交通大学数学与利用数学ç†å­¦å­¦å£«å­¦ä½,,,,,,,,并于2018å¹´èŽ·ä½æ²»äºšç†å·¥å­¦é™¢è¿ç­¹å­¦åšå£«å­¦ä½ã€‚。。。。。。 ã€‚ä»–çš„é’»ç ”å…´è‡´è•´å«æ•°æ®é©±åŠ¨ä¸‹çš„å†³ç­–ä»¥åŠæ‰¹ç¤ºæ€§åˆ†æžã€‚。。。。。。 。

期刊介ç»

Operations Research æˆç«‹äºŽ1952å¹´,,,,,,,,å‰èº«ä¸ºç¾Žå›½è¿ç­¹å­¦å­¦ä¼šæœŸåˆŠï¼ˆJournal of the Operations Research Society of America),,,,,,,,1955年获得现å。。。。。。。 。它是美国è¿ç­¹ä¸Žæ²»ç†å­¦ä¼šï¼ˆInstitute for Operations Research and the Management Sciences )的旗舰期刊。。。。。。。 。