时时彩计划软件,时时彩玩法技巧,北京赛车规律数字高手,购彩平台 凤凰彩票

法显著提高峻规模深度强化进修使用的机能q学界DeepMind提出元梯度强化进修算

时间:2018-06-25 15:07来源:未知 作者:admin 点击:
天津时时彩近日,来自 DeepMind 的研究者 David Silver 等人发布论文,提出一种基于梯度的元进修算法,能够正在线调整元参数,使得报答既能顺应具体问题,又能跟着时间动态调整以顺应

  天津时时彩近日,来自 DeepMind 的研究者 David Silver 等人发布论文,提出一种基于梯度的元进修算法,能够正在线调整元参数,使得报答既能顺应具体问题,又能跟着时间动态调整以顺应不竭变化的进修情况。

  图 1:正在各自的马尔可夫奖励过程(顶部)中,形态依赖可调整参数(a)bootstrapping 参数 λ 或(b)扣头因子 γ 的元梯度进修成果图示。正在底部显示的每个子图中,第一幅图展现了元参数 γ 或 λ 正在锻炼过程中的变化环境(10 个种子下的平均值 - 暗影亚洲国际域笼盖了 20%-80%)。第二幅图显示了每种形态下 γ 或 λ 的最终值,别离指奇/偶形态的高/低值(小提琴图显示分歧种子的分布环境)。

  表 1:取晦气用元进修的基线 IMPALA 算法比拟,元进修扣头参数 γ、时序差分进修参数 λ,或进修二者的成果。学界DeepMind提出元梯度强化进修算研究者利用的是 [Espeholt et al,2018] 最后演讲的扣头因子 γ= 0.99 以及调整后的扣头因子 γ= 0.995(见附录 C); 为了公允比力,研究者将元方针中的交叉验证扣头因子 γ’设置为不异的值。

  扣头因子 γ 决定了报答的时间标准。接近 1 的折现因子更关心持久的累计报答,而接近 0 的折现因子优先考虑短期奖励,更关心短期方针。即便正在较着需要关心持久报答的问题中,我们也经常察看到利用小于 1 的扣头因子能够获得更好的结果 [Prokhorov 和 Wunsch,1997],这一现象正在进修的晚期表现得尤为较着。家喻户晓,很多算法正在扣头因子较小时收敛速度较快 [Bertsekas 和 Tsitsiklis,1996],但过小的扣头因子可能会导致过度短视的高度次优策略。正在实践中,我们能够起首对短期方针进行优化,例如起首用 γ= 0 进行优化,然后正在进修取得必然结果后再不竭添加扣头 [Prokhorov and Wunsch,1997]。

  摘要:强化进修算法的方针是估量和/或优化价值函数。然而取监视进修分歧,强化进修中没有能够供给实值函数的教师或权势巨子。相反,大大都强化进修算法估量和/或优化价值函数的代办署理。该代办署理凡是基于对实值函数的采样和 bootstrapped 迫近,即报答。对报答的分歧选择是决定算法素质的次要要素,包罗将来奖励的扣头因子、何时以及若何设定奖励,以至奖励本身的性质。家喻户晓,这些决策对强化进修算法的全体成功至关主要。我们会商了一种基于梯度的元进修算法,它可以或许正在线顺应报答的素质,同时进行取情况的互动和进修。我们将该算法使用于跨越 2 亿帧 Atari 2600 情况中的 57 场角逐,成果表白我们的算法取得了目前最好的机能。

  我们同样能够正在分歧的时间段设定分歧的报答。一个 n 步的报答需要考虑 n 步中奖励的累积,然后添加第 n 个时间步时的价值函数。λ-报答 [Sutton,1988;Sutton 和 Barto,2018] 是 n 步报答的几何加权组合。正在任何一种环境下,qq上的悄悄话在哪里元参数 n 或 λ 对算法的机能都很主要,由于他们影响到误差和方差之间的衡量。deepmind很多研究人员对若何从动选择这些参数进行了摸索 [Kearns 和 Singh,2000,Downey 和 Sanner,2010,Konidaris 等,2011,White and White,2016]。

  强化进修(RL)的焦点方针是优化智能体的报答(累积奖励)。一般通过预测和节制相连系的方式来实现这一方针。预测的子使命是估量价值函数,即正在任何给定形态下的预期报答。抱负环境下,这能够通过朝着实值函数(true value function)的标的目的不竭更新近似价值函数来实现。节制的子使命是优化智能体选择动做的策略,以最大化价值函数。抱负环境下,策略只会正在使实值函数添加的标的目的上更新。然而,实值函数是未知的,因而,对于预测和节制,我们需要将采样报答做为代办署理(proxy)。强化进修算法家族 [Sutton,1988;Rummery 和 Niranjan,1994;van Seijen 等,2009;Sutton 和 Barto,2018] 包罗多种最先辈的深度强化进修算法 [Mnih 等,2015;van Hasselt 等,2016;Harutyunyan 等,2016;Hessel 等,2018;Espeholt 等,2018],它们的360彩票网别正在于对报答的分歧设定。

  本论文次要关心强化进修的一个根基问题:便于智能体最大化报答的最佳报答形式天下彩免费资料大全?具体而言,本论文做者提出通过将报答函数当做包含可调整元参数 η 的参数函数来进修,例如扣头因子 γ 或 bootstrapping 参数 λ [Sutton,1988]。deepmind正在智能体取情况的交互中,元参数 η 能够正在线进行调整,使得报答既能顺应具体问题,又能跟着时间动态调整以顺应不竭变化的进修情况。研究者推导出一种适用的、法显著提高峻规模深度强化进修使用的机能q基于梯度的元进修算法,尝试表白它能够显著提高峻规模深度强化进修使用的机能。

(责任编辑:admin)
顶一?
(0)
0%
踩一?
(0)
0%
------分隔?----------------------------