? 91国内精品,久久的色偷偷,91九色精品

辽宁J9.COM集团官方|站金属U技有限公司

?jin)解更?
scroll down

在深度学?fn)模型的优化上,梯度下降q唯一?


 
  

  Q如果你是一名机器学?fn)从业者,一定不?x)对Z梯度下降的优化方法感到陌生。对于很多h来说Q有?SGDQAdamQAdmm {算法的开源实玎ͼg自己q不用再q多x(chng)优化求解的细节。然而在模型的优化上Q梯度下降ƈ非唯一的选择Q甚臛_很多复杂的优化求解场景下Q一些非梯度优化Ҏ(gu)反而更h优势。而在众多非梯度优化方法中Q演化策略可谓最耀眼的那颗星!

  对于深度学习(fn)模型的优化问题来_(d)随机梯度下降QSGDQ是一U被qؓ(f)使用Ҏ(gu)。然而,实际?SGD q我们唯一的选择。当我们使用一个「黑盒算法」时Q即使不知道目标函数 f(x):Rn→R的精解析Ş式(因此不能计算梯度?Hessian 矩阵Q你也可以对f(x)q行评估。经典的黑盒优化Ҏ(gu)包括「模拟退火算法」、「爬山法」以?qing)「单UŞ法」。演化策略(ESQ是一c诞生于演化法QEAQ黑盒优化算法。在本文中,我们深入分析一些经典的演化{略Ҏ(gu)Qƈ介绍演化{略在深度强化学?fn)中的一些应用?/p>

  演化法QEAQ指的是受自焉择启发而生的一cd于种的优化法。自焉择学说认ؓ(f)Q如果某些个体具有利于他们生存的Ҏ(gu),那么他们可能会(x)J衍几代Qƈ且将q种优良的特性传l下一代。演化是在选择的过E中逐渐发生的,整个U群?x)渐渐更好地适应环境?/p>

  Q左Q一老鼠UdC(jin)一个岩石颜色非常暗的地区。由于自焉传的变异Q有些老鼠毛色是黑Ԍ有的则是褐艌Ӏ(中)(j)相较于黑色的老鼠来说Q棕褐色的老师更容易被肉食性鸟cd现。因此,褐色老鼠比黑色老鼠更频J地被鸟cL食。只有存?gu)zM来的老鼠C(jin)生育q龄后会(x)留下后代。(叻I(j)׃黑色老鼠比褐色老鼠留下后代的机?x)更大,在下一代老鼠中黑色的占比上一代更高?/p>

  假设我们惌优化一个函?f(x)Q而且无法直接计算梯度。但是,我们在给定Q?x 的情况下仍然可以评估 f(x)Q而且得到定性的l果。我们认为随机变?x 的概率分?pθ(x)是函?f(x)优化问题的一个较优的解,θ是分?pθ(x)的参数。目标是扑ֈ θ的最优设|?/p>

  在给定固定分布Ş式(例如Q高斯分布)(j)的情况下Q参?θ包含?jin)最优解的知识,在一代与一代间q行q代更新?/p>

  在遗传算法(GAQ另一U流行的演化法子类Q中Qx 是二q制~码的序列,其中 x∈{0,1}n。但是在演化{略中,x 仅仅是一个实数向量,x∈Rn?/p>

  高斯演化{略是最基础、最l典的演化策略(相关阅读可参考:(x)Q。它?yu)?pθ(x)建模Z?n l各向同性的高斯分布Q其?θ仅仅ȝ均?μ和标准差 σ?/p>

  3.选择Z?f(xi)最优的 λ个样本组成的子集Q该子集被称为「精英集」。ؓ(f)?jin)不׃般性,我们可以考虑 D(t+1)中适应度排名靠前的 k 个样本,它们放入「精英集」。我们可以将其标注ؓ(f)Q?/p>

  标准?σ军_?jin)探索的E度Q当 σ大Ӟ我们可以在更大的搜索空间中对后代种进行采栗在单高斯演化策略中Q?sigma;(t+1)?σ(t)密切相关Q因此算法不能在需要时Q即|信度改变时Q迅速调整探索空间?/p>

  「协方差矩阵自适应演化{略」(CMA-ESQ通过使用协方差矩?C 跟踪分布上得到的h两两之间的依赖关p,解决?jin)这一问题。新的分布参数变?sh)Z(jin)Q?/p>

  在我们深入研I?CMA-ES 中的参数更新Ҏ(gu)前,不妨先回一下多元高斯分布中协方差矩늚工作原理。作Z个对U阵Q协方差矩阵 C 有下列良好的性质Q详见「Symmetric Matrices and Eigendecomposition」:(x)Q以?qing)证明?x)Q:(x)

  CMA-ES 使用 αμ≤1的学?fn)率控制均?μ 更新的速度。通常情况下,该学?fn)率被设|ؓ(f) 1Q从而上述{式与简单高斯演化策略中的均值更新方法相同:(x)

  参数 σ控制着分布的整体尺度。它是从协方差矩阵中分离出来的,所以我们可以比改变完整的协方差更快地改变步ѝ步长较大会(x)D参数更新较快。ؓ(f)?jin)评估当前的步长是否合适,CMA-ES 通过连l的Ud步长序列相加

  。通过比较该\径与随机选择Q意味着每一步之间是不相关的Q状态下期望?x)生成的路径长度Q我们可以相应地调整 σQ详见图 2Q?/p>

  ?2Q将每一步演化以不同的方式关联v来的三种情况Q以?qing)它们对步长更新的?jing)响。(左)(j)每个步骤之间互相抉|Q因此演化\径很短。(中)(j)理想情况Q每个步骤之间ƈ不相兟뀂(叻I(j)每个步骤指向同一个方向,因此演化路径较长。(囄来源QCMA-ES 教程论文中图 5 的附加注释,Q?/p>

  Z(jin)l最q几代的U群赋予更高的权重,我们使用?jin)「Polyakq_ 」算法(q_优化法在参数空间访问轨q中的几个点Q,以学?fn)?ασ更新演化路径。同Ӟ我们q?jin)权重,从而pσ在更新前和更新后都ؓ(f)服从 N(0,I)的共轭分布(更新前后的先验分布和后验分布cd相同Q?/p>

  随机选择得到的Pσ的期望长度ؓ(f) E‖N(0,I)‖,该值是服从 N(0,I)的随机变量的 L2 范数的数学期望。按照图 2 中的思\Q我们将Ҏ(gu) ‖pσ(t+1)?E‖N(0,I)‖的比D整步长:(x)

  只有当我们选择出的U群_大,上述估计才可靠。然而,在每一代中Q我们确实希望用较?yu)的hU群q行快速的q代。这是 CMA-ES 发明?jin)一U更加可靠,但同时也更加复杂的方式去更新 C 的原因。它包含两种独立的演化\径:(x)

  是一U很好的估计方式。类g pσQ我们也可以使用「polyak」^均,q且通过学习(fn)率引入历史信息:(x)

  W二条\径试图解?yiyi?(−yi)(−yi)⊤丢q号信息的问题。与我们调整步长 σ的方法相cMQ我们用了(jin)一个演化\?pc来记录符号信息,pc仍然是种更新前后都服从?N(0,C)的共轭分布?/p>

  )的(h意它们都服从?N(0,C)Q,此时我们使用?jin)完整的历史信息Qƈ且能够保留符号信息。请注意Q在上一节中Q我们已l知道了(jin)

  ?k 较小ӞU?1 更新Ҏ(gu)相较于秩 min(λ, n)更新有很大的性能提升。这是因为我们在q里利用?jin)移动步长的W号信息和连l步骤之间的相关性,而且q些信息可以随着U群的更新被一代一代传递下厅R?/p>

  在上面所有的例子中,我们认ؓ(f)每个优秀的样本对于权重的贡献是相{的Q都?1/λ。该q程可以很容易地被扩展至Ҏ(gu)具体表现为抽样得到的h赋予不同权重 w的情c(din)详情请参阅教程Q「The CMA Evolution Strategy: A Tutorial」(Q?/p>

  ?3QCMA-ES 在二l优化问题(sh)的工作原理示意图Q颜色越亮的部分性能好Q。黑Ҏ(gu)当前代中的样本。样本在初始阶段较分散,但当模型在后期较有信?j)找到较好的解时Q样本在全局最优(sh)变得非常集中。样本在初始阶段较分散,但当模型在后期以更高的置信度扑ֈ较好的解Ӟh?x)集中于全局最优点?/p>

  自然演化{略QWierstra {h?2008 q发表的 NESQ论文地址Q)(j)在参数的搜烦(ch)分布上进行优化,q将分布朝着自然梯度所指向的高适应度方向移动?/p>

  l定一个参Cؓ(f) θ的目标函?J(θ)Q我们的目标是找到最优的 θQ从而最大化目标函数的倹{朴素梯度会(x)以当前的 θv点,在很的一D|氏距d扑ֈ最「陡峭」的方向Q同时我们会(x)对参数空间施加一些距ȝ限制。换而言之,我们?θ的绝对值发生微变化的情况下计出朴素梯度。优化步骤如下:(x)

  不同的是Q自然梯度用C(jin)参数?θ,pθ(x)Q在 NES 的原始论文中被称为「搜索分布」,论文链接Q)(j)的概率分布空间。它在分布空间中的一步内寻找最「陡峭」(变化最快)(j)的方向,其中距离?KL 散度来度量。在q种限制条g下,我们保证?jin)每一步更新都是沿着分布的流形以恒定的速率UdQ不?x)因为其曲率而减速?/p>

  但是Q如何精地计算?KL[pθ‖pθ+Δθ]呢?通过推导 logpθ+d?θ处的泰勒展式Q我们可以得刎ͼ(x)

  其中QFθ被称?Fisher 信息矩阵。由于E[∇θlogpθ]=0Q所?Fθ也是 ∇θlogpθ的协方差矩阵Q?/p>

  ?4Q右侧的自然梯度hQ黑色实头Q是左侧的朴素梯度样本(黑色实箭_(d)(j)乘(sh)其协方差的逆的l果。这样一来,可以用较?yu)的权重惩罚h高(sh)定性的梯度方向Q由与其它样本的高协方差表示Q。因此,合成的自然梯度(U色虚箭_(d)(j)比原始的自然梯度Q绿色虚头Q更加可信(囄来源QNES 原始论文中图 2 的附加说明,Q?/p>

  我们与一个样本相兌的适应度标Cؓ(f) f(x)Q关?x 的搜索分布的参数?θ。我们希?NES 能够优化参数 θQ从而得到最大的期望适应度:(x)

  NES 应用?jin)基于排序的适应度塑造(Rank-Based Fitness ShapingQ算法,即用适应度值单调递增的排序结果,而不是直接?f(x)。它也可以是寏V效用函数」进行排序的函数Q我们将其视?NES 的一个自由参数?/p>

  NES 采用?jin)适应性采PAdaptation SamplingQ在q行时调整超参数。当q行 θ→θ′的变换时Q我们用曼-惠特?U (g)验([Mann-Whitney U-testQ对比从分布 pθ上采样得到的h以及(qing)从分?pθ′上采样得到的h。如果出现正或负W号Q则目标参数将减少或增加一个乘法常数。请注意Q样?xi′∼pθ′(x)的得分用了(jin)重要性采h?wi′=pθ(x)/pθ′(x)?/p>

  演化算法应用于强化学习(fn)的想法可以追溯到很久以前的论文「Evolutionary Algorithms for Reinforcement Learning」(论文地址Q)(j)Q但是由于计上的限Ӟq种试仅仅止步于「表格式」强化学?fn)(例如QQ-learningQ?/p>

  q里的关键是Qؓ(f)模型参数 θ加入高斯噪声 εQƈ使用似然技巧将其写作高斯概率密度函数的梯度。最l,只剩下噪声项作ؓ(f)衡量性能的加权标量?/p>

  假设当前的参数gؓ(f) θ^Q区别于随机变量 θQ。我们将 θ的搜索分布设计ؓ(f)一个各向同性的多元高斯分布Q其均gؓ(f) θ^Q协方差矩阵?σ2I

  在每一代中Q我们可以采样得到许?εiQi=1,…,nQ然后ƈ行地估计光应度。一U优雅的设计方式是,无需׃n大型模型参数。只需要在各个工作U程之间传递随机种子,p以事ȝE节点进行参数更新。随后,q种Ҏ(gu)又被拓展成了(jin)以自适应的方试学?fn)损失函数。详情请查阅博文「Evolved Policy Gradient」:(x)

  Z(jin)使算法的性能更加鲁棒QOpenAI ES 采用?jin)虚拟批量归一化(Virtual BNQ用于计固定统计量?mini-batch 上的扚w归一化方法)(j)Q镜面采PMirror SamplingQ采样一?(−ϵ,ϵ)用于估计Q,以及(qing)适应度塑造(F(tun)itness ShapingQ技巧?/p>

  在强化学?fn)领域,「探索与利用」是一个很重要的课题。上q演化策略中的优化方向仅仅是从篏U返回函?F(θ)中提取到的。在不进行显式探索的情况下,体可能会(x)陷入局部最优点?/p>

  「新颖性得分」取决于一个针对于特定领域的行为特征函?b(πθ)。对 b(πθ)的选择取决于特定的dQƈ且似乎具有一定的随机性。例如,在论文里提到的h形机器hUdd中,b(πθ)是智能体最l的位置 (x,y)?/p>

  2.通过 b(πθ)?A 中所有其它实体之间的 K 最q邻得分衡量{略 πθ的新颖性。(文档集合的用例与「情节记忆」很怼Q?/p>

  NS-ES l护?jin)一个由 M 个独立训l的体组成的集合Q「元-U群」)(j)QM={θ1,…,θM}。然后选择其中的一个智能体Q将其按照与新颖性得分成正比的程度演化。最l,我们选择出最佳策略。这个过E相当于集成Q在 SVPG 中也可以看到相同的思想?/p>

  NS-ES 完全舍弃?jin)奖励函敎ͼ仅仅针对新颖性进行优化,从而避免陷入极兯惑性的局部最优点。ؓ(f)?jin)将适应度重新考虑到公式中Q研Ih员又提出?jin)两U变?sh)?/p>

  NSRAdapt-ES (NSRA-ES)Q自适应的权重参数初始gؓ(f) w=1.0。如果算法的性能l过?jin)很多代之后没有变化Q我们就开始降?w。然后,当性能开始提升时Q我们停止降?wQ反而增?w。这样一来,当性能停止提升Ӟ模型更偏向于提升适应度,而不是新颖性?/p>

  ?6Q(左图Q环境ؓ(f)人Ş机器人移动问题,该机器h被困在一个三面环l的ZQ这是一个具有迷惑性的陷阱Q创造了(jin)一个局部最优点。(叛_Q实验对比了(jin) ES 基线和另一U促(j)q探索的变(sh)。(囄来源Q论文「NS-ES」,Q?/p>

  在这里,CEM 的工作原理与上面介绍的简单高斯演化策略基本相同,因此可以使用 CMA-ES 替换相同的函数。CEM-RL 是基于演化强化学?fn)(ERLQ详?Khadka ?Tumer {h?2018 q发表的论文「Evolution-Guided Policy Gradient in Reinforcement Learning」,论文地址Q)(j)的框架构建的Q它使用标准的演化算法选择q演化「Actor」的U群。随后,在这个过E中生成的首ơ展C经验也?x)被加入到经验回放池中,用于训练强化学?fn)的「Actor」网l和「Critic」网l?/p>

  1.πμ?CEM U群的「Actor」^均|使用随机的「Actor」网l对其进行初始化?/p>

  下面Q我更详细Cl两个应用实例:(x)ZU群的训l(PBTQ,以及(qing)权重未知的神l网l(WANNQ?/p>

  ZU群的训l(PBTQ详?Jaderberg {h?2017 q发表的论文「Population Based Training of Neural Networks」,论文地址Q)(j)演化算法应用到?jin)超参数调优问题(sh)。它同时训练?jin)一个模型的U群以及(qing)相应的超参数Q从而得到最优的性能?/p>

  PBT q程起初拥有一l随机的候选解Q它们包含一Ҏ(gu)型权重的初始值和参?{(θi,hi)∣i=1,…,N}。我们会(x)q行训练每个hQ然后周期性地异步评估其自w的性能。当一个成员准备好后(卌成员q行?jin)够的梯度更新步骤Q或当性能已经_好)(j)Q就有机?x)通过与整个种进行对比进行更斎ͼ(x)

  「explore()」:(x)如果模型权重被重写,「explore」步骤会(x)使用随机噪声扰动参数?/p>

  权重未知的神l网l(WANNQ详?Gaier ?Ha {h?2019 q发表的论文「W(xu)eight Agnostic Neural Networks」,论文地址Q)(j)在不训练|络权重的情况下Q通过搜烦(ch)最的|络拓扑来获得最优性能?/p>

  ?10:QWANN 中用于搜索新|络拓扑的变异操作。(从左到右分别为)(j)最网l,嵌入节点Q增加连接,改变?gu)Ȁzd|节点的激zR?/p>

  在「评估」阶D,我们所有网l权重设|成相同的倹{这样一来,W(xu)ANN 实际上是在寻扑֏以用最描q长度来描述的网l。在「选择」阶D,我们同时考虑|络q接和模型性能?/p>

  ?11Q将 WANN 发现的网l拓扑在不同强化学习(fn)d上的性能与常用的基线 FF |络q行?jin)比较。「对׃n权重调优」只需要调整一个权重倹{?/p>

  如图 11 所C,W(xu)ANN 的结果是同时使用随机权重和共享权重(单一权重Q评估得到的。有的是,即在对所有权重执行权重共享ƈ对于q单个参数进行调优的时候,W(xu)ANN 也可以发现实现非常出色的性能的拓扑?/p>

?div id="c_grid-116273709439190">

CONTACT US  联系我们

 

 

名称Q辽宁J9.COM集团官方|站金属U技有限公司

地址Q朝阛_(jng)朝阳县柳城经开发区有色金属工业?/span>

?sh)话Q?a href="tel:15714211555">15714211555

邮箱Q?a href="">lm13516066374@163.com

 

 

二维? title=

扫一扫进入手机网?/span>

 

 

 

面版权归辽宁J9.COM集团官方|站金属U技有限公司  所?nbsp; |站地图 

վ֩ģ壺 aëƬ߹ۿ| þ| ŮŮһ| ɫպһҳ| avһ߲| պ߹ۿӰ| 2021Ƭլ| ҹƷһ| ƷþþþӰԺ۲| ŷ777| 깬ձ߹ۿ| Ļŷ߹ۿ| ȫ﷬acg﷬| ģgogoй˽Ƶ| ŷҹƬŷƷ| 쵼̱߳ˬ߹ۿ| ٸŪ߳www| ѿƬaѴƬ| Ʒ鶹Ѱ| ձƷһ2021| Ʒ18þþþþ| 57pao˹Ƶ | ŷaaaaaaaa| ڻh| ~ץ57777̳| ޼Ůۺ99| ŮƷþþþ| ʪýʹaƵ| ŷպ޹| ɫۺϾþ| www..com| þۺ77777| Ƶרһ| Ʒþþþav| 18Ƶ߹ۿ| ŷպһ| ƷԲ߹ۿ| 41515hh| Ļ| ŷ߹ۿƵ| ĻӰԺ߹ۿ|