强化学习4 策略梯度(Policy Gradient, PG)
策略梯度(Policy Gradient, PG) 在之前的Q-table中,由于Q值与感知态的强绑定问题,无法学习随机策略(也无法区分感知相同但需求不同的状态,比如说非对称),因此需要使用PG求解, 在一些情节,比如说机器臂(连续动作空间),石头剪刀布(概率性策略)中,我们可以使用PG,同时,收敛性也更加强 PG的主要目的就是计算梯度并更新参数来…
强化学习3 表格型方法
强化学习3 表格型方法 策略最简单的表示是查找表(look-up table),即表格型策略(tabular policy)。使用查找表的强化学习方法称为表格型方法(tabular method),如蒙特卡洛、Q学习和Sarsa。本章通过最简单的表格型方法来讲解如何使用基于价值的方法求解强化学习问题。(reference:https://dataw…
强化学习2 马尔可夫
强化学习2 马尔可夫决策过程(Markov Decision Process, MDP) 1 马尔可夫性质(Markov property) 对于天气预报而言,今天是否下雨只取决于前一天的天气情况,无关于前2345...n天的情况。这就是MP(马尔可夫性质,下文简称MP) 换句话来说,一个随机过程在给定现在状态及所有过去状态情况下,其未来状态的条件…
强化学习1 基础
强化学习1 基础 1.1 概述 懒的说了,自己百度一下什么都有,或者去看AI世界大入门去 1.2 基本定义 给出一些定义,这章没什么好看的,不亚于看一篇论文的时候看了半个小时intro。 强化学习(reinforcement learning,RL):智能体可以在与复杂且不确定的环境进行交互时,尝试使所获得的奖励最大化的算法。 动作(action)…
CityLearn experiment
代码路径:https://github.com/zqqqqqqj1110/CityLearn_exp.git target 比较不同任务配置下,RBC(Rule-Based Control)与 RLC(Reinforcement Learning Control)在能源、排放、峰值与舒适度方面的表现。 数量: 共 17 个任务(单建筑、多建筑、单目…
Binary Search
condition 数组为有序数组,同时题目数组中无重复元素 theoretical key point 将一个数组一分为二,每次进行左/右查找 coding key point 边界需要注意(左开右闭or左右皆闭),中间指针需要注意 example link:https://leetcode.cn/problems/binary-search/d…
Fast & Slow Pointers
condition null theoretical key point 双指针的一个分支,两个指针同时从左边开始,满足条件的slow point可以+=1,fast point在通常情况下需要不断的加1 coding key point 一个大while,外层保证fast指针+=1,内层需要满足一点的条件再加1 while循环的终止条件需要用到f…
AI世界大入门
introduction 这篇文章旨在理解一大堆杂七杂八的,狗屁倒灶的,ai方向的专用名词,例AI,NLP,CV,深度学习,强化学习等等等 我相信初学者肯定会对这些名词感到困惑,就如同第一天我在面试时提出的问题: “我就只会数学建模和西瓜皮上的那些算法,好奇的问一下深度学习是啥?” 这个问题对现在的我来说也相当困惑,当然我相信写完这篇文章会让我的理…