OS_lab
OS lab
M1: 打印进程树 (pstree)
总体思路按照实验指南:
得到命令行的参数,根据要求设置标志变量的数值;
得到系统中所有进程的编号 (每个进程都会有唯一的编号) 保存到列表里;
对列表里的每个编号,得到它的的父亲是谁;
在内存中把树建好,按命令行参数要求排序;
把树打印到终端上。
1. 得到命令行的参数
c可以在main入口函数中得到命令行参数,这里的参数是一个字符串数组,每个字符串是一个参数,由空格分隔。于是遍历这些参数,并转化成我们需要的标志变量。
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748int main(int argc, char *argv[]) for (int i = 0; i < argc; i++) { assert(argv[i]); // C 标准保证 // printf("argv[%d] = %s\n&quo ...
TRPO
TRPO
Background
在进入TRPO和PPO(两者同根生),我们先从自然梯度法(Natural gradient)引入信赖领域(proximal region)的概念。假设我们要求解的是某个概率分布πθ(s)\pi_\theta(s)πθ(s),那么一节梯度下降法本质就是对J(θ)J(\theta)J(θ)进行一阶展开:
θ′=arg minθ′∇θJ(θ)T(θ′−θ)\theta'=\argmin_{\theta'}\nabla_\theta J(\theta)^T(\theta'-\theta)
θ′=θ′argmin∇θJ(θ)T(θ′−θ)
但是直接这样粗暴的更新会带来问题:
参数空间θ\thetaθ的微小变动,会导致策略分布大幅度变化,让优化不稳定。
参数空间对策略分布的影响不一样,有些参数对策略分布的影响大,有些参数对策略分布的影响小,这样会导致优化效率低下。
于是我们放弃使用参数空间θ\thetaθ作为优化的“步长”,转而到πθ\pi_\thetaπθ中。我们用KL散度来衡量两个分布之间的差异,我们把策略空间用K ...
Generative Adversarial Network(GAN)
Generative Adversarial Network(GAN)
detect0530@gmail.com
生成器
具体来说,在模型输入时会将一个随机变量 z 与原始输入 x 一并输入到模型中,这个变量是从随机分布中采样得到。输入时可以采用向量拼接的方式将 x 和 z 一并输入。
我们预想训练一个预测游戏目标游走的模型,如果用传统的监督学习,结果可能会是的十分模糊的甚至游戏中的角色消失、出现残影的,造成该问题的原因是,我们监督学习中的训练数据对于同样的转角同时存储有角色向左转和向右转两种输出。当我们在训练的时候,对于一条向左转的训练数据,网络得到的指示就是要学会游戏角色向左转的输出。同理,对于一条向右转的训练数据,网络得到的指示就是学会角色向右转的输出。但是实际上这两种数据可能会被同时训练,所以网络就会学到的是“两面讨好”。当这个输出同时距离向左转和向右转最近,网络就会得到一个错误的结果———— 向左转是对的,向右转也是对的。
传统过的监督学习,只会让model输出一个结果,但是很多时候,我们希望模型有一些随机性(在有多个合理可能性时)。于是我们让网络有概率的输出一切可能 ...
SAC
SAC
detect0530@gmail.com
Problem to be solved
policy梯度那里,Z为什么能忽略。以及梯度加法那里。(泛函杀我)
SQL数学上和SAC区别
SAC’s background
SAC主要解决的是连续动作空间的控制问题,在我们一探SAC究竟之前,让我们先回顾SAC之前解决连续动作控制问题的两个主流算法:DDPG,PPO。
DDPG
DDPG是基于DPG(Deterministic Policy Gradient)的算法,我们接着先从DPG说起。
DPG
引入AC(actor - critic)框架,让值函数直接指导策略优化。这里有必要提一下,是因为DPG与之前的PG算法有本质的不同:
过去的PG算法使用累计收益(需要真的去模拟,做蒙特卡洛估计)作为目标,调整策略以追求更高的收益。
而DPG则是利用critic(Q函数)找到可能得最优策略,随后直接依靠Q值去优化策略函数,也就是说策略的调整完全不用依靠实际收益。
DPG的核心公式:
maxθEs∼D[Qωμ(s,μθ(s))]\max_{\theta}\mathbb{E ...
tensorboard
Tensorboard
详细的介绍和常见报错可以参考
TensorBoard最全使用教程:看这篇就够了
Tensorboard 无法打开网页 /不显示数据 / 命令行报错等解决办法集合
导入库
tensorboard是tensorflow的可视化工具,可以用来查看模型的训练过程,模型结构,模型参数等。
但是现在pytorch也支持tensorboard了,在处理loss,acc等数据的时候,可以使用tensorboard来可视化。
使用方法
123456# 生成一个writer对象,并指定生成图片的目录,其中logs为指定生成事件的目录writer = SummaryWriter("logs")for i in range(100): # 以y=x为标题,i为横坐标值,i同时也为纵坐标值,相当于绘制了一个y=x(0<=x<100)的直线 writer.add_scalar("y=x",i,i)writer.close()
运行代码之后会生成一个指定名字的目录,并且会包含一个事件在里面,这个事件要用tensorb ...
ArgumentParser
ArgumentParser
更具体细节的讲解可以参考知乎_Link
创建parser
12import argparseparser = argparse.ArgumentParser("Hyperparameters Setting for PPO-continuous")
创建parser对象,可以传入一个字符串作为描述信息。
添加参数
123parser.add_argument("--max_train_steps", type=int, default=int(3e6), help=" Maximum number of training steps")parser.add_argument("--evaluate_freq", type=float, default=5e3, help="Evaluate the policy every 'evaluate_freq' steps")parser.add_argument("--pol ...
Python Grammar
Python
1D = collections.defaultdict(list)
创建一个默认映射到list的字典。(帮助避免了很多意外情况)
12op,l,r,y,z = map(int,input().split())t = ''.join(input().split(" "))
很方便的处理一行的输出,split()默认跳过空白字符。
将输入拼成一个字符串,方便处理。
1a.sort(key=lambda x:x.r)
对a本生进行排序,这里有key函数:按照key=(比较函数),进行比较。比较函数,可以很方便的用lambda来表示。
如果想反过来排序,可以用reverse=True参数。
1print("{0} - > {1}".format(i.l,i.r),end="\n")
格式化输出,这里的0和1是format函数的参数,可以用来指定输出的位置。同时python print自带换行,如果不想换行可以自定义end参数 ...
PPO code experiment
PPO code experiment
detect0530@gmail.com
This is a simple experiment to test the PPO algorithm on the OpenAI gym environment.
All code resource is from the repository: Link1, which is also inspired by a blog paper from 37 PPO Tricks.
Here, I’d like to split the code frame, and note what I have learned from the code.
Code Frame
main
argparse, set the hyperparameter
tensorboard, log the training process
evaluate policy, test the policy
train policy, train the policy
ppo_agent
Actor Mod ...
Proximal Policy Optimization(PPO)
Proximal Policy Optimization(PPO)
detect0530@gmail.com
Background: PG and TRPO
Policy Gradient
我们使用策略网络进行决策,对于每一版的policy network,我们使用on-policy的方法获得数据,并使用这些数据更新网络,得到下一版的policy network。
更新过程其实就是根据Reward来调整给每一个action分配的权重。
Tips:
增加一个基线
原始算法我们用reward的大小作为引导,但是reward设计的不好时,由于采取动作都会有奖励,一是有noise,二是这样引导会错过一些未访问过的good action。于是我们引入基线(一般设置为V(s),表示所有采样序列的平均奖励),高于基线,给正奖励;低于基线,给负奖励。
折扣因子
降低未来reward的权重,只需要对奖励序列的求和计算增加一个gamma因子即可。
优势函数
回顾之前的算法,对于一个采样序列中的数据点,我们都是用相同的R(γ)R(\gamma)R(γ)作为系数,这样很粗糙。实际上好 ...