About me
Research Interest
Aiming at diffusion models, quantitative trading, DL and RL currently, welcome to discuss with me.
Resume
oier (2017.7 - 2021.1)
noip2020: First prize
WC2021: bronze medal
icpc_er (2022.7 - 2024.1)
icpc2023 Xi’an invitational contest: gold medal
icpc2023 Hangzhou regional contest: gold medal
icpc2023 east continent final: silver medal
csp: Top 0.3%
NJU-信计-强基 (2022.9 - ???)
COSEC paper: Preventing Dataset Abuse in Fine-Tuning Stable Diffusion Models
LAMDA RL project
Tea ...
Metabit trading 实习记录
Metabit trading 实习记录
缘起
虽然对量化早有耳闻,但是没想到第一次线下接触量化公司竟然是在icpc ecfinal亚洲总决赛的现场。
开幕式上,继华为过后,美国对冲基金公司Jane street的老总亲临现场,用英语做了一个简单的量化介绍,并幽默地讲解了一个小算法。不止是Jane street,在现场还有很多国内外的量化公司,挺意外赞助席除了华为和自动驾驶,还有这么多量化公司对算法竞赛感兴趣。
比赛前,按照惯例,我拉着队友在会场到处领各家大小厂的周边,其中就有乾象投资的电子木鱼。
当然,白嫖周边的代价是添加HR和企业微信。
于是,在三月初春,一条量化实习招聘的微信消息出现在了我的手机,也没多想,抱着玩玩的心态顺手投了简历。
事后发现,乾象(Metabit Trading)竟然是华为之后第二赞助大爹。
面试
面试贯穿了整个三四月,共计五场,一场大概四五十分钟的样子。
由于实习不是我的重心,所以并没有也没啥时间准备面试。
鉴于保密协议,我就不展开讲了,只谈一下大概面了啥。
一面:聊了实习时间地点,个人简历,确认了有时间参加暑期北京三个月保底的实习。(不出意外期末考 ...
急雨-客栈-故事
急雨·客栈·故事
阴沉的天降下几粒雨点,狂风呼啸着刮过肃杀的街头,雨滴肆意飞溅的声音在街头猛地炸开。南方的雨向来是任性的也是没有征兆的。
一路小跑着的年轻人,匆匆踏步进入一家不起眼的客栈。
“这鬼天气,真是糟糕透了。”年轻人在客栈内抬头望向灰蒙蒙的天空,焦急地跺着脚。嘶拉嘶拉的雨声连绵不绝,一点也没有要停下的意思。年轻人轻叹一声,转身看向柜台前坐着的掌柜,“您好,能让我在这歇一歇脚吗,这雨——,实在是倒霉透了”。
掌柜是一位面善的老者,年轻时四处打拼希望出人头地不枉此生,但是到头来却觉得不如客栈安逸。“坐坐坐,不要客气。”掌柜指向离柜台最近的一张桌子,“这么突然的暴雨诶,喝酒品茶的熟人怕是不会来了,正闲得慌哩。” 年轻人的视线扫过客栈,藤椅稀错落有致地排列在厅室里,客栈不大,但是布置得几分精致,客栈无人,又让这精致萧条了几分。
“谢谢,不过我也没什么可以聊,相较于他人,我的人生没有波澜起伏,也没有太多的十字路口。要说故事,也许这场雨,这个客栈能算上一个。”掌柜笑了笑,“这就糟糕了,我这门口罗雀的小客栈本身也没有什么故事可谈,诶,要是平日里,可以听到旅者讲述远方的故事,或是听听当 ...
服务器配置三板斧
服务器配置三板斧
Step1: 创建权限用户
在Linux服务器上创建一个新用户并授予其 sudo 权限的步骤如下:
创建新用户:
使用 useradd 命令来创建一个名为 wsr 的用户,并为其设置密码。
12sudo useradd -m wsrsudo passwd wsr
这里的 -m 选项用于确保为新用户创建一个主目录。
将用户添加到 sudo 组:
要授予 wsr 用户 sudo 权限,可以将其添加到 sudo 组。默认情况下,sudo 组中的用户具有管理员权限。
1sudo usermod -aG sudo wsr
-aG 表示将用户添加到指定的组而不影响其他组。
验证配置:
你可以使用 su 命令切换到 wsr 用户,并验证它是否有 sudo 权限。
12su - wsrsudo whoami
如果返回 root,表示该用户已经拥有 sudo 权限。
完成这些步骤后,wsr 用户将具有 sudo 权限并可以执行管理员操作。
配置好免密登录ssh,和github ssh
要在Linux服务器上为 wsr 用户配置 SSH 免密登录,并且能够远程访问 G ...
Energy-Based Model Training and Implicit Inference
Energy-Based Model Training and Implicit Inference
Objective
我们要做两件事,给定(x,y)数据组,比如在强化学习专家策略中可以使(state,action) pair.
第一:训练一个能量模型Eθ(x,y)E_{\theta}(x,y)Eθ(x,y),这个模型能够对数据组(x,y)进行打分,分数越低,说明这个数据组越符合我们的目标。我们希望降低样本内的能量,同时不忘提高样本外的能量。
第二:我们希望能够通过这个能量模型,进行隐式推理,即给定一个x,我们希望找到一个y(集合Y),使得Eθ(x,y)E_{\theta}(x,y)Eθ(x,y)最小。
隐式模型(比如能量模型)好处
隐式模型的优势:在处理具有不连续性的复杂数据时,隐式模型能够精确地表示不连续点,并且在不连续点处保持尖锐的预测,不会因为插值而引入错误的中间值。
显式模型的局限:由于拟合的是连续函数,显式模型在不连续点处会进行插值,导致无法准确表示数据的真实变化,尤其当不连续性频繁出现时。
模型选择的考虑:
数据特性:如果数据包含大量不连续性,且这些不连续性对 ...
SQL
SQL
Soft Q-leaning引入了熵作为正则项,可以说提出了一种新的评价体系,加强了策略的探索性。
同时很意外的与Energy-based model有一定的联系。
值函数改变
以前的Q只是对当前策略未来收益的预测,现在加入熵项:
Qsoft⋆=rt+E(st+1,…)∼ρπMaxEnt∗[∑l=1∞γl(rt+l+αH(πMaxEnt∗(⋅∣st+l)))]Q^{\star}_{soft} = r_t + \mathbb{E}_{(s_{t+1},…)\sim\rho_{\pi^*_{MaxEnt}}}\left[ \sum_{l=1}^\infin\gamma^l\left(r_{t+l}+\alpha\mathcal{H}\left(\pi^*_{MaxEnt}\left(\cdot|s_{t+l}\right)\right)\right) \right]
Qsoft⋆=rt+E(st+1,…)∼ρπMaxEnt∗[l=1∑∞γl(rt+l+αH(πMaxEnt∗(⋅∣st+l)))]
H(π(⋅∣st))=Ea∼π(⋅∣st)[−logπ(a∣ ...
Deep Generative Model
Deep Generative Model
PixelRNN
很朴素的想法,就是用RNN来生成图片,每一个像素点的生成都是依赖于之前的像素点。也是做一个自回归unsupervised learning。
结果不好,且慢。
VAE(Variational Autoencoder)
为什么用VAE?
Intuitive的理由:
VAE通过引入Gaussian,使用noise让模型更鲁棒。VAE在minimize时会考虑与之相近的图片。因为noise的引入让embedding space更加平滑。在code space随机sample会比在Auto encoder中更加有真实。
exp保证noise强度都是正的,当做variance。
但是直接这样train不行,因为这里σ\sigmaσ是模型自己learn的,当然给−∞-\infin−∞最好(退化到AE,不会有image overlap情形)。
注意这里加上了正则项的限制,在这个限制中σ\sigmaσ取0(此时对应的噪声强度exp(σ)exp(\sigma)exp(σ)为1)时,正则项最小,避免σ\sigmaσ往负无穷跑
m2m ...
MOPO
MOPO
Abstract
离线强化学习(RL)是指完全从以前收集到的大量数据中进行学习策略的问题。这个问题设置提供了利用这些数据集来获取策略的承诺,而不需要任何昂贵或危险的主动探索(研究价值)。然而,由于离线训练数据与学习策略访问的状态之间的分布转移(难点),这也具有挑战性。尽管最近取得了重大进展,但以前最成功的方法是无模型的,并将策略限制为对数据的支持,排除了推广到不可见的状态(out-of-distribution)。在本文中,我们首先观察到,与无模型的方法相比,现有的基于模型的RL算法已经在离线设置中产生了显著的收益。然而,为在线设置而设计的基于模型的标准RL方法并没有提供一个明确的机制来避免离线设置的分布转移问题。相反,我们建议修改现有的基于模型的RL方法,将其应用于被动态不确定性人为惩罚的奖励中。我们从理论上证明了该算法在真MDP条件下使策略返回的下界最大化。我们还描述了离开批数据支持的收益和风险之间的权衡。我们的算法是基于模型的离线策略优化(MOPO),在现有的离线RL基准和两个具有挑战性的连续控制任务上优于标准的基于模型的RL算法和现有的无模型离线RL算法,这些任务 ...
COMBO
COMBO-Conservative Offline Model-Based Policy Optimization
Motivation
offline RL的主要思想是将online RL结合conservatism或regularization。一般的model-free算法直接在策略或值函数上结合conservatism,它们学习的状态被限制在offline dataset中,从而将导致一个保守的算法。相反,model-based算法基于不确定性量化能够使得状态和动作空间均一定程度脱离offline dataset,潜在具有更强的泛化能力。而model-based算法的主要问题是其生成的路径可能与dataset中分布不一致。
为了解决model-based算法在offline中模型产出分布不一致带来的估计问题,一般有两种思路:
设计model error oracle,即在所有状态-动作对上衡量模型误差估计,模型越不确定的地方这个惩罚的值越大。
让策略贴近dataset中的策略分布,同时让偏离dataset中Q(s,a)Q(s,a)Q(s,a)不被高估,即对于偏离data ...
随笔-big city
和朋友聊起直博后的毕业出路,有感。
大城市并不好过,终其一生仅仅为北上广深添砖加瓦的人不占少数。大城市有最优秀的平台,最聪明的合作伙伴,也有最深的人情世故,最落魄的失败者。一个刚走出大学象牙塔进入社会的年轻人,凭什么在异地他乡的大城市里生存。请恕我用生存二字,我实在不想用幸福生活之类的话。绝大多数来到大城市的年轻人没有足够清晰的规划,但就我而言,我不喜欢在还没尝试前就去选择一眼看得到尽头的路,我始终认为只有大城市顶尖的平台和团队才能让我大展身手,实现个人追求,所以对大城市心向往之,而这种想法仅仅是以自我为中心,虽然暂时不会抛弃它,但我承认某种程度上它是理想主义的一厢情愿。
这里有几组矛盾点,第一是理想与现实,也许你很强,认为自己能在大城市打出自己的一片天地,但工作和事业仅仅是生活的一部分,在你全力投入工作之余,你的父母是否希望你留在他们周围,你的女友是否也同样想或者能够在大城市立住脚,大部分人包括我,很难提前预料生活上的种种柴米油盐。但现实从来不会和你开玩笑,始终如重担压在人们的肩上,往往还会越挑越重。第二点就是取舍问题,仔细捋一捋来到大城市的失与得(以我自己情况为例):
得:一段行业 ...