unsurpervised_learning
Unsupervised Learning
分为两类,降维和生成。
K-mean
一开始从training data里sample出k个点init,然后不断迭代,更新每个点的位置,使得每个点周围的点尽可能的接近它。
Hierarchical Agglomerative Clustering
每次合并距离最近的两个点,直到只剩下一个点。
这棵树上,比较早分支就比较不像(比如root)
然后可以切一刀,划分出不同的cluster类。(可以比较好决定cluster的数量)
但是cluster太过绝对!
Distributed representation <—> Dimension reduction
其实是一样的事情
Demension Reduction
去掉无用feature(很多时候不好用)
PCA(Principal Component Analysis)
PCA
z = Wx
目的:找这个W
需要project到几维是自己决定的
如何解PCA ?
新的z的feature的Cov是diagnal的!!!
很多比较简单的model需 ...
Energy-Based Model Training and Implicit Inference
Energy-Based Model Training and Implicit Inference
Objective
我们要做两件事,给定(x,y)数据组,比如在强化学习专家策略中可以使(state,action) pair.
第一:训练一个能量模型Eθ(x,y)E_{\theta}(x,y)Eθ(x,y),这个模型能够对数据组(x,y)进行打分,分数越低,说明这个数据组越符合我们的目标。我们希望降低样本内的能量,同时不忘提高样本外的能量。
第二:我们希望能够通过这个能量模型,进行隐式推理,即给定一个x,我们希望找到一个y(集合Y),使得Eθ(x,y)E_{\theta}(x,y)Eθ(x,y)最小。
隐式模型(比如能量模型)好处
隐式模型的优势:在处理具有不连续性的复杂数据时,隐式模型能够精确地表示不连续点,并且在不连续点处保持尖锐的预测,不会因为插值而引入错误的中间值。
显式模型的局限:由于拟合的是连续函数,显式模型在不连续点处会进行插值,导致无法准确表示数据的真实变化,尤其当不连续性频繁出现时。
模型选择的考虑:
数据特性:如果数据包含大量不连续性,且这些不连续性对 ...
SQL
SQL
Soft Q-leaning引入了熵作为正则项,可以说提出了一种新的评价体系,加强了策略的探索性。
同时很意外的与Energy-based model有一定的联系。
值函数改变
以前的Q只是对当前策略未来收益的预测,现在加入熵项:
Qsoft⋆=rt+E(st+1,…)∼ρπMaxEnt∗[∑l=1∞γl(rt+l+αH(πMaxEnt∗(⋅∣st+l)))]Q^{\star}_{soft} = r_t + \mathbb{E}_{(s_{t+1},…)\sim\rho_{\pi^*_{MaxEnt}}}\left[ \sum_{l=1}^\infin\gamma^l\left(r_{t+l}+\alpha\mathcal{H}\left(\pi^*_{MaxEnt}\left(\cdot|s_{t+l}\right)\right)\right) \right]
Qsoft⋆=rt+E(st+1,…)∼ρπMaxEnt∗[l=1∑∞γl(rt+l+αH(πMaxEnt∗(⋅∣st+l)))]
H(π(⋅∣st))=Ea∼π(⋅∣st)[−logπ(a∣ ...
Deep Generative Model
Deep Generative Model
PixelRNN
很朴素的想法,就是用RNN来生成图片,每一个像素点的生成都是依赖于之前的像素点。也是做一个自回归unsupervised learning。
结果不好,且慢。
VAE(Variational Autoencoder)
为什么用VAE?
Intuitive的理由:
VAE通过引入Gaussian,使用noise让模型更鲁棒。VAE在minimize时会考虑与之相近的图片。因为noise的引入让embedding space更加平滑。在code space随机sample会比在Auto encoder中更加有真实。
exp保证noise强度都是正的,当做variance。
但是直接这样train不行,因为这里σ\sigmaσ是模型自己learn的,当然给−∞-\infin−∞最好(退化到AE,不会有image overlap情形)。
注意这里加上了正则项的限制,在这个限制中σ\sigmaσ取0(此时对应的噪声强度exp(σ)exp(\sigma)exp(σ)为1)时,正则项最小,避免σ\sigmaσ往负无穷跑
m2m ...
MOPO
MOPO
Abstract
离线强化学习(RL)是指完全从以前收集到的大量数据中进行学习策略的问题。这个问题设置提供了利用这些数据集来获取策略的承诺,而不需要任何昂贵或危险的主动探索(研究价值)。然而,由于离线训练数据与学习策略访问的状态之间的分布转移(难点),这也具有挑战性。尽管最近取得了重大进展,但以前最成功的方法是无模型的,并将策略限制为对数据的支持,排除了推广到不可见的状态(out-of-distribution)。在本文中,我们首先观察到,与无模型的方法相比,现有的基于模型的RL算法已经在离线设置中产生了显著的收益。然而,为在线设置而设计的基于模型的标准RL方法并没有提供一个明确的机制来避免离线设置的分布转移问题。相反,我们建议修改现有的基于模型的RL方法,将其应用于被动态不确定性人为惩罚的奖励中。我们从理论上证明了该算法在真MDP条件下使策略返回的下界最大化。我们还描述了离开批数据支持的收益和风险之间的权衡。我们的算法是基于模型的离线策略优化(MOPO),在现有的离线RL基准和两个具有挑战性的连续控制任务上优于标准的基于模型的RL算法和现有的无模型离线RL算法,这些任务 ...
COMBO
COMBO-Conservative Offline Model-Based Policy Optimization
Motivation
offline RL的主要思想是将online RL结合conservatism或regularization。一般的model-free算法直接在策略或值函数上结合conservatism,它们学习的状态被限制在offline dataset中,从而将导致一个保守的算法。相反,model-based算法基于不确定性量化能够使得状态和动作空间均一定程度脱离offline dataset,潜在具有更强的泛化能力。而model-based算法的主要问题是其生成的路径可能与dataset中分布不一致。
为了解决model-based算法在offline中模型产出分布不一致带来的估计问题,一般有两种思路:
设计model error oracle,即在所有状态-动作对上衡量模型误差估计,模型越不确定的地方这个惩罚的值越大。
让策略贴近dataset中的策略分布,同时让偏离dataset中Q(s,a)Q(s,a)Q(s,a)不被高估,即对于偏离data ...
About me
Research Interest
Aiming at diffusion models, quantitative trading, DL and RL currently, welcome to discuss with me.
Resume
oier (2017.7 - 2021.1)
noip2020: First prize
WC2021: bronze medal
icpc_er (2022.7 - 2024.1)
icpc2023 Xi’an invitational contest: gold medal
icpc2023 Hangzhou regional contest: gold medal
icpc2023 east continent final: silver medal
csp: Top 0.3%
NJU-信计-强基 (2022.9 - ???)
COSEC paper: Preventing Dataset Abuse in Fine-Tuning Stable Diffusion Models
LAMDA RL project
Tea ...
随笔-big city
和朋友聊起直博后的毕业出路,有感。
大城市并不好过,终其一生仅仅为北上广深添砖加瓦的人不占少数。大城市有最优秀的平台,最聪明的合作伙伴,也有最深的人情世故,最落魄的失败者。一个刚走出大学象牙塔进入社会的年轻人,凭什么在异地他乡的大城市里生存。请恕我用生存二字,我实在不想用幸福生活之类的话。绝大多数来到大城市的年轻人没有足够清晰的规划,但就我而言,我不喜欢在还没尝试前就去选择一眼看得到尽头的路,我始终认为只有大城市顶尖的平台和团队才能让我大展身手,实现个人追求,所以对大城市心向往之,而这种想法仅仅是以自我为中心,虽然暂时不会抛弃它,但我承认某种程度上它是理想主义的一厢情愿。
这里有几组矛盾点,第一是理想与现实,也许你很强,认为自己能在大城市打出自己的一片天地,但工作和事业仅仅是生活的一部分,在你全力投入工作之余,你的父母是否希望你留在他们周围,你的女友是否也同样想或者能够在大城市立住脚,大部分人包括我,很难提前预料生活上的种种柴米油盐。但现实从来不会和你开玩笑,始终如重担压在人们的肩上,往往还会越挑越重。第二点就是取舍问题,仔细捋一捋来到大城市的失与得(以我自己情况为例):
得:一段行业 ...
Metabit trading 实习记录
Metabit trading 实习记录
缘起
虽然对量化早有耳闻,但是没想到第一次线下接触量化公司竟然是在icpc ecfinal亚洲总决赛的现场。
开幕式上,继华为过后,美国对冲基金公司Jane street的老总亲临现场,用英语做了一个简单的量化介绍,并幽默地讲解了一个小算法。不止是Jane street,在现场还有很多国内外的量化公司,挺意外赞助席除了华为和自动驾驶,还有这么多量化公司对算法竞赛感兴趣。
比赛前,按照惯例,我拉着队友在会场到处领各家大小厂的周边,其中就有乾象投资的电子木鱼。
当然,白嫖周边的代价是添加HR和企业微信。
于是,在三月初春,一条量化实习招聘的微信消息出现在了我的手机,也没多想,抱着玩玩的心态顺手投了简历。
事后发现,乾象(Metabit Trading)竟然是华为之后第二赞助大爹。
面试
面试贯穿了整个三四月,共计五场,一场大概四五十分钟的样子。
由于实习不是我的重心,所以并没有也没啥时间准备面试。
鉴于保密协议,我就不展开讲了,只谈一下大概面了啥。
一面:聊了实习时间地点,个人简历,确认了有时间参加暑期北京三个月保底的实习。(不出意外期末考 ...
Quant note
打开量化交易的黑箱
概念阐明
1. “无效市场无风险套利”
“当其他交易者的需求使得证券市场的供需关系短暂失衡时,量化交易可以通过提供流动性使得市场更有效率。从有效市场(eficientmarket)的经济角度而言,不平衡性也称为市场无效(inefficients)。真正的无效市场代表着存在很少的、转瞬即逝的无风险套利机会。”
这段话主要讨论了量化交易如何通过提供流动性来帮助证券市场达到更高的效率,并简要提到了有效市场理论与市场无效的概念。下面我会逐步解释这些概念,以便更容易理解:
量化交易提供流动性
量化交易通常涉及使用算法和数学模型自动执行大量的交易。当市场上某些证券的买卖订单不平衡时,即供求关系失衡,量化交易可以迅速介入,通过买入或卖出这些证券,帮助“填补”市场上的订单空缺。这种快速响应市场的能力使得量化交易者可以为市场提供所谓的“流动性”,即使资金更容易、更快速地在市场参与者之间流动。
市场效率与市场无效
有效市场假说(Efficient Market Hypothesis,EMH)认为,市场价格在任何给定时间都已经反映了所有可用信息。因此,在一个完全有效的市场中,没 ...