Network Compression
Network Compression
网络压缩是指通过减少模型的大小和计算量来提高模型的性能。这个技术在移动端和嵌入式设备上(即resource-constrained的时候,比如手表,无人机)非常有用,因为这些设备的计算资源有限。网络压缩的方法有很多,比如剪枝、量化、知识蒸馏等。
Network Pruning
去评估参数和神经元。
一个很有意思的发现:
大模型里面小模型中奖了可以出结果,所以从大模型pruning出来的小模型是幸运的可以train的起来的参数。(与之对比,重新初始化结构相同的pruning出来的小模型是不行的)
Knowledge Distillation
为什么不直接train一个小的network?因为效果不好。
一个直觉的说法,是teacher可以提供额外的咨询。
比如老师告诉说,1和7比较接近,而不是0%,100%。(比较平滑?)
同时注意到,knowledge distillation在model ensemble上的运用,实际中很难同时做1000个模型output的ensemble,但是我们可以提前train的一个对于ensemble结 ...
Domain Adaptation
Domain Adaptation
当我们有一个模型在一个domain上训练好了,我们想要将这个模型应用到另一个domain上,这时候就需要domain adaptation。
简单来说,就是训练集和测试集的分布不一样,我们需要让模型适应新的分布。其实和transfer learning很像,但是transfer learning更加广泛,不仅仅是domain adaptation。
Transfer Learning
按照有无label,可以分为几种case:
Fine-tune
直接fine-tune,加上参数的L2正则化。
或者只对一个layer进行fine-tune。
但是哪些layer会被fine-tune呢?这个不同任务差异很大。
Multi-task learning
一个成功的例子是多语言的speech recognition。
Domain-adversarial training
和GAN有点像,希望把domain的信息去掉,只保留task-specific的信息。
Zero-shot learning
先提取attrib ...
Unsurpervised Learning
Unsupervised Learning
分为两类,降维和生成。
K-mean
一开始从training data里sample出k个点init,然后不断迭代,更新每个点的位置,使得每个点周围的点尽可能的接近它。
Hierarchical Agglomerative Clustering
每次合并距离最近的两个点,直到只剩下一个点。
这棵树上,比较早分支就比较不像(比如root)
然后可以切一刀,划分出不同的cluster类。(可以比较好决定cluster的数量)
但是cluster太过绝对!
Distributed representation <—> Dimension reduction
其实是一样的事情
Demension Reduction
去掉无用feature(很多时候不好用)
PCA(Principal Component Analysis)
PCA
z = Wx
目的:找这个W
需要project到几维是自己决定的
如何解PCA ?
新的z的feature的Cov是diagnal的!!!
很多比较简单的model需 ...
Energy-Based Model Training and Implicit Inference
Energy-Based Model Training and Implicit Inference
Objective
我们要做两件事,给定(x,y)数据组,比如在强化学习专家策略中可以使(state,action) pair.
第一:训练一个能量模型Eθ(x,y)E_{\theta}(x,y)Eθ(x,y),这个模型能够对数据组(x,y)进行打分,分数越低,说明这个数据组越符合我们的目标。我们希望降低样本内的能量,同时不忘提高样本外的能量。
第二:我们希望能够通过这个能量模型,进行隐式推理,即给定一个x,我们希望找到一个y(集合Y),使得Eθ(x,y)E_{\theta}(x,y)Eθ(x,y)最小。
隐式模型(比如能量模型)好处
隐式模型的优势:在处理具有不连续性的复杂数据时,隐式模型能够精确地表示不连续点,并且在不连续点处保持尖锐的预测,不会因为插值而引入错误的中间值。
显式模型的局限:由于拟合的是连续函数,显式模型在不连续点处会进行插值,导致无法准确表示数据的真实变化,尤其当不连续性频繁出现时。
模型选择的考虑:
数据特性:如果数据包含大量不连续性,且这些不连续性对 ...
SQL
SQL
Soft Q-leaning引入了熵作为正则项,可以说提出了一种新的评价体系,加强了策略的探索性。
同时很意外的与Energy-based model有一定的联系。
值函数改变
以前的Q只是对当前策略未来收益的预测,现在加入熵项:
Qsoft⋆=rt+E(st+1,…)∼ρπMaxEnt∗[∑l=1∞γl(rt+l+αH(πMaxEnt∗(⋅∣st+l)))]Q^{\star}_{soft} = r_t + \mathbb{E}_{(s_{t+1},…)\sim\rho_{\pi^*_{MaxEnt}}}\left[ \sum_{l=1}^\infin\gamma^l\left(r_{t+l}+\alpha\mathcal{H}\left(\pi^*_{MaxEnt}\left(\cdot|s_{t+l}\right)\right)\right) \right]
Qsoft⋆=rt+E(st+1,…)∼ρπMaxEnt∗[l=1∑∞γl(rt+l+αH(πMaxEnt∗(⋅∣st+l)))]
H(π(⋅∣st))=Ea∼π(⋅∣st)[−logπ(a∣ ...
Deep Generative Model
Deep Generative Model
PixelRNN
很朴素的想法,就是用RNN来生成图片,每一个像素点的生成都是依赖于之前的像素点。也是做一个自回归unsupervised learning。
结果不好,且慢。
VAE(Variational Autoencoder)
为什么用VAE?
Intuitive的理由:
VAE通过引入Gaussian,使用noise让模型更鲁棒。VAE在minimize时会考虑与之相近的图片。因为noise的引入让embedding space更加平滑。在code space随机sample会比在Auto encoder中更加有真实。
exp保证noise强度都是正的,当做variance。
但是直接这样train不行,因为这里σ\sigmaσ是模型自己learn的,当然给−∞-\infin−∞最好(退化到AE,不会有image overlap情形)。
注意这里加上了正则项的限制,在这个限制中σ\sigmaσ取0(此时对应的噪声强度exp(σ)exp(\sigma)exp(σ)为1)时,正则项最小,避免σ\sigmaσ往负无穷跑
m2 ...
MOPO
MOPO
Abstract
离线强化学习(RL)是指完全从以前收集到的大量数据中进行学习策略的问题。这个问题设置提供了利用这些数据集来获取策略的承诺,而不需要任何昂贵或危险的主动探索(研究价值)。然而,由于离线训练数据与学习策略访问的状态之间的分布转移(难点),这也具有挑战性。尽管最近取得了重大进展,但以前最成功的方法是无模型的,并将策略限制为对数据的支持,排除了推广到不可见的状态(out-of-distribution)。在本文中,我们首先观察到,与无模型的方法相比,现有的基于模型的RL算法已经在离线设置中产生了显著的收益。然而,为在线设置而设计的基于模型的标准RL方法并没有提供一个明确的机制来避免离线设置的分布转移问题。相反,我们建议修改现有的基于模型的RL方法,将其应用于被动态不确定性人为惩罚的奖励中。我们从理论上证明了该算法在真MDP条件下使策略返回的下界最大化。我们还描述了离开批数据支持的收益和风险之间的权衡。我们的算法是基于模型的离线策略优化(MOPO),在现有的离线RL基准和两个具有挑战性的连续控制任务上优于标准的基于模型的RL算法和现有的无模型离线RL算法,这些任务 ...
COMBO
COMBO-Conservative Offline Model-Based Policy Optimization
Motivation
offline RL的主要思想是将online RL结合conservatism或regularization。一般的model-free算法直接在策略或值函数上结合conservatism,它们学习的状态被限制在offline dataset中,从而将导致一个保守的算法。相反,model-based算法基于不确定性量化能够使得状态和动作空间均一定程度脱离offline dataset,潜在具有更强的泛化能力。而model-based算法的主要问题是其生成的路径可能与dataset中分布不一致。
为了解决model-based算法在offline中模型产出分布不一致带来的估计问题,一般有两种思路:
设计model error oracle,即在所有状态-动作对上衡量模型误差估计,模型越不确定的地方这个惩罚的值越大。
让策略贴近dataset中的策略分布,同时让偏离dataset中Q(s,a)Q(s,a)Q(s,a)不被高估,即对于偏离data ...
About me
Research Interest
Aiming at diffusion models, quantitative trading, DL and RL currently, welcome to discuss with me.
Resume
oier (2017.7 - 2021.1)
noip2020: First prize
WC2021: bronze medal
icpc_er (2022.7 - 2024.1)
icpc2023 Xi’an invitational contest: gold medal
icpc2023 Hangzhou regional contest: gold medal
icpc2023 east continent final: silver medal
csp: Top 0.3%
NJU-信计-强基 (2022.9 - ???)
COSEC paper: Preventing Dataset Abuse in Fine-Tuning Stable Diffusion Models
LAMDA RL project
Tea ...
随笔-big city
和朋友聊起直博后的毕业出路,有感。
大城市并不好过,终其一生仅仅为北上广深添砖加瓦的人不占少数。大城市有最优秀的平台,最聪明的合作伙伴,也有最深的人情世故,最落魄的失败者。一个刚走出大学象牙塔进入社会的年轻人,凭什么在异地他乡的大城市里生存。请恕我用生存二字,我实在不想用幸福生活之类的话。绝大多数来到大城市的年轻人没有足够清晰的规划,但就我而言,我不喜欢在还没尝试前就去选择一眼看得到尽头的路,我始终认为只有大城市顶尖的平台和团队才能让我大展身手,实现个人追求,所以对大城市心向往之,而这种想法仅仅是以自我为中心,虽然暂时不会抛弃它,但我承认某种程度上它是理想主义的一厢情愿。
这里有几组矛盾点,第一是理想与现实,也许你很强,认为自己能在大城市打出自己的一片天地,但工作和事业仅仅是生活的一部分,在你全力投入工作之余,你的父母是否希望你留在他们周围,你的女友是否也同样想或者能够在大城市立住脚,大部分人包括我,很难提前预料生活上的种种柴米油盐。但现实从来不会和你开玩笑,始终如重担压在人们的肩上,往往还会越挑越重。第二点就是取舍问题,仔细捋一捋来到大城市的失与得(以我自己情况为例):
得:一段行业 ...