avatar
Articles
98
Tags
29
Categories
26

Home
Archives
Tags
Categories
Link
About
detect
Search
Home
Archives
Tags
Categories
Link
About

detect

Network Compression
Created2025-01-21|DLLee's notes|机器学习
Network Compression 网络压缩是指通过减少模型的大小和计算量来提高模型的性能。这个技术在移动端和嵌入式设备上(即resource-constrained的时候,比如手表,无人机)非常有用,因为这些设备的计算资源有限。网络压缩的方法有很多,比如剪枝、量化、知识蒸馏等。 Network Pruning 去评估参数和神经元。 一个很有意思的发现: 大模型里面小模型中奖了可以出结果,所以从大模型pruning出来的小模型是幸运的可以train的起来的参数。(与之对比,重新初始化结构相同的pruning出来的小模型是不行的) Knowledge Distillation 为什么不直接train一个小的network?因为效果不好。 一个直觉的说法,是teacher可以提供额外的咨询。 比如老师告诉说,1和7比较接近,而不是0%,100%。(比较平滑?) 同时注意到,knowledge distillation在model ensemble上的运用,实际中很难同时做1000个模型output的ensemble,但是我们可以提前train的一个对于ensemble结 ...
Domain Adaptation
Created2025-01-19|DLLee's notes|机器学习
Domain Adaptation 当我们有一个模型在一个domain上训练好了,我们想要将这个模型应用到另一个domain上,这时候就需要domain adaptation。 简单来说,就是训练集和测试集的分布不一样,我们需要让模型适应新的分布。其实和transfer learning很像,但是transfer learning更加广泛,不仅仅是domain adaptation。 Transfer Learning 按照有无label,可以分为几种case: Fine-tune 直接fine-tune,加上参数的L2正则化。 或者只对一个layer进行fine-tune。 但是哪些layer会被fine-tune呢?这个不同任务差异很大。 Multi-task learning 一个成功的例子是多语言的speech recognition。 Domain-adversarial training 和GAN有点像,希望把domain的信息去掉,只保留task-specific的信息。 Zero-shot learning 先提取attrib ...
Unsurpervised Learning
Created2025-01-17|DLLee's notes|机器学习
Unsupervised Learning 分为两类,降维和生成。 K-mean 一开始从training data里sample出k个点init,然后不断迭代,更新每个点的位置,使得每个点周围的点尽可能的接近它。 Hierarchical Agglomerative Clustering 每次合并距离最近的两个点,直到只剩下一个点。 这棵树上,比较早分支就比较不像(比如root) 然后可以切一刀,划分出不同的cluster类。(可以比较好决定cluster的数量) 但是cluster太过绝对! Distributed representation <—> Dimension reduction 其实是一样的事情 Demension Reduction 去掉无用feature(很多时候不好用) PCA(Principal Component Analysis) PCA z = Wx 目的:找这个W 需要project到几维是自己决定的 如何解PCA ? 新的z的feature的Cov是diagnal的!!! 很多比较简单的model需 ...
Energy-Based Model Training and Implicit Inference
Created2024-10-19|RL
Energy-Based Model Training and Implicit Inference Objective 我们要做两件事,给定(x,y)数据组,比如在强化学习专家策略中可以使(state,action) pair. 第一:训练一个能量模型Eθ(x,y)E_{\theta}(x,y)Eθ​(x,y),这个模型能够对数据组(x,y)进行打分,分数越低,说明这个数据组越符合我们的目标。我们希望降低样本内的能量,同时不忘提高样本外的能量。 第二:我们希望能够通过这个能量模型,进行隐式推理,即给定一个x,我们希望找到一个y(集合Y),使得Eθ(x,y)E_{\theta}(x,y)Eθ​(x,y)最小。 隐式模型(比如能量模型)好处 隐式模型的优势:在处理具有不连续性的复杂数据时,隐式模型能够精确地表示不连续点,并且在不连续点处保持尖锐的预测,不会因为插值而引入错误的中间值。 显式模型的局限:由于拟合的是连续函数,显式模型在不连续点处会进行插值,导致无法准确表示数据的真实变化,尤其当不连续性频繁出现时。 模型选择的考虑: 数据特性:如果数据包含大量不连续性,且这些不连续性对 ...
SQL
Created2024-10-17|RL
SQL Soft Q-leaning引入了熵作为正则项,可以说提出了一种新的评价体系,加强了策略的探索性。 同时很意外的与Energy-based model有一定的联系。 值函数改变 以前的Q只是对当前策略未来收益的预测,现在加入熵项: Qsoft⋆=rt+E(st+1,…)∼ρπMaxEnt∗[∑l=1∞γl(rt+l+αH(πMaxEnt∗(⋅∣st+l)))]Q^{\star}_{soft} = r_t + \mathbb{E}_{(s_{t+1},…)\sim\rho_{\pi^*_{MaxEnt}}}\left[ \sum_{l=1}^\infin\gamma^l\left(r_{t+l}+\alpha\mathcal{H}\left(\pi^*_{MaxEnt}\left(\cdot|s_{t+l}\right)\right)\right) \right] Qsoft⋆​=rt​+E(st+1​,…)∼ρπMaxEnt∗​​​[l=1∑∞​γl(rt+l​+αH(πMaxEnt∗​(⋅∣st+l​)))] H(π(⋅∣st))=Ea∼π(⋅∣st)[−log⁡π(a∣ ...
Deep Generative Model
Created2024-10-10|RL
Deep Generative Model PixelRNN 很朴素的想法,就是用RNN来生成图片,每一个像素点的生成都是依赖于之前的像素点。也是做一个自回归unsupervised learning。 结果不好,且慢。 VAE(Variational Autoencoder) 为什么用VAE? Intuitive的理由: VAE通过引入Gaussian,使用noise让模型更鲁棒。VAE在minimize时会考虑与之相近的图片。因为noise的引入让embedding space更加平滑。在code space随机sample会比在Auto encoder中更加有真实。 exp保证noise强度都是正的,当做variance。 但是直接这样train不行,因为这里σ\sigmaσ是模型自己learn的,当然给−∞-\infin−∞最好(退化到AE,不会有image overlap情形)。 注意这里加上了正则项的限制,在这个限制中σ\sigmaσ取0(此时对应的噪声强度exp(σ)exp(\sigma)exp(σ)为1)时,正则项最小,避免σ\sigmaσ往负无穷跑 m2 ...
MOPO
Created2024-10-09|RL
MOPO Abstract 离线强化学习(RL)是指完全从以前收集到的大量数据中进行学习策略的问题。这个问题设置提供了利用这些数据集来获取策略的承诺,而不需要任何昂贵或危险的主动探索(研究价值)。然而,由于离线训练数据与学习策略访问的状态之间的分布转移(难点),这也具有挑战性。尽管最近取得了重大进展,但以前最成功的方法是无模型的,并将策略限制为对数据的支持,排除了推广到不可见的状态(out-of-distribution)。在本文中,我们首先观察到,与无模型的方法相比,现有的基于模型的RL算法已经在离线设置中产生了显著的收益。然而,为在线设置而设计的基于模型的标准RL方法并没有提供一个明确的机制来避免离线设置的分布转移问题。相反,我们建议修改现有的基于模型的RL方法,将其应用于被动态不确定性人为惩罚的奖励中。我们从理论上证明了该算法在真MDP条件下使策略返回的下界最大化。我们还描述了离开批数据支持的收益和风险之间的权衡。我们的算法是基于模型的离线策略优化(MOPO),在现有的离线RL基准和两个具有挑战性的连续控制任务上优于标准的基于模型的RL算法和现有的无模型离线RL算法,这些任务 ...
COMBO
Created2024-10-08|RL
COMBO-Conservative Offline Model-Based Policy Optimization Motivation offline RL的主要思想是将online RL结合conservatism或regularization。一般的model-free算法直接在策略或值函数上结合conservatism,它们学习的状态被限制在offline dataset中,从而将导致一个保守的算法。相反,model-based算法基于不确定性量化能够使得状态和动作空间均一定程度脱离offline dataset,潜在具有更强的泛化能力。而model-based算法的主要问题是其生成的路径可能与dataset中分布不一致。 为了解决model-based算法在offline中模型产出分布不一致带来的估计问题,一般有两种思路: 设计model error oracle,即在所有状态-动作对上衡量模型误差估计,模型越不确定的地方这个惩罚的值越大。 让策略贴近dataset中的策略分布,同时让偏离dataset中Q(s,a)Q(s,a)Q(s,a)不被高估,即对于偏离data ...
About me
Sticky|Created2024-06-01|resume
Research Interest Aiming at diffusion models, quantitative trading, DL and RL currently, welcome to discuss with me. Resume oier (2017.7 - 2021.1) noip2020: First prize WC2021: bronze medal icpc_er (2022.7 - 2024.1) icpc2023 Xi’an invitational contest: gold medal icpc2023 Hangzhou regional contest: gold medal icpc2023 east continent final: silver medal csp: Top 0.3% NJU-信计-强基 (2022.9 - ???) COSEC paper: Preventing Dataset Abuse in Fine-Tuning Stable Diffusion Models LAMDA RL project Tea ...
随笔-big city
Created2024-05-19|随笔
和朋友聊起直博后的毕业出路,有感。 大城市并不好过,终其一生仅仅为北上广深添砖加瓦的人不占少数。大城市有最优秀的平台,最聪明的合作伙伴,也有最深的人情世故,最落魄的失败者。一个刚走出大学象牙塔进入社会的年轻人,凭什么在异地他乡的大城市里生存。请恕我用生存二字,我实在不想用幸福生活之类的话。绝大多数来到大城市的年轻人没有足够清晰的规划,但就我而言,我不喜欢在还没尝试前就去选择一眼看得到尽头的路,我始终认为只有大城市顶尖的平台和团队才能让我大展身手,实现个人追求,所以对大城市心向往之,而这种想法仅仅是以自我为中心,虽然暂时不会抛弃它,但我承认某种程度上它是理想主义的一厢情愿。 这里有几组矛盾点,第一是理想与现实,也许你很强,认为自己能在大城市打出自己的一片天地,但工作和事业仅仅是生活的一部分,在你全力投入工作之余,你的父母是否希望你留在他们周围,你的女友是否也同样想或者能够在大城市立住脚,大部分人包括我,很难提前预料生活上的种种柴米油盐。但现实从来不会和你开玩笑,始终如重担压在人们的肩上,往往还会越挑越重。第二点就是取舍问题,仔细捋一捋来到大城市的失与得(以我自己情况为例): 得:一段行业 ...
1234…10
avatar
Richard
If you can't explain it simply, you don't understand it well enough.
Articles
98
Tags
29
Categories
26
Follow Me
Announcement
blog is buliding!
Recent Post
JAX base2025-05-06
Python Multiprocess2025-05-05
C++ Embedding Python2025-05-05
Python tips2025-05-01
Pandas Tips2025-05-01
生成式奖励模型的几种方法2025-03-25
Let’s Verify Step by Step2025-03-24
Generative Verifiers, Reward Modeling as Next-Token Prediction2025-03-23
LoRA2025-03-23
GRPO2025-03-23
Categories
  • DL16
    • Lee's HW1
    • Lee's notes14
    • code1
  • Math1
    • Bayesian Network and MCMC1
  • NJU course11
    • Crypto1
Tags
RL GPT diffusion DS python c++ catalog HW note linux Quant Metabit resume 实习 实验报告 机器学习 math ML LLM tool algorithm paper hexo GAN vim 随笔 git 神经网络 OS
Archives
  • May 20255
  • March 202510
  • February 20252
  • January 20256
  • October 20245
  • June 20241
  • May 20243
  • April 20243
  • March 20248
  • February 20246
  • January 202416
  • December 20238
  • November 20237
  • October 20233
  • September 20237
  • July 20233
  • June 20234
  • March 20231
Info
Article :
98
Run time :
Total Count :
260.9k
Last Push :
©2020 - 2025 By Richard
Framework Hexo|Theme Butterfly
Search
Loading the Database