avatar
Articles
101
Tags
30
Categories
26

Home
Archives
Tags
Categories
Link
About
detect
Search
Home
Archives
Tags
Categories
Link
About

detect

Auto-encoder
Created2025-06-09|DLLee's notes|ML
Auto-encoder 其实方法论上很简单: 从PCA的视角看: 就是两边的weight是转置的,但是这个PCA限制的,没有必要说encoder和decoder的weight是对称的。 所以可以去掉这个限制,直接train一发。 deep的方法比PCA好一些:(下面是deep) Auto-encoder还可以用来做预训练参数 比如上图中,先把500 1000 1000之间的参数按每一层去学好,作为初始值。 最后在调W4的时候,对所有参数一起fine-tune就行。 但是一般没什么用了现在,现在的optimizer都挺牛逼的。 主要是针对大量没有标签(用来pre-train),只有少量的labeled data去稍微调整weight。 加噪版auto-encoder增加抗干扰能力,更robust 让auto-encoder学会去除噪音。 对CNN也有对应的unpooling和deconvolutional 使用decoder去做generation 但是怎么选择框不太方便。 这里可以加一个L2的regularization,让其分布与0点的周围,然后直接取0周围的 ...
矩阵计算
Created2025-06-09|nju
矩阵特征值 矩阵的迹 矩阵的秩 内积and范数 一个比较重要的点: 说明范数之间是有limit的,有时一个范数很难,我们可以转换为最小化另一个容易处理的范数来solve。 正定矩阵 正交矩阵 正交矩阵重要性质: 三角矩阵 对于正定矩阵可以有cholesky分解: 这个方法可以用于采样协方差矩阵: 范德蒙矩阵 傅里叶矩阵 特征值分解 所有像ex,sin(x)e^x,sin(x)ex,sin(x)可以展开成多项式逼近的函数作用在矩阵上都可以先特征值分解做简化。 特征值的定义 对于对称矩阵: 三个对称矩阵特征值特征向量重要的结论: 非对称矩阵在这三个结论上的说法: 挺实用的几个tips。 同时这里提到了特征值的条件数 特征值的代数重数大于几何重数 相似矩阵具有相同的特征值: 实对称矩阵一定可以对角化! 对于有重根则需要进一步去算,不一定可以,也不一定不可以。 数值稳定 用二范数的时候,cond就是最大奇异值和最小奇异值的比值。 所以添加对角线eps可以起到稳定作用。 条件数一些性质和应用 QR 分解也 ...
好运设计
Created2025-05-30|随笔
史铁生的散文《好运设计》是在截瘫后写的一篇关于人生的思考。史先生在这篇散文中设计了一个完美的人生,试图探讨什么是好运,什么是幸福。 《好运设计》的初衷是为了设计一个完美的人生。 第一步,史铁生设计了从出生到婚姻完美的人生阶段。英俊潇洒的健康身体,爱因斯坦的聪明智慧,爱你的父母,多姿多彩的童年,长大后的多才多艺,学识渊博,然后遇到了同样优秀的人生伴侣。 到了这里第一个问题出现了,没有过痛苦和挫折的衬照,你是体会不到幸福的滋味,也不懂得去珍惜,然后时间会冲淡这一切,开始枯燥,麻木,腻烦…. 所谓好运,显然不是一种客观的程序,而完全是心灵的感受,是一种幸福感罢了。没有痛苦和磨难就不能强烈感受到幸福,那只是舒适只是平庸,不是好运更不是幸福。 看来为了这个设计得不停的去感受一些小小的痛苦,比如追求中虽然会体会到一点痛苦,但是最终都会获得胜利,你会不停的克服困难,以此不断的获得幸福感。 到了这里,我们发现了另一个问题,这个世界上没有永远的胜利者,即使有,也逃不过人类的宿命,消亡。面对这个结果,饱尝无数胜利的你,会输的一败涂地,你的所有追求,所有胜利,在这一刻显得那么的微不足道。是的,设计到了这里, ...
JAX base
Created2025-05-06|python
JAX 学习资料: https://www.zhihu.com/column/c_1729967479470804992 从入门到jax神经网络手写数字识别 对应的github仓库 https://space.bilibili.com/478929155/search?keyword=jax b站上的视频讲解,挺好懂的。 12345678910111213141516171819202122232425import jaximport jax.numpy as jnpfrom jax import jit, grad, vmap# 原始函数def f(x): return jnp.sin(x) + x**2# 1. 求导f_grad = grad(f)# 2. 向量化f_grad_batch = vmap(f_grad)# 3. 编译加速f_grad_batch_jit = jit(f_grad_batch)# 创建一批数据x_batch = jnp.linspace(0, 10, 10000000) # 10000个样本# 调用y_batch = f_grad ...
Python Multiprocess
Created2025-05-05|python
Pyhton Multiprocess 众所周知,py因为有GIL的存在,导致python的多线程并不能真正实现多线程的效果。python的多进程可以有效的解决这个问题。python的多进程是通过multiprocessing模块来实现的。 一个用cond条件变量实现生产者消费者的例子 producer consumer 下面是完全用 Process 子类,并结合双 Condition 的“满/空”优化,同时保留了: with cond: 自动加锁/解锁 while 循环防虚假唤醒 notify_all() 精准唤醒 子类化封装,可复用、清晰 1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677787980818283848586878889from multiprocessing import Process, Condition, ...
C++ Embedding Python
Created2025-05-05|python
C++ Embedding Python c++编译链接 背景知识 cpp流程如下 我们想做的是在python中调用cpp的函数。 我们把cpp搞成动态链接库so,然后在python里import这个so文件,来调用写好的cpp函数。 链接器作用 头文件和链接 为什么 .h 和 .cpp 要分开写 静态和动态编译 pybind11 在py中嵌入cpp函数 常见方式 我们尽量选择pybind11来做python和cpp的交互。 我们马上做两个更实用的例子: 1. 绑定一个完整的 C++类(class) 给Python用 2. 让Python的 numpy数组直接传给C++加速处理(比如矩阵运算) (全部用pybind11,保持代码极短极优雅🌟) 🛠️ 第一个例子:绑定一个C++类到Python Step 1. 写一个简单的C++类 新建 example.cpp 123456789101112131415161718192021#include <pybind11/pybind11.h>class Adder {public: A ...
Python tips
Created2025-05-01|python
Python Tips 对于mypy静态检验,我们该怎么严谨的写py code 使用logging来标注info和debug信息,可以一键屏蔽debug信息 类方法 @classmethod 绑定之后,就不用传入self了 变成对这个类的元变量的函数 包的绝对导入和相对导入 py判断数据类型 callable 让类的实例可以像函数一样被调用 函数传参顺序 map返回的是惰性对象 需要list()隐式遍历来转换为list ABC基类+@abstractmethod 强制实现虚接口
Pandas Tips
Created2025-05-01|python
Pandas Tips series本来就是像dict,安全的获取元素方式 series的运算最重要是自动更具index对齐 当我们想要删除nan时 当我们指定index和columns时,效果不一样,index是替换,columns是保留/选择 列的删除和添加 pandas浅拷贝和Copy on write 遇到list里面还有其他指针的可变对象时,需要deepcopy。 常见的切片,取col操作都是COW的,真正共享底层内存需要直接对df.value进行操作。 用df.assign()来添加列 配合lambda函数 挑选子集 注意直接df[]可以是col,也可以返回是row的切片组合df。 df的运算 describe()简单总结每一列的情况 sort和query 单元素快速数据访问 筛选过滤 要注意下面这种情况,不要连着用,不然解释器不知道你对第一个副本做还是对原始df做 使用df.loc明确说 pandas的缺失元素 强制统一col的元素和顺序 目的是对 ...
生成式奖励模型的几种方法
Created2025-03-25|paper
生成式奖励模型的几种方法 简要讨论link 列出的这几篇论文是2024年最新的生成式奖励模型(Generative Reward Models, GRM)方向的重要工作。下面我会逐条为你展开讲解每一篇的核心思路、方法结构、创新点和关键词, 🧠 生成式奖励模型(GRM)背景介绍 传统奖励模型(如 InstructGPT 使用的)大多是: 在 LLM 后面加一个 MLP(value head) 输出一个 scalar 值作为 reward 通常使用 pairwise 偏好数据 + ranking loss 或 DPO 来训练 但这些模型有几个问题: 不可解释(只是一个分数,没有理由) 结构封闭(需要改模型结构) 鲁棒性差(容易受样本偏差影响) 于是最近兴起了一类新的范式:生成式奖励模型(Generative Reward Model),即: 利用 LLM 原有的生成能力,输出语言化的评价(评语、判断、Yes/No、分数等),作为奖励模型。 1️⃣ Beyond Scalar Reward Model: Learning Generative Judge from Pr ...
Let’s Verify Step by Step
Created2025-03-24|paper
Let’s Verify Step by Step 更多细节 Problem:数学问题。 Solution:解题的过程/步骤。 Answer:数学答案。 Generator:在复杂任务场景中,需要一系列的推导步骤才能得到答案。为每个复杂问题Problem生成一系列解题步骤Solution和最终答案Answer。每个Solution之间按照换行符进行分隔。 Reward Model:奖励模型(也可以视为验证器verifier),对生成的内容进行评判,分为以下两种结果奖励监督模型ORM和过程奖励监督模型PRM。 ORMs:结果监督奖励模型(Outcome-supervised),只对完整答案进行评分。 PRMs:过程监督奖励模型 ( process-supervised),可以对每个解题步骤进行评分。 Generator和Reward Model关系: 训练阶段:作为RLHF中的reward模型,提升LLM(Generator)对齐效果。 推理阶段:作为Verification验证模型,对Generator生成的多个候选进行重排序,确保LLM输出更高的一致性和准确性,eg :re ...
12…11
avatar
Richard
If you can't explain it simply, you don't understand it well enough.
Articles
101
Tags
30
Categories
26
Follow Me
Announcement
blog is buliding!
Recent Post
Auto-encoder2025-06-09
矩阵计算2025-06-09
好运设计2025-05-30
JAX base2025-05-06
Python Multiprocess2025-05-05
C++ Embedding Python2025-05-05
Python tips2025-05-01
Pandas Tips2025-05-01
生成式奖励模型的几种方法2025-03-25
Let’s Verify Step by Step2025-03-24
Categories
  • DL17
    • Lee's HW1
    • Lee's notes15
    • code1
  • Math1
    • Bayesian Network and MCMC1
  • NJU course11
    • Crypto1
Tags
LLM algorithm GAN 实验报告 vim c++ git diffusion python ML hexo tool note paper GPT 神经网络 随笔 DS Metabit catalog RL resume nju Quant 机器学习 HW 实习 linux OS math
Archives
  • June 20252
  • May 20256
  • March 202510
  • February 20252
  • January 20256
  • October 20245
  • June 20241
  • May 20243
  • April 20243
  • March 20248
  • February 20246
  • January 202416
  • December 20238
  • November 20237
  • October 20233
  • September 20237
  • July 20233
  • June 20234
  • March 20231
Info
Article :
101
Run time :
Total Count :
264.1k
Last Push :
©2020 - 2025 By Richard
Framework Hexo|Theme Butterfly
Search
Loading the Database