读博这一年
回望这一年,从 24 年 12 月正式进组开启科研生活,到如今也快一年多了。这一路走来,心境在变,认知也在重塑,值得落笔记录。
起点本科时的我,对科研有着一种近乎单纯的崇拜,总觉得能发一篇 A会 非常 nb。然而受限于当时的认知和能力问题,加之缺乏体系化的引导,我更像是在黑暗中摸索,空有热情却不知路径,蹉跎了不少时间。在进入ZVG实验室后,运气很好,导师安排了俊哲师兄带我做 自动驾驶 3DGS 重建。说实话,师兄对我的帮助真的是无微不至。从最开始定 idea 到后来的实验分析,大部分心血都是师兄花的,他起码占了 90% 的功劳。我当时做的事情比较机械,主要是写代码、跑实验。甚至到后面的论文润色和 rebuttal(审稿回复),基本也都是师兄在盯着。
当时的我可能觉得,自己已经上手了,知道怎么做科研了。但现在回过头来看,其实那时候全是师兄在前面带着我走,我更像是师兄 idea 的一个“执行者”。虽然跑实验的过程也挺累,但因为有师兄在,整体过程其实是比较顺的。从 12 月知道要做什么,到 25 年 3 月 8 日投 ICCV,前后也就三个月。后来文章能中,确实非常幸运。但这三个月让我明白, ...
服务器搭建
本人记忆着实一般,这几天新得了几台服务器的权限,要记录下来,怎么开坑,方便自己遇到此类问题。寻来方便。。
毕竟,前一天刚开一个服务器;第二天就忘了具体咋操作了
本人是做deep learning的,故本文仅仅适合DL的同学来看,其余不是很确定???
在/home/mazipei/目录下,下载miniconda/anaconda(看个人喜好,mini够用)
下载 Miniconda (Python3 version)
1wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
安装
1bash Miniconda3-latest-Linux-x86_64.sh
随后一直按回车,所有都yes安装好后,source ~/.bashrc
设置清华源
12python -m pip install --upgrade pippip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simp ...
Diffusion Model
Diffusion Model
扩散现象是指物质粒子从高浓度区域向低浓度区域移动的过程,如往水中滴入墨水。DDPM受到启发,将前向加噪也看成是扩散过程,逐步将有意义的原图像完全变成无意义的噪声。
前向加噪
对于一张图片X,通过随机采样生成符合标准正态分布的高斯噪声ε,ε具有与X相同的形状大小,然后对它们做加权平均,得到混合后的下一步图像,需要满足它们权重平方和为1,可写为:
\sqrt{\beta} \times \epsilon+\sqrt{1-\beta} \times x于是乎,
\begin{aligned}& x_1=\sqrt{\beta_1} \times \epsilon_1+\sqrt{1-\beta_1} \times x_0 \\& x_2=\sqrt{\beta_2} \times \epsilon_2+\sqrt{1-\beta_2} \times x_1 \\& x_3=\sqrt{\beta_3} \times \epsilon_3+\sqrt{1-\beta_3} \times x_2\end{aligned}Generally,
\begin{ ...
NeRF 笔记
NeRF 笔记
写在前面这原是我图形学课上论文阅读的一个作业,现放在自己博客里面,也当是我学习NeRF的一个小结。
NeRFAbstractNeRF提出了一种通过使用输入视图的稀疏集来优化底层连续体积场景函数,进而实现复杂场景的新视图合成的最先进的结果的方法。使用全连接(非卷积)深度网络,输入有五个维度(空间坐标$(x,y,z)$,视角方向$(\theta,\phi)$),输出是该空间位置的体积密度$\sigma$和视角相关的color。再通过传统的体渲染技术得到最后的像素值。通过比较生成图像和ground truth作为loss,来训练神经网络。
NeRF的意义是什么?经典的图形学渲染流程中,我们是通过对输入的图像进行三维建模,再去进行自由视角的渲染。这就要求构建出非常高质量的三维模型才能渲染出精细的结果。但是很多情况下,三维模型的构建是比较困难的。但是NeRF基于深度学习的流程,通过对三维场景的神经表达,结合可微分渲染,可以实现端到端的训练。最终可以实现在任意视角下对模型的渲染。
NeRF的基本原理NeRF的流程基本上可以用这幅图概括:
沿着相机光线,采样5D坐标合成图像 (位 ...