分类任务是深度学习模型的基本任务。深度学习模型的基本分类流程非常简单,输入待预测的数据,经分层提取特征,再用全连接层将特征输出为每个类的置信度,最后将置信度转化为one-hot编码。整个流程中,将置信度转化为ont-hot编码的操作一般是采用最大值方法,即选择概率最大的一类,将其值置为1,其他值置为0。在整个流程中,置信度转化过程看起来并不自然。假设一个二分类问题,如果我们预测两个输入的分类置信度分别为(0.6,0.4)和(0.99,0.01),它们的one-hot编码转化都是(1,0),但是前者的预测显然更加没有底气一些。同时注意到分类问题中,每一个输入的ground truth标签基本都为one-hot化的编码,但是网络实际输出的则是经过softmax操作的置信度,这在可解释性上也导致了一些问题。
本文主要梳理上述问题,并介绍几个可以联系置信度与转化后的one-hot编码好坏的指标,ECE。本文主要参考外文Blog:The Importance of Calibrating Your Deep Production Model。
FengHZ‘s Blog首发原创
笔者长期负责实验室深度学习服务器的管理与维护,本文是对服务器管理维护过程中遇到的一些典型问题的一揽子解决方案。深度学习服务器主要由若干CPU(通常是2块CPU,共48-64进程)与若干GPU(2-8块GPU,通常为1080Ti,2080Ti,TITAN xp,Tesla V100等)组成,可以用于深度学习模型的训练。这些服务器往往放置于内网中,在外网无法通过ssh进行直接访问,需要通过麻烦的VPN验证进入内网方能进行访问。笔者还遇到的特殊问题是,管理的4台服务器位于不同的内网,换机登陆极其麻烦。此外,深度学习任务中还需要用到很多基于web服务的工具,如jupyter notebook
,tensorboard
等工具,这些web服务的配置也需要一些技巧。在本文中,我采用开源内网穿透工具frp对上述问题进行解决,从而实现内网服务器的公网ssh操作与公网访问。
这一年ICLR被拒,IJCAI被拒,ICDE没赶上,ICML还在赶,除了解决了显卡设备的问题以外真实毫无进展。前几天参加了阿里达摩院联邦学习组的电话面试,最后过了,估计要去实习一年了,希望能搞出一点东西,本着开源精神这里简要写一下面经。
岐王宅里寻常见,
崔九堂前几度闻。
正是江南好风景,
落花时节又逢君。
李龟年,唐开元年间全国著名歌唱家。鼎盛时期受岐王(唐玄宗李隆基胞弟),崔涤(殿中监,唐玄宗亲信)赏识,曾多次出入岐王府与崔涤府中唱歌。安史之乱后,李龟年流落江南,卖艺为生。
李龟年鼎盛之时,杜甫原是长安一小吏,此诗是安史之乱后杜甫江南再遇李龟年所写。
你曾一度是整个国家乐坛的标志,你的歌声伴随着整个盛唐一起走向巅峰,而年轻时期的我,只不过是你的一枚小粉丝罢了。当你在岐王府中歌唱,在崔涤门前开演唱会时,我也只能远远地驻足观看。那是我步入长安后第一次看到传闻中的偶像,你是我心中深刻的痕迹,而你应该不记得我罢?
我也曾以为我们的世界会随着这份美好一直辉煌下去呢。然而,在最绚丽的时候毁灭似乎是一种宿命,一瞬间秩序被颠覆,整个世界被生生的打破,陷入无休止的战火。”野战格斗死,败马号鸣向天悲。士卒涂草莽,将军空尔为”,自安史之乱后,江南废弛乔木,尤厌言兵。
正逢江南落花时节,没想到在这里能遇到你。从长安到江南,你仍然是歌唱家,我仍然是驻足的观众,十年风尘,我沧桑了,你也老了。
明日隔山岳,世事两茫茫啊。那就趁着这份平和,再听一支昔日的歌吧。
FengHZ‘s Blog首发原创
基于标注监督的深度学习技术已经取得了巨大的成功,并极大推动了计算机视觉(CV),自然语言处理(NLP)等领域的进步。一般而言,只要构造一个足够大的数据集,且这个数据集拥有高质量的标注,我们就可以构造模型容量(Capacity)足够大的神经网络,通过反向传播(Back-Propagation)与随机优化算法(SGD,RMSProp,Adam)训练神经网络,并在测试集上达到足够高的泛化性能。但是,获取高质量的数据不是一件容易的事情。深度学习所需要的数据燃料以万计,获得较为精确的标注需要大量的人力,尤其是当数据标注涉及专家知识的时候,获得标注则变得极为昂贵。
半监督学习(semi-supervised learning)正是应对这种情况而生的方法。对于很多任务,获取原始数据成本低廉,而获取标注成本较高。在这些任务上,半监督学习算法可以同时利用少量有标注数据与大量无标注数据进行训练,其结果可以大大提高模型的泛化能力,甚至在某些任务上接近全监督学习的效果。
本文主要介绍半监督学习的发展历史以及现在主流深度半监督学习算法的三个派别:
其中,每一个派别内都会有许多不同的分支,对于每一个分支我们也将进行细分叙述。因参考文献较多,我们将参考文献放于文末,同时本文会保持持续更新。
FengHZ‘s Blog首发原创
In this article, we will give a brief review of mixup method which can dramatically improve the model performance with no extra computation. Mixup method now has played an important role in semi-supervised learning area, and we also provide a detailed implementation of all mixup methods in github.
FengHZ‘s Blog首发原创
Recently, Vector-Quantization based generative models have raised great attention these days. The model VQ-VAE2 gives the most clear and realistic generation of images among all autoencoder models with quality that rivals the state of the art result of BigGAN.
In this article, I wanna to give a brief summary of the main ideas for the 2 articles.
关于唐帝国如何瓦解这个问题,学界似乎已有不同层次的“定论”,但事实上针对这个问题,学界讨论十分有限,并没有得到完全地解答,仍存在很大值得讨论的空间。
陆扬先生此次报告以唐帝国如何瓦解为入手点,分析唐帝国瓦解本身的特殊性,进而深入探讨中国中古社会、政治的特质,思考九世纪整个政治、文化格局的形成及其意义,把晚唐、五代到宋初作为一个历史单位进行研究,意在重新建构这一历史时期的政治、社会以及文化。
FengHZ‘s Blog首发原创
Based on the latent variable assumption, the essential purpose of GAN is to map the distribution of latent variable $z\sim p(z)$ into the data distribution $x\sim p_{data}$. GAN utilizes the equilibrium theory 2-players game to find the optimal map. There have already been many articles introducing the structure of GAN with comparing GAN to the confrontation between counterfeiters and discriminators. However, understanding the basic mathemathical form of GAN is very important which can tell us why the equilibrium point can achieve the complex real data distribution $x\sim p_{data}$ without making any assumptions on the analytical form of $p_{data}$.
FengHZ‘s Blog首发原创
Variational autoencoders are usually combined of 2 parts: an encoder to predict the posterior of latent variable $z$ given input $x$ written as $q(z\vert x)$ and a decoder to predict the posterior of input $x$ given $z$ written as $p(x\vert z)$. Then we use the ELBO in statistical inference area to build loss function