2019年,关于AI的核心话题就是”落地”。腾讯AI lab一年发了55篇CVPR,仍然面临重组的风险,OpenAI公司主动打破非营利性公司的宗旨,把盈利考核标准摆上台面,某猪厂今年AI部门裁员80%,剩下的员工一个顶4个用。种种迹象都表明,以深度学习技术为主要引爆点的AI浪潮在项目落地与价值产出方面遇到了比想象中更大的障碍。这个障碍未必来源于深度学习技术方面,而是来源于数据基础设施与平台建设方面。简单而言,就是传统行业的信息化建设程度远远落后于深度学习技术所需要的基础设施标准。
我现在是医学AI行业的在读PhD,并早在2015年就对杭州各大医院的电子病历系统建设进行了800份医生问卷调查。调查结果显示,医院的信息化系统建设远远落后于现代的互联网技术发展。不同医院间电子病历系统往往外包给不同的单位,医院间电子病历系统既不能联网,也没有统一的录入格式,甚至会出现系统崩溃,数据丢失的情况,这使得利用过往积累的”大数据”进行人工智能系统的构建与训练障碍重重。当AI从业者想要用技术彻底改变一个行业时,发现自己大部分精力都在解决数据噪声与数据录入格式问题时,自己所学的精妙算法自然是无法施展开的。实际上,这些技术问题在互联网行业都有了一套成体系的建设方案,让专业的软件工程师来做这件事显得更加高效。
面对这次寒冬,身为AI从业者需要做什么呢?这里我引用毛泽东的一段话:
我们的同志在困难的时候,要看到成绩,要看到光明,要提高我们的勇气。
实际上,现在的AI寒冬很像2008年的视频寒冬与手机APP寒冬。当时,中国刚刚步入移动通信时代,流量收费非常贵,虽然视频相关的技术已经完全成熟,但是小视频APP,短视频网站,直播行业仍然纷纷倒闭,这是因为流量费用高昂,同时传输的缘故。等到4G兴起,通信基础设施建设完善,抖音,快手,斗鱼等以视频为主要载体的APP获得成功则是顺理成章的事情。AI行业也是一样,行业寒冬会来临,但是先进驱逐落后的步伐不会停止。等到互联网行业成熟的信息基础设施技术全面进入传统工科,商科等行业,等到数据标准统一,信息互通,访问便利,维护及时,那么AI技术就会焕发出巨大的力量。这个时间不会太久,大概在4-5年左右。
而我们AI从业者在这个时候则要主要将注意力放在”大数据上”,即构建百万,千万训练样本的模型。深度学习技术的第二次低谷是因为无法解决异或问题,即无法判断一个输入”没有任何训练集中的特征”,这个问题是由大数据解决的。百万,千万级别的训练数据保证了任何新的输入都在训练集中有相应的样本进行拟合,这就解决了”异或”问题。在医疗AI行业更是如此,医疗AI行业往往有训练标签获取困难,标注昂贵的问题,而在信息平台建立完善后,我们将容易地获取结构化的检验报告与原始影像。而标注仍然是难以直接获取的目标。针对这一可预见的未来,表示学派下的无监督预训练,半监督训练与迁移学习都是可以研究的领域。同时,斯坦福也提出了利用自然语言处理(NLP)工具从结构化的病历文本中提取特征的方向。
未来是光明的,而道路是曲折的。寒冬期正是做技术的好时候,身为从业者,看到其本质原因并为未来的发展制定研究方向,方能在寒冬过去后一展自己所学,避免研究成为”屠龙之术”。
我们邀请到来自lambda实验室强化学习组ZZM同学对于强化学习从业者在AI寒冬的评述:
强化学习在原理上都是不能落地的,除了在游戏中应用最多,或者在军工的一些项目可能可以落地外,因为现实世界环境过于复杂,强化学习将虚拟化环境上的策略迁移到真实环境这一步无法完成。
回台州中学教书是唯一出路。