本科生李诚获得第十三届“挑战杯”全国大学生课外学术科技作品竞赛特等奖
在10月17日落幕的第十三届“挑战杯”全国大学生课外学术科技作品竞赛(以下简称“全国‘挑战杯’”)中,清华大学选送的作品《多光照环境下的第一人称手部检测》荣获特等奖。该作品利用模型推荐系统等手段研究富有挑战的图像识别问题,将利用第一人称摄像头进行手部检测的准确率提高了10%-15%,相关成果也被卡内基梅隆大学、佐治亚理工学院、谷歌公司、夏普美国研究所等高校或研究机构采用。而完成该项目的团队只有一个年轻成员——物理系2009级本科生李诚。
李诚在全国“挑战杯”比赛现场介绍自己的作品
2009年,李诚凭借在科技竞赛中的优秀表现被保送进入清华大学,学校里丰富的科研资源让李诚有更多的平台和机会发展自己的兴趣特长。大三暑假,在校团委“本科生暑期海外研修计划”的支持下,李诚前往卡内基梅隆大学进行暑期研修。在那里,李诚认识了一位美籍日裔博士后,这位博士后正在进行可穿戴设备方面的第一人称物品识别研究。巧合的是,早在几年前,尚在读高中的李诚就通过TED网站上一位印度工程师的演讲了解了“可穿戴设备”这个概念并萌生了初步的兴趣,两人一拍即合,在他的建议和鼓励下,李诚开始了第一人称手部检测的探索与研究。
为了解决光照等情况下手部识别的问题,李诚查阅了前人在计算机视觉领域的研究后,仍然感到毫无头绪。这时他想到了曾经在“科技创新,星火燎原”清华大学学生创新人才培养计划(简称“星火班”)中听说过的“模型推荐”的概念,抱着试一试的想法,李诚引入了模型推荐系统,并结合特征选择和时空马尔可夫场滤波的方法,最终有效解决了第一人称手部检测的准确率问题。这一创造性的想法,就连计算机视觉三大顶级国际会议中的国际计算机视觉大会(ICCV)的审稿人都啧啧称赞:“用模型推荐系统来解决手部检测问题是非常有趣,新颖而直观的。”
对比图
当然,仅仅有创意也是不够的,还需要大量基础性的数据采集工作,李诚首先建立了一个标定过的有两亿多个像素实例、覆盖了各种不同光照环境下的手部照片的室内/室外第一人称手部识别数据集。利用这个数据集以及其他研究者发布的数据集,李诚对较为常用的底层特征进行了测试。他提出了一个基于稀疏特征选择,以及依赖于全局特征的结构化判断方案。
由于有时摄像机的移动速度过快,考虑到时间与空间的连续性信息,在之后处理过程,李诚采用了时空马尔科夫场滤波的算法,有效解决了这一问题。这些核心技术的巧妙运用,使得李诚的模型准确率领先于包括乔治亚理工、加州大学欧文分校在内的美国其他大学提出的几种主流模型。
李诚完成的第一人称手部检测的研究工作很快得到了同行专家的认可。他以第一作者分别在两个计算机视觉领域的顶尖学术会议CVPR2013(IEEE Conference on Computer Vision and Pattern Recognition)和ICCV2013(IEEE International Conference on Computer Vision)上发表论文2篇。该项目相关代码、数据集也已加入到谷歌公司的手部检测项目中并且即将加入目前应用最广泛的机器视觉开源库OpenCV的最新版本OpenCV3.0中。中国科学院院士张钹对项目予以了充分肯定,并评价道:“具有很高的研究水平和很好的推广前景”。