视觉智能与模式分析
视觉智能与模式分析
视觉智能与模式分析课题组研究内容主要包含四个方面:
1. 视觉感知增强方面,我们主要针对高动态范围场景建模、颜色度量准则与管理、基于深度图像的计算机视觉等方面开展新的研究;
2. 视觉嵌入方面,我们研究物体的检测、追踪与识别,图像/视频的语义分割与标注,下一代编码/解码的生成技术;
3. 基于视觉的人机交互方面,我们志于研究人体行为与表情识别,视线估计以及机器人模仿学习;
4. 机器学习方面,我们致力于搭建知识与数据鸿沟间的桥梁,研究知识融合、自动化特征工程与图表征的新技术。
在研项目:视频AI分析平台——交互仿真虚拟人
视频AI分析平台面向广大视频行业用户,为用户提供智能视频处理方案诸如视频素材提取、语义视频查询、视频OCR辅助。本平台以创新求实为准则,提高视频处理的精度和实用性,以最新的技术提供最高质量的服务。
实验室开发了一款高度模拟真人原型的虚拟人,整合了语音识别、语音合成、机器问答、面部重塑等AI技术,通过学习真人视频,该款产品就能瞬间克隆出一个“数字化的人”。
在研项目:虚拟试装
服饰是淘宝最重要的商品类目,为了帮助用户更快、更好、更直观地挑选服饰,基于淘宝/天猫上海量服饰图片,本项目通过一系列检测、分割、形变算法,将服饰真实地`穿’到模特身上。用户可以直观地看到不同服饰的搭配以及真实的穿衣效果,为用户提供更好的试穿体验。
提出基于类-规则树自适应虚拟试衣算法,通过将服饰划分为细类目,然后基于规则树实现自适应形变与轮廓匹配,经过细节与阴影优化,获得当前最好虚拟试衣效果,实现国内首个在线海量服饰图虚拟试衣。与已有同类方法相比,该算法不仅有更好的视觉效果,而且具有非常好的泛化性,可以简易得扩展到全类目服饰商品。提出基于自由度估计的AR试鞋算法,通过深度网络估计出视频图片帧中鞋子的六个自由度,将3D虚拟鞋模与所估六个自由度进行匹配,然后进行3D鞋模进行渲染,并进行抖动优化等后处理,获得AR试鞋效果。
在研项目:助聋唇语识别
该项目需要研制出具有声源定位、声音类型识别、唇语辅助下的语音识别、交互场景下的手语识别等功能的便携式无障碍语言交流系统。帮助听障伤残人士基本无障碍感知环境、与人自然沟通,为他们提高生活和学习能力、获得更多工作机会提供支持。该项目要让听障残疾人获得与正常人相近的信息获取能力、与人沟通能力、环境感知能力,实现生活自理、跟班学习、获得工作机会,自主预防和摆脱贫困为目标。
无障碍语言交流系统主要包含四个分系统:多模态感知分系统(头戴)、嵌入式控制分系统(腰戴)、显示与输入分系统(腕戴)和云计算分系统。其中,多模态感知分系统通过各类感知设备采集并预处理音视频信息,主要负责整个系统的信号输入与传输以及端计算;嵌入式控制分系统将多模态感知系统传来的声音信号进行声源定位与声音类型识别,并提供无线传输功能;云计算分系统实现交互场景下的手语翻译和唇语辅助下的语音识别及语义理解等云计算;显示与输入分系统将最终的运算结果呈递给用户,供用户直观接收。
在研项目:小样本机器学习
在实际生产中,为了获得高精度的分类模型,通常需通过标注大量的数据来支撑模型优化的目标。研究小样本学习算法,可以极大缓解深度模型对数据的依赖,从而大大提高识别模型的生产效率,解决视频监控、安全业务场景中小样本学习的问题,为小样本目标检测与识别提供技术支撑。