智能感知与信息处理研究所
一、研究所简介
智能感知与信息处理研究所由副教授、青年博士7人组成,团队负责人为高永彬。近年来,团队成员先后获得国家自然科学基金、上海市科委重点项目子课题、十三五装备预研基金项目、上海市自然科学基金面上项目以及中国商飞、振华重工等大型国企的委托项目。致力于智慧医疗、三维视觉等人工智能领域的研究。
二、团队负责人
团队负责人高永彬是上海市晨光学者,硕士生导师,自2013年起获得国家基金委公派资助,于韩国全北国立大学获得博士学位。发表包括Information Sciences, Pattern Recognition Letters, ICME等知名期刊/会议论文40余篇,其中SCI检索17篇,EI检索5篇。2017年回国后,加入beat365,主持国家青年基金项目/省部级项目4项,并作为主要技术负责人参与国家基金委重点项目,上海市科委重点项目。同时,积极推进产学研合作,上海振华重工集团、上海掌腾智能科技有限公司(技术顾问)、上海悠络客电子科技股份有限公司、上海中山医院、上海长征医院等进行深入的产学研合作,主要负责5项横向课题,研究领域包括:无人机定位导航、SLAM技术、三维视觉分析、人脸识别、掌静脉识别、车型识别、多目标识别与跟踪、行为识别、医疗影像辅助诊断(CTA分析冠心病与胃癌)。
三、团队主要成员
1.万卫兵,上海交通大学工学博士,2011.7-2012.10,美国佐治亚医科大学脑及行为研究所博士后;主要从事自然场景的多源图像数据的配准研究工作,自然场景的三维结构提取和统计分析。2010.7-2011.7,美国密苏里大学-哥伦比亚分校计算机系博士后;主要从事序列图像及视频图像的图像配准和三维重建工作。2019年加入上海工程技术大学。
作为负责人和主要研究人员主持和承担过多项重要项目的研究工作,包括十三五装备预研重点项目和领域基金项目。在国际著名期刊International Journal of Social Robotics、Journal of Vision、BMC Neuroscience、Measurement Science & Technology、Journal of Electronic Imaging、Artificial Organs等和国内期刊发表论文30多篇,其中SCI国外期刊11篇,影响因子3.0以上5篇。完成专著1部,发明专利2项,软件著作权2项。国际SCI期刊SPIE Journals、Measurement Science and Technology、IET Computer Vision等审稿人,Vision Sciences Society(VSS)和Organization for Computational Neurosciences (OCNS)国际会员。
2.张娟,副教授,硕士生导师。2012年毕业于上海大学,获工学博士学位,2014年上海大学信息与通信工程博士后流动站出站。曾参与国家高技术研究发展计划项目(863计划)《面向多行业IT资源库的建设及应用》,国家自然科学基金项目《面向物体级的视觉SLAM动态三维场景解析与重建》、《需求变更\系统演化环境下的特征化需求模型的代码综合方法》、《基于SXM模型的Web软件测试理论与方法》,国家火炬计划项目《面向领域的软件产品测评基准库建设与应用》,上海市科委地方院校能力建设项目《多源特征融合的主动式行车安全分析与预警平台》的研究工作。为研究生和本科生开设了《机器学习》、《数字图像处理》、《计算机图形学》、《数据库原理》、《软件测试》等课程。指导研究生获2018年全国多媒体大会去雾图像处理竞赛第一名,获一等奖。近五年研究方向为计算机视觉、机器学习等,主要的应用场景为恶劣天气街道图像恢复、车道线检测等。公开发表学术论文近30余篇,其中SCI收录10余篇。
3.黄勃,工学博士,讲师,硕士生导师。2014年毕业于武汉大学计算机学院,获得工学博士学位。目前主持国家自然科学基金一项,主持委办级项目若干项,曾承担国家、省部级科研项目若干项。已公开发表学术论文20余篇,其中SCI、EI检索十余篇,获得湖北省科技进步奖一等奖一项,二等奖一项,获批专利、软件著作权若干项。目前为本科生开设《软件工程》、《微机原理及接口技术》、《汇编语言》、《多媒体技术》等课程。
4.俞雷,中科院自动化所博士,于2007年7月华东师范大学获得计算机科学与技术系学士学位, 2015年7月中国科学院大学获得计算机应用技术博士学位;2015年7月在大众点评网任职算法工程师,负责从事反爬虫流量安全,反刷单业务安全和UGC点评内容安全等策略相关工作。2017年6月起任职于上海工程技术大学,从事多媒体内容理解、计算机视觉与机器学习方面的研究工作。专业方面对图像语义理解,图像分类、网络图像分析和检索等领域有深入的了解和研究;熟悉数据挖掘、社会媒体分析、机器学习、模式识别相关理论与算法。
5.张立军,讲师,上海交通大学博士,先后在上海电信研究院和中国科学院上海高等研究院担任高级工程师,在包括IEEE Transaction on Broadcasting等在内的国内外期刊发表论文十余篇,目前研究方向为计算机视觉。
6.杨孜茁,讲师,主要从事数据科学与大数据技术、Web信息管理系统方面的教学与科研工作。
四、主要论文及专利成果
Yongbin Gao, Hyo Jong Lee, “Cross-Pose Face Recognition Based on Multiple Virtual Views and Alignment Error,” vol. 65, pp. 170-176, Nov. 2015,Pattern Recognition Letters. (SCI, IF: 2.81)
Yongbin Gao, Hyo Jong Lee, “Local Tiled Deep Networks for Recognition of Vehicle Make and Model,” vol. 16, no. 2, pp. 1-13, Feb. 2016,Sensors. (SCI, IF: 3.03)
Zhijun Fang (supervisor),Yongbin Gao, Naixue Xiong, Athanasios V. Vasilakos, Yuming Fang, “A general effective rate control system based on matching measurement and inter-quantizer,” vol. 346-347, pp. 351-368, 2016,Information Sciences. (SCI, IF: 4.832)
Yongbin Gao, Hyo Jong Lee, “Learning warps based similarity for pose-unconstrained face recognition,”Multimedia tools and applications, vol. 77, no. 2, 2018. (SCI, IF: 2.101)
Yongbin Gao, Hyo Jong Lee, “Pose-invariant features and Personalized Correspondence Learning for Face Recognition,”Neural Computing and Applications, vol. 31, no.1, pp. 607-616, 2019. (SCI, IF:4.664)
Renyue Dai,Yongbin Gao*, Zhijun Fang, Xiaoyan Jiang, Anjie Wang, Juan Zhang, Cengsi Zhong, “Unsupervised learning of depth estimation based on attention model and global pose optimization,”Signal Processing:Image Communication, 2019. (SCI, IF:2.814)
Chen X, Zhu X. Y.,Wan W.B Yang Z.Y, (2013).Statistics of spatial-temporal concatenations of features at human fixations in action classification. Journal of Vision, 13:520; doi:10.1167/13.9.520. SCI影响因子 3.376.
Wan W.B, Yang Z.Y, (2012). Statistics of Three-Dimensional Natural Scene Structure. Journal of Vision ,August 13, 12(9): 1203; doi:10.1167/12.9.1203,SCI影响因子 3.376.
Wan W.B, Yang Z.Y, (2012). A Visual Code Book--Structured Probability Distributions in Natural Scenes. BMC Neuroscience, 13(Suppl 1):P9。 doi:10.1186/1471-2202-13-S1-P9.SCI影响因子 3.04.
Po-Han Wu, Chih-Wei Huang, Jenq-Neng Hwang, Jae-Young Pyun,Juan Zhang. Visual Quality Driven Resource Allocation for Real-Time Surveillance Video Uplinking over OFDMA-based Wireless Networks.IEEE Transaction on Vehicular Technology, 2015.64(7): p. 3233 - 3246. WOS:000358239500036
Lei Yu#, Jing Liu, Changsheng Xu*, Label localization by appearance guided graph inferring, 2013IEEE International Conference on Image Processing (ICIP), Melbourne, Australia, 2013.9.15-2013.9.18 (CCF推荐会议)
Lei Yu#, Jing Liu, Changsheng Xu*, Label localization with weakly spatial constrained graph propagation, 2013IEEE International Conference on Multimedia and Expo (ICME), San Jose, USA, 2013.7.15-2013.7.19(CCF推荐会议)
Lei Yu#, Jing Liu, Changsheng Xu*, Descriptive local feature groups for image classification, 2011IEEE International Conference on Image Processing (ICIP), Brussels, Belgium, 2011.9.11-2011.9.14(CCF推荐会议)
Lijun Zhang, et al, Obtaining diversity gain for DTV by using MIMO structure in SFN, IEEE Transaction on Broadcasting, 2004.3
Lijun Zhang, et al, A Layer-mixed FEC Scheme for Scalable Media Transmission over Mobile TV Services, IEEE Transaction on Broadcasting, 2017.6
四、主要项目成果
团队注重与各行业企业开展产学研合作,以IEEE+及AI+为基本模式,广泛服务社会与产业需求,多项成果已得到成功应用。主要成果如下:
目前针对血管堵塞诊断,仍旧完全依赖于医生的主观意识完成。临床上缺乏一种对血管狭窄度、堵塞程度等进行分析的辅助诊断工具。我们的作品应用冠状动脉血管堵塞辅助诊断技术,即将人工智能技术应用于辅助诊断诊疗中,让计算机“学习”专家医生的医疗知识,模拟医生的思维和诊断推理,从而给出可靠诊断和治疗方案,从而极大地降低医生的工作量。
中国是一个胃癌发病和死亡高发的国家。从发病率来看,仅次于肝癌,位居第二位。由于中国的人口基数非常大,目前胃癌发病总人数占全世界约47%,即将近一半的胃癌病人在中国。究其原因一是我国早期胃癌的检出率低,二是诊治流程的规范化程度低,三是胃癌手术操作的规范化程度尚未在基层医院建立。首诊医生对胃癌患者的处理,将直接影响患者的预后。决定医生制订治疗方案的最重要一环,就是医生对患者的胃癌术前分期判断,因为只要分期判断准确,结合NCCN指南和胃癌专家共识中国版,就可以按图索骥地给出合理的治疗方案。胃癌与淋巴结的大小与位置等特征是胃癌分期重要的参考。基于深度学习的人工智能技术在胃癌诊断中的应用目的在于构建和验证一个用于早期胃癌自动识别的深度学习模型,提高早期胃癌的识别和诊断水平。
3.基于三维眼震检测的眩晕智能诊断系统---与复旦大学附属眼耳鼻喉科医院合作及上海志听医疗科技有限公司
在前庭功能检查器械领域,主流前庭功能检查技术皆依托检查不同条件下眼球的移动情况进而推断受试者的前庭功能,其主要检查功能为前庭眼反射,也是外周前庭在保持平衡过程中最为重要的功能。代表的检查有视频眼动电图、甩头试验、前庭自旋转检查以及良性阵发性位置性眩晕(BPPV,俗称耳石症)的动态位置试验等,其中最为特殊的是BPPV的检查:在早期无器械辅助情况下,医生在床旁进行动态位置试验,将受试者身体和头部摆至检查或治疗的体位,通过肉眼观察受试者眼球运动情况判断病情。手法检查与复位容易受诸多因素制约影响检查或治疗效果;例如患者睁眼看见周围物体后眩晕感会更加强烈,实践中常常因患者难以睁眼不能观察到患者的眼球运动,此外,许多患有颈椎疾病或腰椎疾病患者无法配合一些幅度大的检查或治疗动作,使诊疗无法顺利进行。
本项目基于大数据的深度学习算法提取足够的BPPV眼震特征,对主要几种类型(水平半规管管石型BPPV,后半规管BPPV等)的BPPV进行有效识别和分型,指导基层医院对BPPV进行科学合理的诊治。其特色和创新点:
(1)摆脱传统BPPV医生个人经验性诊疗的方式,首次提出以数据形式为BPPV诊疗提供最为客观的证据。(2)结合三维眼震(水平、垂直方向结合扭转方向眼震)与转椅位置多种参数加入BPPV诊疗分析。(3)基于大量实际病例与临床一线医生权威诊断资料的大数据分析。(4)国内乃至全世界唯一同时拥有能满足智能诊疗数据搜集需求的BPPV诊疗硬件与软件:能自由控制速度加速度和能摆动精准体位的诊疗转椅,以及能1080p高清条件记录眼球运动的红外眼罩,结合能实时记录与分析瞳孔二维位置的软件系统,手机端可记录眼震和陀螺仪同步位置的Verti-Mobile app。
无人机自动巡航,研究融合 UWB无线定位、视觉定位和激光定位等多种传感器的信号实现无人机的定位与导航方案。该方案应具有障碍物的三维检测功能,获取障碍物在三维地图中的具体位置以及大小信息,实现障碍物的精准避障。对基于无人机的飞机表面喷漆智能检测系统的定位和导航精度进行测试分析,改进和优化设计。
基于神经网络的漆面缺陷检测,针对飞机表面喷漆缺陷的规范要求,建立缺陷数据库,开发适用于飞机表面喷漆检测的机器学习模型。设计卷积神经网络的结构,包括卷积、池化,归一化,全连接层的数量和顺序。设计合适的损失函数,用来对卷积网络处理后的特征图进行分类,从而判断任意位置是否存在缺陷,缺陷属于何种类型。开发一套检测软件,该软件集成有机器学习算法、人机交互界面及可视化功能。
提供基于相应硬件平台的基于计算机视觉与激光融合的目标检测识别算法,该算法能够完成对应场景内目标物体的实时检测与定位,并给出目标物体的大小,位置等特征信息,并将相关视频及激光数据进行保存以供后续查阅校对。
智能三维巡检无人车通过自主研发的激光与视觉融合的自主定位导航技术、三维建图技术、视频直播技术,能够实现电力、工厂、以及通航机场的全自动、无轨化、智能化、三维化的人员识别、目标识别、行为识别、设备异常监控等巡检任务。通过自主研发的激光与视觉的深度融合,能够实现高精度的定位导航、高精度的三维建图、高精度的三维目标识别、高精度的动态感知。替代人工日常巡检中的繁、难、险和重复性的工作。
五、团队活动
1.邀请MICCAI Society board member加拿大李硕教授进行学术指导交流
2019年10月28日,应beat365、科研处、智能感知与控制国际联合实验室的共同邀请,加拿大西安大略大学李硕教授来院交流,在现代交通工程中心7950会议室作了主题为“Bring Artifical Intelligence(AI) to Imaging”的学术报告,报告由高永彬老师主持,相关专业教师与研究生出席。
李硕教授主要阐述了人工智能(AI)给医学实践带来的重要转变。他表示,AI具有改变疾病诊断和治疗的潜力,可以用来确保患者在正确的时间获得正确的治疗。李教授分享了他在开发创新AI工具和机器学习工具方面的经验,用以应对日常临床医学成像领域的挑战。讲座结束后,李教授悉心为同学们答疑解惑,给大家留下深刻印象。
据介绍,李硕,博士,加拿大西安大略大学医学影像和医学生物物理学系副教授,Lawson Health Research Institute科学家。之前,他曾任GeneralElectric(GE)Healthcare的研究科学家和项目经理9年。李教授于2006年创立了伦敦数字影像小组,这是一个充满活力且高度多元化的学科协作小组。李硕教授于2006年从Concordia大学获得计算机科学学位,其博士学位论文获得了工程和计算机科学系的doctoral prize。他发表论文100多篇,曾获得GE、研究所和国际组织的多个奖项;他在该领域的一些著名期刊中担任客座编辑和副编辑,同时在极具影响力的多个会议中担任程序委员会委员。他是Springer六本书的编辑,MICCAI协会的董事会成员。2019年,他的10篇论文被MICCAI收录。他将在2022年医疗影像顶会MICCAI会议上担任大会主席,以及MICCAI society的board member。
5月7日上午,应beat365、科研处、智能感知与控制国际联合实验室的邀请,中山大学张贺晔教授来院交流,做了题为“Computational Modeling and Machine Learning in Medical Image Computing”的学术报告,学院院长方志军、相关专业教师与研究生参加,报告由高永彬老师主持。
张教授阐述了通过计算建模及图像处理技术,从心脏影像中提取评估冠心病生理状态的量化指标,并应用于临床诊断的过程。报告结束后,张教授还悉心为同学们答疑解惑,为大家留下了深刻的印象。
据介绍,张贺晔教授主要从事健康信息学定量分析研究工作,以临床健康信息需求为驱动,推动并发展了一系列健康信息定量分析的技术与方法。截止目前,发表学术论文78篇(第一或通讯作者41篇),其中SCI检索论文42篇(第一或通讯作者23篇),包括国际顶级期刊MedicalImage Analysis 4篇(通讯作者),国际顶级会议MICCAI 12篇,4篇ESI高被引和一篇ESI热点文章,主持一项NSFC联合基金重点项目和面上项目,申请或授权中国发明专利5项,获吴文俊人工智能科学技术创新奖三等奖(唯一人)。
3.邀请上海大学施俊教授进行学术指导和交流
2019年6月6日下午,应beat365、科研处、智能感知与控制国际联合实验室的邀请,上海大学施俊教授来校交流,在行政楼506作了题为“面向不同模态医学影像小数据集的深度学习方法研究”的学术报告,报告由高永彬老师主持,师生20余人聆听报告。
施俊教授主要阐述了三种医学影像模态所研究的机器学习方法:(1)面向超声成像的肿瘤智能诊断,重点介绍迁移学习方法研究;(2)面向神经影像数据的机器学习方法研究;(3)基于无监督深度学习的病理图像分类。讲座结束后,施俊教授还悉心为同学们答疑解惑,给大家留下深刻印象。
据介绍,施俊教授,中国科学技术大学电子工程与信息科学系本硕博连读,2005年获生物医学工程博士学位,读博期间曾任香港理工大学研究助理。主持了国家自然科学基金面上基金项目、青年基金项目等国家级项目,合作主持国家自然科学基金重大科研仪器研制项目、国家自然科学基金重点项目,以及主持上海市自然科学基金项目、科委、教委项目等多项项目。已发表SCI论文四十余篇,包括IEEE TBME、IEEE JBHI、IEEE TNNLS、Pattern Recognition、UMB等期刊,以及高被引论文1篇,授权专利2项。为中国医学装备协会超声装备分会常务委员、中国信息协会医疗卫生和健康产业分会医学人工智能学组常务委员、中国影像AI产学研用创新联盟理事。