近日,直播平台 智能信息感知团队在国际顶级期刊《Medical Image Analysis》(MedIA)上以直播平台为第一单位发表了题为《Multidimensional Directionality-Enhanced Segmentation via large vision model》的论文,这是我校首次以直播平台为第一单位在该期刊发表论文。论文第一作者为直播平台 黄星儒特聘研究员,通信作者包括直播平台 江劭玮研究员、刘瑾特聘副研究员,共同第一作者为2023级硕士研究生岳昌鹏。
MedIA是国际医学图像计算和计算机辅助干预协会(The Medical Image Computing and Computer Assisted Interventions Society, MICCAI Society)的官方期刊,创刊于1996年,是医学和生物图像分析领域最具影响力的期刊之一,属于中国科学院一区Top期刊,五年影响因子11.9。
该研究主要关注应用大型视觉模型的眼科领域光学相干断层扫描 (OCT)病灶检测。基于Transformer的大型视觉模型实现特定断层光学扫描领域的小目标检测存在基础性困难,特别是在区分 OCT图像中微小、细微的病变方面。为解决这一问题,该研究提出一种通过优化的大视觉模型结合方式进行视网膜OCT病灶分割的多维方向性增强分割框架,通过定向先验特征提取和水肿纹理映射单元增强了为输入解码器之前的特征进行语义信息补充,提高模型识别OCT中特定纹理和病理特征的能力。同时基于深度空间的方向子空间解耦,将image embedding在content子空间(包含边界、纹理等局部特征)和scene子空间(包含病灶区域、体积等全局特征)上进行特定的知识提取,最后使用注意力特征融合机制(iAFF)进行特征融合,提供了从局部到全局细节的全面视图,弥补了大视觉模型在捕获局部特征信息方面的局限性。同时提出的谐波细节平衡损失函数()以降低黄斑 OCT水肿中的数据不平衡和注释稀缺问题。
该研究所提出方法与包括PSANet、UNet3+在内的17个基准模型的对比证明,提出方法在多个评价指标上显著提高了模型捕获眼底 OCT图像中关键细节的能力,并证明大型视觉模型的视觉理解能够跨越适应医学影像,可为多种疾病精准诊断和治疗提供技术支撑。
黄星儒,直播平台-在线直播平台-私人直播平台 智能信息感知团队特聘研究员,本科毕业于北京邮电大学,博士毕业于英国伦敦玛丽女王大学。研究方向为医疗图像处理、深度学习、计算机视觉、语言大模型等。现为国防大数据专业委员会委员,在NeruIPS,MedIA,IEEE TMI, Medical Physics, International Journal of Cardiology等期刊上发表SCI检索期刊论文40篇,包含中科院一区及CCF-A类会议期刊9篇,以第一作者或通信作者(含共同)发表SCI索引文章及CCF-A类会议26篇,其中影响因子10分以上4篇,ESI高被引论文一篇。
学院智能信息感知团队负责人为江劭玮研究员,团队依托直播平台“智能信息处理实验室”(HDU IIPLab),实验室主任为颜成钢教授。实验室现有在职教师50余名,含5位国家级人才及多位省级人才。现有硕博生200余名,毕业生多就职于阿里巴巴、腾讯、字节跳动、海康威视、华为、网易等国内知名企业。实验室为学校交叉创新团队,拥有自由开放的学术氛围和国际前沿的研究方向。实验室采用与海内外知名高校、研究所(清华大学、北京大学、中国科学院、美国北卡罗来纳大学教堂山分校、澳大利亚悉尼科技大学等)联合培养制,长期致力于智能信息处理方面的研究,主要研究方向包括:机器学习、模式识别、计算机视觉、计算机图形学、医学影像处理、生物信息学等。