开题报告内容:(包括拟研究或解决的问题、采用的研究手段及文献综述,不少于2000字)
- 拟研究问题
癌症是发病率和死亡率极高的疾病,正确识别肿瘤细胞与正确判断癌症等级对于癌症的诊断与治疗具有极其重要的意义。目前临床中对各种癌症的筛查方式不尽相同,如针对乳腺癌的mammograms、针对宫颈癌的pap smear、针对前列腺癌的PSA抗体血检、针对大肠癌的血检和肠镜等。主要使用的筛查方式为基于巴氏涂片的细胞学筛查。该方法需要病理医生观察细胞涂片上的图像,根据多年的诊断经验进行筛查。
该方法存在有以下几点弊端亟待改善:
- 细胞涂片数量较多,且每张涂片上有数千甚至更多的细胞,所以对细胞学家和病理学家而言,手工筛查癌细胞是一个高重复性,高耗时的工作。
- 即使是最有经验的细胞学家或者病理学家,也会由于长时间的筛查进入疲劳状态而可能错分细胞,使得筛查结果中存在较高的假阳性和假阴性。
- 有相关方面经验的病理医生十分匮乏,因此检测效率极低,检测成本耗费巨大,严重影响了早期癌症的检测工作。
上述传统检测方法存在着明显不足,因此需要一种更快捷、廉价、准确的方法来代替传统的人工筛查。近些年来,互联网技术的蓬勃发展指引着大数据时代的到来,而以数据为拖动的深度学习技术无疑是大数据时代解决各种现实问题的算法利器。癌症的自助计算机辅助细胞学筛查与诊断系统的发展对于改善诊疗过程中的高重复高耗时以及由于疲劳引起的误判增多的情况有着十分重要的意义。这类系统的主要功能是在一张涂片中,将少量可疑的异常细胞从数千个细胞中挑选出来供医生进行进一步的筛查与诊断。
出于对患者健康状况负责与减轻医生工作负担的考虑,用于辅助筛选与诊断的系统需要满足以下要求:
- 确定所有的阳性结果并排除假阳性结果。
- 能够标注出确认的肿瘤细胞所在位置。
二、研究方法
本研究在windows系统上安装Pycharm开发软件,以Tensorflow为框架,搭载Python3.8编译环境。采用康奈尔大学提供的PCam(patchcamelyon)数据集,该数据集含有327,680张从淋巴结组织病理学扫描图片上截取的二维图像(96times;96px),且每个图像都注释有癌细胞的坐标。将其中一部分用作训练集,另一部分用作验证集。
本研究的深度学习模型架构选择经典的LeNet-5结构,主要包括两个卷积层、一个池化层和两个全链接层。卷积神经网络为肿瘤细胞识别系统的主体部分,通过网络中的多个隐含层实现对癌细胞数据更深层次的特征提取。对现有的卷积神经网络结构进行优化,通过增加并联卷积层拓宽网络宽度,生成一个训练样本学习系统。通过提供较大的训练样本数量来优化结果的准确性。
本研究的肿瘤细胞识别系统分为肿瘤细胞图像预处理、肿瘤细胞特征提取和细胞分类三个部分。
图像预处理按以下步骤进行:
