文献综述
一、研究背景
癌症是一种由于生物体细胞失常、过度增殖且无法调控而引发的病症,过度增殖的细胞常被称作恶性肿瘤。癌细胞的增生无限制,其会不断损耗患者体内营养成分,并释放各类有毒物质,对其周边组织、生物体内的循环系统等造成严重的影响。癌症不仅给患者带来极大的痛苦,还给无数家庭乃至整个国家带来沉重的经济负担。
早期诊断是有效治疗癌症的关键所在。生物标志物在癌症早期诊断中具有重要价值。生物标志物是指那些能够客观检测和评价癌症发生、发展和预后的指示因子,如基因、microRNA和遗传突变等。一些癌症相关的生物标志物已被发现,但大多数仍然不能用于癌症的精准预测、诊断和预后评估。其中一个原因在于癌症病理机制极其复杂,患同一癌症的不同病人之间标志物不尽相同,同一标志物可能存在于多种癌症中。越来越多的研究表明癌症是多个基因、microRNA等突变、转录后修饰及其之间复杂调控关系的紊乱,以及环境因素等共同作用的结果。因此,新的生物标志物识别方法亟待提出。实验手段识别癌症生物标志物非常昂贵且效率低,基于计算方法的癌症生物标志物识别能够大大降低成本和缩短识别周期。随着测序技术的发展,基因组学、转录组学、蛋白组学与代谢组学等多种组学数据海量涌现,为系统了解癌症的病理病因提供了可能,也为基于计算方法的癌症生物标志物识别提供了坚实的数据基础。
由于癌症发病机制的复杂性,识别有效的癌症生物标志物是一项具有挑战性的任务。由于许多基因和基因相互作用参与了癌症的进展,通过少量的样本来确定癌症生物标志物是非常具有挑战性的。同一种癌症类型的样本可能携带不同的畸变。因此,有效的癌症生物标记物需要从基因集的观点来解决。
- 主要内容
该课题任务的主要流程为:在指定的数据集上,同过实现ellipsoidFN和SVM两种算法来进行特征选择,实现朴素贝叶斯分类器对选取特征进行分类,并在选取的特征上使用留一法(leave one out)测试、比较两种特征选择方法的分类正确率。
- ellipsoidFN算法
椭球特征网(ellipsoidFN)算法,即通过椭球来建模疾病的复杂性,并寻找一组异质性的生物标志物。该方法利用椭球概念实现了混合样本的非线性分类方案,同时利用线性规划框架有效地从高维空间中选择生物标志物。ellipsoidFN减少了冗余,提高了已识别的生物标记物之间的互补性,从而显著提高了癌症与正常样本之间,甚至癌症类型之间的差异。基于ellipsoidFN算法进行生物标志物识别目前来看是非常先进的,这可能会成为未来癌症生物标志物鉴定的重要手段。
与逐一识别生物标记物的方法不同,ellipsoidFN同时识别代表不同癌症类型和正常样本的最小基因集。改变参数可以调整识别的生物标记物的数量(如调整渔网网格的大小)。在数学角度上看,ellipsoidFN是一种可以在多项式时间内有效求解的线性规划模型。因此,它也可以应用于高维数据集。ellipsoidFN算法是非常灵活的,只要计算机内存和处理器允许,它可以处理任意数量的具有任意关系的类(无序、线性顺序、树顺序等)。对于类之间存在复杂关系的情况,可以在模型中添加额外的椭球来表示表示类关系的元类。于ellipsoidFN,仅通过在ellipsoidFN中样本的平均基因表达量来建模癌症类型的稳定状态和正常样本是有点随意的,但这有助于求解ellipsoidFN。所以,我们未来的工作会是优化癌症类型和正常样本的表示。此外,椭球可能无法完美地建模某些数据集中的类,例如几何空间中的非凸形状。这些情况可以用其他的建模函数来解决。
于ellipsoidFN,仅通过在ellipsoidFN中样本的平均基因表达量来建模癌症类型的稳定状态和正常样本是有点随意的,但这有助于求解ellipsoidFN。所以,我们未来的工作会是优化癌症类型和正常样本的表示。此外,椭球可能无法完美地建模某些数据集中的类,例如几何空间中的非凸形状。这些情况可以用其他的建模函数来解决。
