数学建模-肿瘤诊断问题模型上课讲义 联系客服

发布时间 : 星期一 文章数学建模-肿瘤诊断问题模型上课讲义更新完毕开始阅读805fd8d46fdb6f1aff00bed5b9f3f90f77c64d65

肿瘤的诊断模型

摘要 本文对肿瘤的诊断问题,应用神经网络与模糊数学的理论,给出了几种乳房癌的量化诊断方案.

首先,建立了LVQ神经网络模型,使用500组数据的前400组作为训练样本,用后100组数据对网络性能进行检测,诊断正确率达98%.

然后对这500个特征向量进行了回归分析,从30个特征中筛选出了6个特征,它们分别是:细胞核直径均值、标准差和最坏值、紧密度的均值、面积的最坏值、周长的均值.并将以上6个特征用于LVQ网络,诊断正确率达95%.

进一步考虑到神经网络与模糊数学各自的特点,将二者有机结合构造了神经模糊系统,并用以上的6个特征对系统进行训练,诊断正确率达96%.

本文构造的模型具有良好的稳定性,对于模式识别问题具有很强的实用价值,最后本文提出了神经网络和模糊数学深层次结合的方向.

一. 问题的重述

肿瘤通过穿刺采样进行分析可以确定其为良性或恶性.医学研究发现乳房肿瘤病灶组织的细胞显微图像的10个量化特征:细胞核直径,质地,周长,面积,光滑度,紧密度,凹陷度,凹陷点数,对称度,断裂度与该肿瘤的性质有密切关系.现有500个已确诊病例,每个病例的一组数据包括采样组织中各细胞核的这十个特征量的平均值,标准差和“最坏值”(各特征的3个最大特征的平均值)共30个数据.根据这500组数据建立诊断模型,并将其用于另外69名已做穿刺采样的患者.为节省费用发展一种只用此30个特征数据中的部分特征来区分乳房肿瘤是良性还是恶性的方法.

二. 问题的假设

1.所给的500组病例具有广泛的代表性.

2.500组病例所反映的良性与恶性的概率分布符合病例的自然分布.

三. 问题的分析

本问题是一个典型的模式识别问题,要求根据它的特征量来进行分类.

对于模式识别问题,现今有两类解决办法.一类是传统的线性模型.另一类是近年来

发展起来的非线性模型.本题是一个典型的非线性问题,用传统的线性模型解决有一定的困难,而且识别率不高.所以非线性模型是解决此类问题的首选.现今常用的非线性模型有神经网络模型和模糊系统模型.

神经网络由许多并行运算的简单单元组成,单个神经元的结构及其简单,但大量神经元相互连接组成人工神经元网络显示出人脑的某些特征:

1) 分布存储和容错性; 2) 大规模并行处理;

3) 自学习、自组织和自适应性;

4) 它并不是各单元行为的简单相加,而表现出一般复杂非线性动态系统的特性.

神经元可以处理一些环境信息十分复杂、知识背景不清楚和推理规则不明确的问题,如乳

房癌诊断问题.

模糊集打破了传统的分明集只有0和1的界限,任意元素可同时部分地属于多个模

糊子集,隶属关系用隶属的程度来表示.这更接近人的表述方式.模糊规则是定义在模糊

集上规则,常采用“If-then”(若…则…)的形式,可用来表示专家的经验、知识等.由一组模糊规则构成的模糊系统可代表一个输入、输出的映射关系.从理论上说,模糊系统可以近似任意的连续函数.模糊系统除了模糊规则外,还包括模糊逻辑推理和去模糊化的部分.由于模糊集能处理非定量的信息,因此在模式识别(尤其是具有模糊特点的识别问题)中模糊系统具有很大的优势,本题肿瘤的良性、恶性正是模糊概念,所以用模糊系统进行模式识别会得到很好的效果.

为了避免量纲的影响,在应用数据之前对数据经行了标准化.标准化方法:用每个数据与整体均值的差除以整体标准差.

四. 模型的建立与求解

(一)神经网络模型

学习向量量化(LVQ)是在监督状态下对竞争层进行训练的一种学习算法.LVQ网络由一个竞争层和一个线性层组成.竞争层的神经元将输入向量分成组,由现行层组合到期望的类中.在任何给定的时刻,线性层的输出神经元只有一个非零输出1,该神经元就是竞争中得胜者.假定获胜的元为Nj,它之所以获胜的原因是它受到了最大的输入刺激,那么,

Nj 的总加权输入为

Sj???ijxi

i?1N其中,Sj表示Nj的状态,?ij表示第j个元到第i个元的权值,xi表示第i个输入分量.其矩阵形式为

? Sj?xWj

若元Nj 获胜,就意味着

? xWj?max??xWk?

k?{1,2,?,m} 若连接到每个输出层神经元的权向量 WkT?(W1k,W2k,?,Wmk)都是规范化的,上式等价于

? x?WjT??k?{1,2,?,m}min?x?WkT?

?? 网络输入模式为xk时,具有权向量WjT与xk最近的元将获得竞争的胜利.若元Nj竞争

获胜,将权值作如下调整

? ?WjT??xk?WjT (1)

???? 使获胜者的权向量向输入向量移近一小段距离,这使网络在遇到xk或与xk接近的模式

时,元Nj可以有更大的获胜可能性.若Nj在竞争中失败,将权值作如下调整

? ?WjT???xk?WjT (2)

?? 使权向离开样品的方向移动,这样就减小了错误分类的机会.在(1)、(2)式中,?表示学习率.

在本模型中取?为0.01,取隐竞争层的神经元数为60,取输出层神经元数为2,并规定输出(0,1)为良性,输出(1,0)为恶性.用前400组数据作训练样本,经过15000次迭代,两类样本的聚类情况如下图:

用后100组数据对训练进行检测,诊断正确率达98%.对69组待定病例的诊断结

果如下表:

病例号 类别 914862 B 91504 91505 915143 915186 9151276 91544001 91544002 915452 915460 91550 915664 915691 915940 M B M B B B B B M B B M B 病例号 类别 病例号 类别 病例号 类别 917062 917080 917092 91762702 91789 917896 917897 91805 91813701 91813702 918192 918465 91858 91903901 91903902 91930402 919537 B B B M B B B B B B B B B B B M B 91979701 919812 921092 921362 921385 921386 921644 922296 922297 922576 922577 922840 923169 923465 923748 923780 924084 B B B B B B B B B B B B B B B B B 924632 924934 924964 925236 925277 925291 925292 925311 925622 926125 926424 926682 926954 927241 92751 B B B B B B B B M M M M M M B 9159460 B 2 916221 B 916799 M 916838 M 919555 M 924342 B 为了节省费用,增加网络训练速度,考虑将所给的数据降维,用多元回归分析的逐步回归法对数据进行了回归分析,把30个特征做为自变量,因变量采用良性病例取值为0,恶性病例取值为1.逐步回归法避免了只将变量剔除就不再选入的缺点,它可以将变量反复选入、剔除,最终可得到一组最优权值,结果如下图所示:

从30个特征中筛选出了6个特征,它们分别是:细胞核直径均值、标准差和最坏值、紧密度的均值、面积的最坏值、周长的均值.只用以上6个特征对网络进行训练,仍使用前400组数据作为训练,用后100组数据检验,诊断正确率达95%.对69组待定病例的诊断结果如下表:

病例号 914862 91504 91505 915143 915186 9151276 91544001 91544002 915452 915460 91550 915664 915691 915940 91594602 类别 B B B M B B B B B M B B B B B 病例号 917062 917080 917092 91762702 91789 917896 917897 91805 91813701 91813702 918192 918465 91858 91903901 91903902 类别 B B B M B B B B B B B B B B B 病例号 91979701 919812 921092 921362 921385 921386 921644 922296 922297 922576 922577 922840 923169 923465 923748 类别 B B B B B B B B B B B B B B B 病例号 924632 924934 924964 925236 925277 925291 925292 925311 925622 926125 926424 926682 926954 927241 92751 类别 B B B B B B B B M M M M M M B