艾滋病疗法的评价及疗效的预测(统计分析)B 联系客服

发布时间 : 星期四 文章艾滋病疗法的评价及疗效的预测(统计分析)B更新完毕开始阅读7a28764b0812a21614791711cc7931b765ce7b90

艾滋病疗法的评价及疗效预测

中国地质大学(武汉)谭 毅 罗文行 敖争光 指导教师 韩世勤 全国一等奖

摘 要:CD4细胞数和HIV病毒载量是反映人体感染HIV病毒之后病程状况的重要指标,尤其是CD4具有重要意义。本文分析了ACTG公布的两组数据,提出建立统计分析模型,结合多项式曲线拟合和统计的方法求解问题。

利用相关软件(Matlab,Spss,Excel)和自编程序对所给数据进行了大量的统计处理:分组、求均值、消除初值差异、剔除残缺数据和错误数据、加权平均、插值、等效转换等。

用线性回归分析了CD4与HIV的关系为负相关,相关性较好,二者作多项式曲线拟合相关性更高。以CD4/HIV比值作为反映患者病情的指标与时间t作2阶多项式曲线拟合,得到2次回归方程。该方程对时间求导得CD4/HIV比值的随时间变化率。变化率的正负反映患者病情走势。当处于曲线极大值点时,导数为0,且随时间越过该点导数由正变负,反映患者病情由好变坏,继续服药则药物副作用明显,应立即终止治疗。根据这一思想可以确定各种疗法的最佳治疗终止时间。

由卫生部发布的免疫学指标:患者经治疗3个月后CD4+T淋巴细胞计数与治疗前相比增加30%即提示治疗有效;和CD4值总体走势(由末值减去初值判断)计算各种疗法有效率,结合最佳终止时间的长短可以评价疗法的优劣。

患者年龄反映了体质的强弱,与其免疫能力关系密切。按年龄段对每种疗法的患者相关数据分组,利用以上标准计算疗法有效人数和有效率。将各年龄段某疗法有效人数与该疗法总的有效人数之比作为各年龄段对该疗法的权重(vi),然后对各测试时间点不同年龄段CD4值求加权平均值。经Newton插值后将CD4与时间t作多项式曲线拟合,得到统计意义上适用于所有年龄段人群的CD4值随时间t的变化趋势。由回归方程求导并取0值,可以确定最佳医疗终止时间。

当考虑医疗费用时,须在疗效最好和费用最低之间确定一平衡点,使得总体最优。

本文结果:1)最佳治疗终止之间为34.5周;2)疗法优-次序:4-2-3-1;疗法4最佳治疗终止时间为42.816周;3)考虑医疗费用时各疗法优-劣次序:3-2-1-4。

关键词:统计分析 多项式曲线拟合 相关性 AIDS CD4 HIV

一.问题简述

当前人类社会最严重的瘟疫之一艾滋病的主要病理过程是人体感染了HIV病毒之后免疫系统的损害。人类免疫系统的CD4细胞在抵御HIV的入侵中起着重要作用,当CD4被HIV感染而裂解时,其数量会急剧减少,HIV将迅速增加,导致AIDS发作。艾滋病治疗的目的,是尽量减少人体内HIV的数量,同时产生更多的CD4,至少要有效地降低CD4减少的速度,以提高人体免疫能力。 目前艾滋病的疗法还远不成熟,各国都在努力探索更好的方法。题目给出了美国艾滋病医疗试验机构ACTG公布的有关HIV感染者CD4细胞数和HIV(病

毒载量)的两组数据。要求根据数据和有关知识

①预测继续治疗的效果或者确定最佳治疗终止时间; ②评价不同疗法的优劣;

③在考虑经济因素条件下各种疗法的取舍。

二.问题分析与建模

人体感染了HIV病毒之后的病理过程主要表现为:CD4+T淋巴细胞的丢失,绝对数量的减少,同时CD8+T淋巴细胞数量增加,CD4和CD8的比例失调。因此CD4,CD4+T淋巴细胞记数作为直接测定免疫功能的方法,是提供HIV感染病人免疫系统损害状况最明确的指标,也是抗HIV药物疗效的重要判断指标[1]。HIV病毒载量也是反映病人病情的重要指标。而且,CD4和HIV二者是相关的。 根据对题意的分析和查阅有关资料[2],CD4和HIV都是评估病程的有效指标。因此,病人病情由这两个参数反映出来。

现指定参数X?g(t)表示病人t时刻的病情,CD4和HIV分别用参数x和y表示。由此可建立多元回归模型:

X?f(x,y)?? …………………………………………………………………………(1)

其中ε为随机误差,服从正态分布N(0,σ2),也可以写为: X?a0?a1x?a2y …………………………………………………………………(2) 其中a0,a1,a2为回归系数。 由于CD4和HIV二者即x,y是相关的,故可以通过统计处理所给数据找出x,y的关系。对于附件1的数据,为了减少数据量和增大数据典型性,按照不同的HIV分组,计算不同的HIV水平下CD4细胞数的平均值。随着HIV的增高,CD4细胞数平均值明显下降(见图1)。

250CD4y = -0.6079x6 + 12.589x5 - 97.052x4 + 331.44x3 - 416.73x2 - 160.44x + 694.912R = 0.849320015010050001234567HIV

y = -29.701x + 248.072R = 0.7407y = 2.4238x3 - 34.707x2 + 123.59x + 45.4372R = 0.7899图1 CD4与HIV拟合关系 将HIV与CD4平均值进行最小二乘意义上的多项式曲线拟合(使用Matlab),取多项式阶次分别为1,2,…,6,得到一系列拟合曲线,其相关系数随阶次升高而上升(图1中展示了阶次为1,3,6的曲线及其相关性指标R2),但变化不

2

大。当阶次为1即线性拟合的时候,R=0.7407。一般当相关系数R>0.7,R2>0.5时即可认为拟合效果较好,因此可以近似认为HIV与CD4是线性负相关的,其拟合方程为:

x??29.701y?248.07…………………………………(3) R2= 0.7407 把(3)式代入(2)中,则可得一元线性回归模型:

X?a0?a1x…………………………………………………(4)

因此,X=g(t)=a0+a1x ,即CD4指标x为t的函数。病情X对t求导,可得X随时间t的变化率X`,X`可以反映疗效:

' X?0, 病情好转,疗效好

以上是根据CD4细胞数一个参数评价预测病程的理论基础,但是在拥有HIV测试数据的情况下使用一元线性回归模型略显粗糙,在此情况下不应将HIV与CD4简单的看做线性负相关的。经分析数据,CD4过大或过小的时候,CD4与HIV关系不明显;当CD4处于适当范围时,CD4和HIV随时间呈镜像波动。CD4/HIV比值也可以作为反映病情的参数:

X?a0?a1*(x/y)………………………(5)

X'?0, 病情保持稳定,疗效较好 X'?0, 病情恶化,疗效差

令x/y=z,有X?g(t)?a0?a1z,故 x/y?z也是t的函数。

三.模型的求解

符号约定:

Ak---第k周所有参加测试的病人CD4细胞数的平均值;

Bk---第k周所有参加测试的病人HIV病毒载量的平均值;

Nk---第k周取得CD4细胞数测试数据的人数; Mk---第k周取得HIV病毒载量测试数据的人数; Xki—第k周第i个人CD4细胞数的测试值;

Yki—第k周第i个人HIV病毒载量的测试值; 基本假设:

1. 1. 药品具有副作用,长期服用会严重影响身体健康;因此必定存在一个

时间需要终止使用某一药品。

2. 2. 接受某疗法的病人对该疗法所用药物无正常副反应之外的不良反映。 3. 3. 同一年龄的人群具有相同的身体素质。

问题1:

为了消除患者开始治疗时病情的不同对统计结果的不良影响,对附件1数据进行处理:第k周测试的CD4细胞数和HIV病毒载量值减去第0周测试值,然后就第k周相对第0周增量对人数求均值得Ak,Bk:

Ak??(Xi?0Nkki?X0i) (i=1,2……Nk)

NkBk=

Bk?(Yi?0Mkki?Y0i) (i=1,2……Mk)

Mk以上式中Xki,Yki对应测试值须存在。Nk和Mk过小时Ak,Bk意义不大,故将Nk,Mk<30的测量值舍去。

AkBkAk,Bk和Z(t)均与时间t有关,可进行最小二乘意义上的多项式拟令

合,由得到的回归方程和拟合曲线,我们可以分析病情X的走势。

表1 经处理后Ak,Bk,Z(t)数值统计 Z(t)?t(k) 0 3 4 5 7 8 9 42.149.446.769.178.3Ak 0 64.6 2 6 8 3 5 -1.9Bk 0 -1.9 -1.81 -1.91 -2.1 -2.3 4 -33.Z(t) ~ -22.2 -27.3 -24.5 -32.9 -34.1 3 23 24 25 39 40 113.98.186.9129.3113.07 9 3 7 8 -2.2-2.25 -2.47 -2.25 -2.37 4 -50.-43.6 -35.2 -57.5 -47.7 8 注:拟合曲线时t=0周取原点或附近的点;Z(t)*(-1)后与t(k)作图,以方便描述。

根据以上统计数据拟合得到以下图线:

140120100Ak8060402000001020304050图2 CD4细胞平均数(Ak)与时间t(k)拟合关系t(k)10203040t(k)50y = -0.0755x + 5.3553x + 22.908n=2,R2 = 0.88442-0.5-1-1.5-2-2.5-3图3 HIV病毒载量(Bk)与时间t(k)拟合关系y = 0.0022x - 0.1154x - 1.11212n=2,R = 0.55722Bk