“高教社杯”全国大学生数学建模竞赛CUMCM国家一等奖优秀论文C题目论文 联系客服

发布时间 : 星期四 文章“高教社杯”全国大学生数学建模竞赛CUMCM国家一等奖优秀论文C题目论文更新完毕开始阅读944d0c7def630b1c59eef8c75fbfc77da26997a7

2. 按年龄段统计,包括该年龄段内的性别、人数、比例、高危职业、发病与诊断时间的间

隔;

3. 按职业统计,包括该职业内的发病人的性别、集中年龄段、发病与诊断时间的间隔; 4. 分别按发病年、月统计(发病年月和诊断年月基本一致),包括性别、年龄段、高危职

业等。

但是从附件数据中发现,在“Time of incidence (发病时间)”和“Report time (诊断报告时间)”中存在不同的时间格式以及错误(如: #### 或空格),因此在对数据进行统计分析前,需要首先对数据进行修复,根据一定修复原则将一些明显的错误信息(如发病时间为5008/7/31、诊断报告时间为27/09/2008情况下,很明显5008应该是2008)。

同时,从附件数据中易发现,部分诊断时间没有数据,而且诊断时间比较混乱,错误比较多,因此本文将不对诊断报告时间进行分析,进而也将不统计发病与诊断时间的间隔。

最后在修复完成后的基础上按上述思想进行脑卒中的发病信息统计,其统计的工具主要是EXCEL,利用EXCEL丰富的公式编辑、筛选、绘图、统计等功能进行处理。

2.2 针对问题二的分析

本问题欲研究脑卒中发病率与气温、气压、相对湿度间的关系,主要需要注意以下几点: 1. 在第一问已修复的数据基础上进行发病率统计,主要统计方法是通过EXCEL的筛选

功能和编写程序统计出在2007~2010年期间每一天的发病人数,进而可以计算出按天及按月的发病率;

2. 对附件(Appendix-C2)中数据文件进行整理及统计计算,先按天统计2007~2010年

期间每一天的气象信息(温度、湿度、大气压),并计算出每一天的温度差、气压差,再按月分别统计这四年中的8种指标(平均气压、最高气压、最低气压、平均温度、最高温度、最低温度、平均湿度、最低湿度)每月的各个平均值、最大值、最小值;

3. 将1和2统计或计算的数据进行一一关联,构造后续分析的数组。

[1]

从上面的统计数据可以看出,该问是一个多元统计问题,即分析脑卒中发病率与温度、湿度、大气压的各种指标的关系,主要分析思想如下:

1. 先整体按天(2007~2012年共1461天)分析,分析过程为:① 在EXCEL中画出发

病率与各个统计指标的散点图,从直观上寻求发病率与它们是否有明显的规律(如线性相关);② 利用SPSS统计软件对所有数据进行相关性分析,分析两两之间的相关性;③ 利用SPSS软件进行多元线性回归,分析回归结果是否通过显著性检验;④ 由于某些变量之间存在非常大的互相关(如温度之间的三个指标互相关系数都比较大),因此需要对多个变量进行筛选,可用的方法为多元线性逐步回归法(可以借助于SPSS统计软件中的逐步回归选项或MATLAB中的stepwise逐步回归工具箱);⑤ 如果不存在前面操作没有求出发病率与温度、湿度、大气压的相关表达式,则继续按后续方法进行分析处理; 2. 然后按照每月或季节的数据进行类似分析;

3. 按照温度、湿度、大气压三类进行单因素相关性分析,先选择其中两个特征变化很

小或在一个指定范围内变化的数据,对发病率与第三个指标进行相关性分析,通过此方法进行单因素分析。 整个过程需要做大量的统计分析,包括绘图及数据归纳整理,主要工具有EXCEL、SPSS、MATLAB。

2.3 针对问题三的分析

本问题首先要通过资料文献了解脑卒中高危人群的重要特征和关键指标、脑卒中的主要诱发因素、常见的预防措施、已有的某些地区对脑卒中发病的统计信息和规律,根据这些信息最大化地提取关于脑卒中发病的指标,再结合问题一、问题二中所得结论,可以根据所查到的关键指标、气象信息、时间序列进行预测模型的建立,如多指标影响因素的多元线性或非线性回归、神经网络预测模型、时间序列预测等等,最后对高危人群提出预警和干预的建议方案。

三、 模型假设及符号说明

3.1 基本假设

1. 2. 3. 4. 5. 6.

假设附件中的数据除空格、R###等本身有误外其它数据是合理可靠的。 假设附件数据中每一位病人都属于不同的人。

假设除环境因素(温度、湿度、大气压)外,影响脑卒中发病的其他因素保持不变。 假设当地人口不发生较大的变动,死亡率与出生率相近。 假设2007~2010数据四年间,没有发生重大自然灾害。

假设当地医疗环境相当,数据代表整个城市数据,数据具有代表性。

3.2 符号说明

P:某天(月或其它统计范围)的年发病率

N:某天(月或其它统计范围)的发病人数 M:某年的总发病人数 m:自变数个数 Y:因变数

Xm…Xi:自变数

bi:各个自变数xi对依变数y的各自效应; ?:自效应的集合 y3.3 基本定义

发病率: P?N 式(1) M四、 模型建立及求解

4.1 针对问题一的模型建立及求解

由问题分析可知,这属于多信息变量的统计描述模型,该问题主要是对脑卒中发病者信息进行统计描述,其方法是分别对脑卒中患者病历信息——性别、年龄、职业、发病时间进行统计,全部操作在EXCEL中进行。

4.1.1 附件数据的修复处理

由于附件中的患者病例信息有许多格式错误及信息不完整,在进行统计描述前,有必要对数据做修复处理,本文的修复过程及方法如下:

1. 年龄(Age)字段中存在大于110岁(如799)、0岁的信息,本文处理方法为将区

间[1 110]之间的数据作为有效值,其余的全视为该患者年龄信息缺失。 2. 职业(Occupation)字段中存在1-8之外的数据(如9、工等异常),可能是数据

录入错误,也可能是还有其它类的职业没在附件中说明,本文处理方法为将1-8之外的数据视为其他职业段。 3. 发病时间(Time of incidence)字段存在日期格式错误(如15-06-2008、20080620

等)或与EXCEL标准时间格式(如2007/1/1)不统一,需要对时间数据进行修复及标准化处理,处理原则有以下几点:

① 类似“2009-0-24”的数据丢失了月份信息,此类数据认为是错误数据,不统计在2007~2010期间内;

② 类似“发病时间为5008/7/31、诊断报告时间为27/09/2008”存在明显错误的数据,5008应该修复成2008;

③ 类似“31/12/2009”的数据不是EXCEL标准的时间格式,为了便于在EXCEL中快速按年、月、日进行统计分析,有必要对非标准的日期数据进行标准化处理,其方法可以通过在一单元格中进行编写公式进行字符串处理,假设“31/12/2009”所在的单元格为“D2”,则计算标准化的日期格式(2009/12/31)的公式为“=DATE(RIGHT(D2,4),MID(D2,4,2),LEFT(D2,2))”;

④ 类似“发病时间为20110/05/09、诊断报告时间为2010-08-08”的数据,直接视为无效数据;

⑤ 类似“2009/0/24”的数据也视为无效数据。

4.1.2 脑卒中患者信息统计分析

通过上述数据修复过程后,将得到标准格式的脑卒中患者信息数据,现按照模型分析的思路对脑卒中病例信息进行统计描述,其核心方法是在EXCEL中利用“COUNTIF”函数对某条件进行筛选后统计患者人数、及“COUNTIFS”函数对多重条件进行筛选后统计患者人数,具体操作界面截图见附录B-1。

4.1.2.1 按性别统计

对男女性别分别进行筛选,以年为单位,将四年的数据信息进行统计,2007~2010年按性别的脑卒中发病人数统计如表1所示,2007~2010年男女患病人数统计图如图1所示。

表1 2007~2010年按性别的脑卒中发病人数统计表

性别 男 女 丢失信息 男女比 年统计人数 附件总数据 33385 28526 12 1.17:1 2007-2010年总 33367 28506 12 1.17:1 4000035000300002007 7302 5940 0 2008 10384 8659 12 2009 5198 4805 0 2010 10483 9102 0 1.23:1 1.20:1 1.08:1 1.15:1 患者人数/人25000200001500010000500002007-2010年总2007年2008年时间/年2009年2010年男女

图1 2007~2010年男女患病人数统计图

从表1及图1可以看出,2007年男女患者之比达1.23:1,男性比女性更容易患脑卒中这类疾病,可能原因有以下几点:一是男性高血压多于女性;二是男性吸烟与饮酒者多于女性;三是男性从事体力劳动较多,突然用力可能诱发中风。

4.1.2.2 按职业统计

按职业字段进行筛选得到2007~2010年各职业患病人数统计数据如表2所示。

表2 2007~2010年各职业患病人数统计表 2007~2010年按职业统计数据 职业 编号 1 2 3 4 名称 农民 工人 退休人员 教师 发病人数 29750 4856 6646 216 性别 男 14644 3108 4126 163 女 15084 1745 2517 53