零膨胀回归模型统计分析及在HIV数据中的应用文献综述

 2023-01-05 07:01

一、拟研究或解决的问题

1、研究背景:从上世纪90年代以来,零膨胀模型(Zero-inflated models)数据在各个研究领域受到越来越广泛的重视,现在仍然是数据分析的热点问题之一。它是人们在社会科学、自然中的计数资料的实际研究中,观察事件发生数中含有大量的零值。比如,在流行病学研究中,对于疾病的发病率经常有可能出现漏报、瞒报等情况,因此数据出现的零并不真的是零,有可能有两部分零值组成:结构零、抽样零,结果导致这种数据资料中的零值过多,超出了Poisson分布等一般离散分布的预测能力,这种由于计数资料中的零值过多,且取相同的零值反映了不同的情况,常常会导致计数资料表现出较大的变异的现象被称为计数资料的零膨胀。其中,重复测量数据的零膨胀问题更是值得进一步研究思考的。所谓重复测量即同一受试对象单位时间(如周、月或年)或特定空间内某随机事件发生次数在多个时间点重复观察或测量获得的重复测量计数数据(count data),如江苏省连续七年的周期里每一年HIV发病次数。这类数据主要特点包括:重复测量数据之间存在相关性、数据中含有零膨胀特点即含有过多零数据、数据离散程度过大等。

2、亟待解决的问题主要包含如下三个方面:其一,针对零膨胀数据,简单的分布模型(泊松分布、负二项分布、等)拟合这些数据显得不太合理,如何处理这些零过多数据(即如何构造出最为合理有效的模型进行预测它们)也就成为一个值得研究和亟待解决的一大问题;其二,零膨胀数据的处理方法日益变多,诸如ZIB、ZINB、ZIGP等已经逐步被运用到一些领域,然而各模型试用特征、范围、条件不尽相同,拟合结果也因数据特征变化(如:针对数据离散程度差异区分选择),因而,基于零膨胀的几种模型研究分析,拟合对比探究也显得尤为重要,这是需要去研究的另一大问题;其三,江苏省HIV的发病率中也存在零值过多的现象(40.04%),并且数据由于是几年调查结果,数据之间存在较大的相关性,因而,基于该数据建立合理零膨胀模型并进行研究分析之外,需要考量相关性的特点,并结合流行病的时空特征,注入时空因素改良模型的构成并进行的时空分析也尤为必要,它可以深入的分析疾病传播在空间时间上的传播规律。

二、采用的研究手段

1、结合文献,对零膨胀几种主流方法(如hurdle、ZIB、ZINB、ZIGP等)进行分析比较,对几种模型进行基本概述,主要分析其基本模型结构、分布函数、似然函数、特征等。步骤包括:数据是否存在零膨胀性质的判断、模型的建立过程、参数的估计计算、模型比较等几个大方面。

2、针对江苏省HIV发病数这类重复性数据,在考虑它的时空因素以及数据相关特征之下,构建新模型,并不断修缮。

3、利用R软件实现模型计算,数据预测,拟合效果评价等。

三、论文课题研究进度安排

2015年3月 2 日----3月20日:确定选题,查阅与之相关的参考文献和图文资料。

2015年3月21日----3月28日:根据课题及要求撰写开题报告并进行修改。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。