复杂数据下约束半参数可加模型的统计推断研究
价格 双方协商
地区: 重庆市 市辖区 永川区
需求方: 重庆**学院
行业领域
高技术服务业
需求背景
随着科学技术的快速发展,产生了各种复杂的数据,从而传统的数据分析手段不能满足人们分析和处理数据的需要。对于各类复杂数据常用的建模方法包括参数回归和非参数回归。由于传统的线性模型的假设条件太强而使得线性模型不能满足实际的需要,这样就限制了模型的实际应用能力。半参数可加模型作为参数回归模型的推广,具有更多的适应性和灵活性,同时具有很好的解释能力。著名统计学家***指出,在对大量的统计问题进行数据分析或预测时,除了已有的样本信息外,还可以获得某些附加信息,比如等式线性约束、随机约束、不等式约束和椭球约束等。
目前文献对复杂数据下约束半参数可加模型的研究还不多。主要研究也基于无约束下半参数可加模型的参数估计的研究,同时研究的时候对估计性质的讨论都是小样本性质。对估计的渐近性质研究较少。另外在针对复杂数据下约束半参数可加模型进行分析建模的时候,当自变量个数比较多的时候,自变量间会出现多重共线性问题,Hoerl和Kennard提出了著名的岭回归方法来改进多重共线性问题。目前的文献基于无约束的多重共线性问题有比较好的解决方案,但约束条件下目前还没有比较好的方法,如何进行推广,还是提出一种新的方法来处理约束条件下的多重共线性问题将是本项目的一个重要研究内容。
在建模的时候,如何选择模型或者如何选择变量也是一个非常重要的问题。Tibshirani提出的Lasso方法可以解决线性模型、半参数可加模型的变量选择问题,近几年学者也提出了针对各种复杂数据的变量选择方法,但是都是无约束条件下。针对约束条件下,复杂数据下半参数可加模型的变量选择研究很少。如何针对约束条件下复杂数据的半参数可加模型的变量选择进行研究是一个值得讨论的问题。除了约束条件下半参数可加模型的变量选择方法外,涉及到另外一个问题就是如何给出比较好的算法来实现。文献已有一些比较好的算法,但是在约束条件下需要对已有算法进行改进或者寻找新的算法来实现变量选择,这也是本项目的一个重要研究内容。
复杂数据下约束半参数可加模型的变量选择和参数估计在社会生活领域都有着广泛的应用,许多生活中的数据如生物医学、管理、经济都存在着一些约束条件并且数据非常复杂并且需要我们对其中的变量进行选择分析,因此研究复杂数据下的约束模型的变量选择和参数估计是一类很有实际意义的问题,且相关理论和方法都在还在不断发展中,对它们做详细的研究必然能够得到一些深入而有趣的结果。同时相关理论和结果可以应用到永川区大数据与人工智能产业中,甚至相关理论和结果也可以应用到重庆市大数据与人工智能产业中。
需解决的主要技术难题
研究内容
复杂数据下约束半参数可加模型的估计
研究复杂数据下约束半参数可加模型的参数估计,包括基于差分和拉格朗日的稳健估计,重点研究估计的均方误差比较以及它们在大样本下的相合性,渐近正态性以及收敛速度。
复杂数据下约束半参数可加模型的变量选择
主要研究具有纵向结构数据的约束半参数可加模型的变量选择,构造惩罚复合约束回归估计方程研究其变量选择,给出了相应的惩罚复合约束回归估计的相合性和其oracle性质,论证新方法在假设条件、简洁程度、收敛速度上的优势。同时通过理论和随机模拟验证统计方法的优良性。
统计方法在金融、生物等大数据中的应用
在获得了建模及变量选择的统计理论后,利用相关理论分析金融和生物大数据。首先,利用半参数建模方法分析具有纵向结构的金融数据,将分析结果为金融决策者提供建议。其次,利用变量选择方法分析生物医学大数据,推动统计理论在生物医学领域中的应用。
拟解决的关键问题
将半参数可加模型应用于复杂数据的研究涉及到约束问题,如何处理,如何解决参数的估计问题以及相关的计算问题?
如何利用约束条件、模型、似然惩罚来选择合适的变量选择方法进行变量选择,同时探究惩罚函数中的参数选取问题以及相关的算法。
预期目标
本项目的研究目标是基于约束条件的复杂数据下半参数可加建模,主要研究参数估计、变量选择理论以及算法,以期获得相关研究的重要进展,得到一些有意义的研究成果,并用相关研究成果解决实际问题。
期望实现的主要技术目标
研究方案(包括总体设计思路、技术路线、实验技术方案及可行性分析等)
总体设计思路
利用拉格朗日、差分法和有效的稳健广义估计
处理进度