关于Dijkstra算法的数学建模论文

来源:论文 时间:2016-11-27 11:57:56 阅读:

【www.zhuodaoren.com--论文】

关于Dijkstra算法的数学建模论文(一)
数学建模常用的十大算法

数学建模常用的十大算法==转

(2011-07-24 16:13:14)

转载▼

1. 蒙特卡罗算法。该算法又称随机性模拟算法,是通过计算机仿真来解决问题的算法,同时可以通过模拟来检验自己模型的正确性,几乎是比赛时必用的方法。

2. 数据拟合、参数估计、插值等数据处理算法。比赛中通常会遇到大量的数据需要处理,而处理数据的关键就在于这些算法,通常使用MATLAB 作为工具。

3. 线性规划、整数规划、多元规划、二次规划等规划类算法。建模竞赛大多数问题属于最优化问题,很多时候这些问题可以用数学规划算法来描述,通常使用Lindo、Lingo 软件求解。

4. 图论算法。这类算法可以分为很多种,包括最短路、网络流、二分图等算法,涉及到图论的问题可以用这些方法解决,需要认真准备。

5. 动态规划、回溯搜索、分治算法、分支定界等计算机算法。这些算法是算法设计中比较常用的方法,竞赛中很多场合会用到。

6. 最优化理论的三大非经典算法:模拟退火算法、神经网络算法、遗传算法。这些问题是用来解决一些较困难的最优化问题的,对于有些问题非常有帮助,但是算法的实现比较困难,需慎重使用。

7. 网格算法和穷举法。两者都是暴力搜索最优点的算法,在很多竞赛题中有应用,当重点讨论模型本身而轻视算法的时候,可以使用这种暴力方案,最好使用一些高级语言作为编程工具。【关于Dijkstra算法的数学建模论文】

8. 一些连续数据离散化方法。很多问题都是实际来的,数据可以是连续的,而计算机只能处理离散的数据,因此将其离散化后进行差分代替微分、求和代替积分等思想是非常重要的。

9. 数值分析算法。如果在比赛中采用高级语言进行编程的话,那些数值分析中常用的算法比如方程组求解、矩阵运算、函数积分

等算法就需要额外编写库函数进行调用。

10. 图象处理算法。赛题中有一类问题与图形有关,即使问题与图形无关,论文中也会需要图片来说明问题,这些图形如何展示以及如何处理就是需要解决的问题,通常使用MATLAB 进行处理。

以下将结合历年的竞赛题,对这十类算法进行详细地说明。

以下将结合历年的竞赛题,对这十类算法进行详细地说明。

2 十类算法的详细说明

2.1 蒙特卡罗算法

大多数建模赛题中都离不开计算机仿真,随机性模拟是非常常见的算法之一。

举个例子就是97 年的A 题,每个零件都有自己的标定值,也都有自己的容差等级,而求解最优的组合方案将要面对着的是一个极其复杂的公式和108 种容差选取方案,根本不可能去求解析解,那如何去找到最优的方案呢?随机性模拟搜索最优方案就是其中的一种方法,在每个零件可行的区间中

按照正态分布随机的选取一个标定值和选取一个容差值作为一种方案,然后通过蒙特卡罗算法仿真出大量的方案,从中选取一个最佳的。另一个例子就是去年的彩票第二问,要求设计一种更好的方案,首先方案的优劣取决于很多复杂的因素,同样不可能刻画出一个模型进行求解,只能靠随机仿真模拟。

2.2 数据拟合、参数估计、插值等算法 数据拟合在很多赛题中有应用,与图形处理有关的问题很多与拟合有关系,一个例子就是98 年美国赛A 题,生物组织切片的三维插值处理,94 年A 题逢山开路,山体海拔高度的插值计算,还有吵的沸沸扬扬可能会考的“非典”问题也要用到数据拟合算法,观察数据的走向进行处理。此类问题在MATLAB中有很多现成的函数可以调用,熟悉MATLAB,这些方法都能游刃有余的用好。

2.3 规划类问题算法

竞赛中很多问题都和数学规划有关,可以

说不少的模型都可以归结为一组不等式作为约束条件、几个函数表达式作为目标函数的问题,遇到这类问题,求解就是关键了,比如98年B 题,用很多不等式完全可以把问题刻画清楚,因此列举出规划后用Lindo、Lingo 等软件来进行解决比较方便,所以还需要熟悉这两个软件。

2.4 图论问题

98 年B 题、00 年B 题、95 年锁具装箱等问题体现了图论问题的重要性,这类问题算法有很多,包括:Dijkstra、Floyd、Prim、Bellman-Ford,最大流,二分匹配等问题。每一个算法都应该实现一遍,否则到比赛时再写就晚了。

2.5 计算机算法设计中的问题

计算机算法设计包括很多内容:动态规划、回溯搜索、分治算法、分支定界。比如92 年B 题用分枝定界法,97 年B 题是典型的动态规划问题,此外98 年B 题体现了分治算法。这方面问题和ACM 程序设计竞赛中的问题类似,推荐看一下《计算机算法

关于Dijkstra算法的数学建模论文(二)
数学建模十大经典算法

数学建模十大经典算法

一、蒙特卡罗算法

1946年,美国拉斯阿莫斯国家实验室的三位科学家John von Neumann,Stan Ulam 和 Nick Metropolis

共同发明了,蒙特卡罗方法。

此算法被评为20世纪最伟大的十大算法之一 。

蒙特卡罗方法(Monte Carlo method),又称随机抽样或统计模拟方法,是一种以概率统计理论为指导的一类非常重要的数值计算方法。此方法使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。由于传统的经验方法由于不能逼近真实的物理过程,很难得到满意的结果,而蒙特卡罗方法由于能够真实地模拟实际物理过程,故解决问题与实际非常符合,可以得到很圆满的结果。 蒙特卡罗方法的基本原理及思想如下:

当所求解问题是某种随机事件出现的概率,或者是某个随机变量的期望值时,通过某种“实验”的方法,以这种事件出现的频率估计这一随机事件的概率,或者得到这个随机变量的某些数字特征,并将其作为问题的解。

有一个例子可以使你比较直观地了解蒙特卡洛方法:

假设我们要计算一个不规则图形的面积,那么图形的不规则程度和分析性计算(比如,积分)的复杂程度是成正比的。蒙特卡洛方法是怎么计算的呢?假想你有一袋豆子,把豆子均匀地朝这个图形上撒,然后数这个图形之中有多少颗豆子,这个豆子的数目就是图形的面积。当你的豆子越小,撒的越多的时候,结果就越精确。

在这里我们要假定豆子都在一个平面上,相互之间没有重叠。

蒙特卡罗方法通过抓住事物运动的几何数量和几何特征,利用数学方法来加以模拟,即进行一种数字模拟实验。它是以一个概率模型为基础,按照这个模型所描绘的过程,通过模拟实验的结果,作为问题的近似解。

蒙特卡罗方法与一般计算方法有很大区别,一般计算方法对于解决多维或因素复杂的问题非常困难,而蒙特卡罗方法对于解决这方面的问题却比较简单。其特点如下:

I、 直接追踪粒子,物理思路清晰,易于理解。

II、 采用随机抽样的方法,较真切的模拟粒子输运的过程,反映了统计涨落的规律。

III、不受系统多维、多因素等复杂性的限制,是解决复杂系统粒子输运问题的好方法。等等。

二、数据拟合、参数估计、插值等数据处理算法

我们通常会遇到大量的数据需要处理, 而处理数据的关键就在于这些算法,通常使用Matlab作为工具。数据拟合在数学建模比赛中中有应用,与图形处理有关的问题很多与拟合有关系,一个例子就是98年数学建模美国赛A题,生物组织切片的三维插值处理,94年A题逢山开路,山体海拔高度的插值计算,还有 吵的沸沸扬扬可能会考的“非典”问题也要用到数据拟合算法,观察数据的走向进行处理。此类问题在 MATLAB 中有很多现成的函数可以调用,熟悉MATLAB,这些方法都能游刃有余的用好。

三、线性规划、整数规划、多元规划、二次规划等规划类问题

数学建模竞赛中很多问题都和数学规划有关,可以说不少的模型都可以归结为一组不等式作为约束条件、几个函数表达式作为目标函数的问题,遇到这类问题,求解就是关键了,比如98年B题,用很多不等式完全可以把问题刻画清楚,因此列举出规划后用 Lindo 、 Lingo 等软件来进行解决比较方便,所以还需要熟悉这两个软件。

四、图论算法

这类问题算法有很多,

包括: Dijkstra (亮点最短距离)、 Floyd(点对的最短距离) 、 Prim(最小生成树) 、 Bellman-Ford ,最大流,二分匹配等问题。

关于此类图论算法,可参考Introduction to Algorithms--算法导论,关于图算法的第22章-第26章。同时,本BLOG内经典算法研究系列,对Dijkstra算法有所简单描述,

经典算法研究系列:二、Dijkstra 算法初探。

五、动态规划、回溯搜索、分治算法、分支定界等计算机算法

在数学建模竞赛中,如:92 年B题用分枝定界法, 97年B题是典型的动态规划问题,此外 98 年 B 题体现了分治算法。

这方面问题和 ACM 程序设计竞赛中的问题类似,

推荐看一下算法导论,与《计算机算法设计与分析》(电子工业出版社)等与计算机算法有关的书。

六、最优化理论的三大经典算法:模拟退火法、神经网络、遗传算法

这十几年来最优化理论有了飞速发展,模拟退火法、神经网络、遗传算法这三类算法发展很快。

在数学建模竞赛中:比如97年A题的模拟退火算法,00年B题的神经网络分类算法,01年B题这种难题也可以使用神经网络,还有美国竞赛89年A题也和 BP 算法有关系,当时是86年刚提出BP算法,89年就考了,说明赛题可能是当今前沿科技的抽象体现。

03 年 B 题伽马刀问题也是目前研究的课题,目前算法最佳的是遗传算法。 另,本人对人工智能非常感兴趣,遗传算法已在本BLOG内有所阐述,

七、网格算法和穷举法

网格算法和穷举法一样,只是网格法是连续问题的穷举。比如要求在 N 个变量情况下的最优化问题,那么对这些变量可取的空间进行采点,比如在 [ a; b ] 区间内取 M +1 个点,

就是 a; a +( b ? a ) =M; a +2 ¢ ( b ? a ) =M ; „;b

那么这样循环就需要进行 ( M + 1) N 次运算,所以计算量很大。

在数学建模竞赛中:比如 97 年 A 题、 99 年 B 题都可以用网格法搜索,这种方法最好在运算速度较快的计算机中进行,还有要用高级语言来做,最好不要用 MATLAB 做网格,否则会算很久。

穷举法大家都熟悉,自不用多说了。

【关于Dijkstra算法的数学建模论文】

八、一些连续离散化方法

大部分物理问题的编程解决,都和这种方法有一定的联系。物理问题是反映我们生活在一个连续的世界中,计算机只能处理离散的量,所以需要对连续量进行离散处理。这种方法应用很广,而且和上面的很多算法有关。事实上,网格算法、蒙特卡罗算法、模拟退火都用了这个思想。

九、数值分析算法

数值分析(numerical analysis),是数学的一个分支,主要研究连续数学(区别于离散数学)问题的算法。如果在比赛中采用高级语言进行编程的话,那一些数值分析中常用的算法比 如方程组求解、矩阵运算、函数积分等算法就需要额外编写库函数进行调用。这类算法是针对高级语言而专门设的,如果你用的是 MATLAB 、 Mathematica ,大可不必准备,因为像数值分析中有很多函数一般的数学软件是具备的。

十、图象处理算法

在数学建模竞赛中:比如01 年 A 题中需要你会读 BMP 图象、美国赛 98 年 A 题需要你知道三维插值计算, 03 年 B 题要求更高,不但需要编程计算还要进行处理,而数模论文中也有很多图片需要展示,因此图象处理就是关键。做好这类问题,重要的是把MATLAB 学好,特别是图象处理的部分。

关于Dijkstra算法的数学建模论文(三)
数学建模十大经典算法

数学建模十大经典算法

一、蒙特卡罗算法

1946年,美国拉斯阿莫斯国家实验室的三位科学家John von Neumann,Stan Ulam 和 Nick Metropolis

共同发明了,蒙特卡罗方法。

此算法被评为20世纪最伟大的十大算法之一 。

蒙特卡罗方法(Monte Carlo method),又称随机抽样或统计模拟方法,是一种以概率统计理论为指导的一类非常重要的数值计算方法。此方法使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。由于传统的经验方法由于不能逼近真实的物理过程,很难得到满意的结果,而蒙特卡罗方法由于能够真实地模拟实际物理过程,故解决问题与实际非常符合,可以得到很圆满的结果。 蒙特卡罗方法的基本原理及思想如下:

当所求解问题是某种随机事件出现的概率,或者是某个随机变量的期望值时,通过某种“实验”的方法,以这种事件出现的频率估计这一随机事件的概率,或者得到这个随机变量的某些数字特征,并将其作为问题的解。

有一个例子可以使你比较直观地了解蒙特卡洛方法:

假设我们要计算一个不规则图形的面积,那么图形的不规则程度和分析性计算(比如,积分)的复杂程度是成正比的。蒙特卡洛方法是怎么计算的呢?假想你有一袋豆子,把豆子均匀地朝这个图形上撒,然后数这个图形之中有多少颗豆子,这个豆子的数目就是图形的面积。当你的豆子越小,撒的越多的时候,结果就越精确。

在这里我们要假定豆子都在一个平面上,相互之间没有重叠。【关于Dijkstra算法的数学建模论文】【关于Dijkstra算法的数学建模论文】

蒙特卡罗方法通过抓住事物运动的几何数量和几何特征,利用数学方法来加以模拟,即进行一种数字模拟实验。它是以一个概率模型为基础,按照这个模型所描绘的过程,通过模拟实验的结果,作为问题的近似解。

蒙特卡罗方法与一般计算方法有很大区别,一般计算方法对于解决多维或因素复杂的问题非常困难,而蒙特卡罗方法对于解决这方面的问题却比较简单。其特点如下:

I、 直接追踪粒子,物理思路清晰,易于理解。

II、 采用随机抽样的方法,较真切的模拟粒子输运的过程,反映了统计涨落的规律。

III、不受系统多维、多因素等复杂性的限制,是解决复杂系统粒子输运问题的好方法。等等。

二、数据拟合、参数估计、插值等数据处理算法

我们通常会遇到大量的数据需要处理, 而处理数据的关键就在于这些算法,通常使用Matlab作为工具。数据拟合在数学建模比赛中中有应用,与图形处理有关的问题很多与拟合有关系,一个例子就是98年数学建模美国赛A题,生物组织切片的三维插值处理,94年A题逢山开路,山体海拔高度的插值计算,还有 吵的沸沸扬扬可能会考的“非典”问题也要用到数据拟合算法,观察数据的走向进行处理。此类问题在 MATLAB 中有很多现成的函数可以调用,熟悉MATLAB,这些方法都能游刃有余的用好。

三、线性规划、整数规划、多元规划、二次规划等规划类问题

【关于Dijkstra算法的数学建模论文】 【关于Dijkstra算法的数学建模论文】

数学建模竞赛中很多问题都和数学规划有关,可以说不少的模型都可以归结为一组不等式作为约束条件、几个函数表达式作为目标函数的问题,遇到这类问题,求解就是关键了,比如98年B题,用很多不等式完全可以把问题刻画清楚,因此列举出规划后用 Lindo 、 Lingo 等软件来进行解决比较方便,所以还需要熟悉这两个软件。

四、图论算法

这类问题算法有很多,

包括: Dijkstra 、 Floyd 、 Prim 、 Bellman-Ford ,最大流,二分匹配等问题。

关于此类图论算法,可参考Introduction to Algorithms--算法导论,关于图算法的第22章-第26章。同时,本BLOG内经典算法研究系列,对Dijkstra算法有所简单描述,

经典算法研究系列:二、Dijkstra 算法初探。

五、动态规划、回溯搜索、分治算法、分支定界等计算机算法

在数学建模竞赛中,如:92 年B题用分枝定界法, 97年B题是典型的动态规划问题,此外 98 年 B 题体现了分治算法。

这方面问题和 ACM 程序设计竞赛中的问题类似,

推荐看一下算法导论,与《计算机算法设计与分析》(电子工业出版社)等与计算机算法有关的书。

六、最优化理论的三大经典算法:模拟退火法、神经网络、遗传算法 这十几年来最优化理论有了飞速发展,模拟退火法、神经网络、遗传算法这三类算法发展很快。

在数学建模竞赛中:比如97年A题的模拟退火算法,00年B题的神经网络分类算法,01年B题这种难题也可以使用神经网络,还有美国竞赛89年A题也和 BP 算法有关系,当时是86年刚提出BP算法,89年就考了,说明赛题可能是当今前沿科技的抽象体现。

03 年 B 题伽马刀问题也是目前研究的课题,目前算法最佳的是遗传算法。 另,本人对人工智能非常感兴趣,遗传算法已在本BLOG内有所阐述,

七、网格算法和穷举法

网格算法和穷举法一样,只是网格法是连续问题的穷举。比如要求在 N 个变量情况下的最优化问题,那么对这些变量可取的空间进行采点,比如在 [ a; b ] 区间内取 M +1 个点,

就是 a; a +( b ? a ) =M; a +2 ¢ ( b ? a ) =M ; „;b

那么这样循环就需要进行 ( M + 1) N 次运算,所以计算量很大。

在数学建模竞赛中:比如 97 年 A 题、 99 年 B 题都可以用网格法搜索,这种方法最好在运算速度较快的计算机中进行,还有要用高级语言来做,最好不要用 MATLAB 做网格,否则会算很久。

穷举法大家都熟悉,自不用多说了。

八、一些连续离散化方法

大部分物理问题的编程解决,都和这种方法有一定的联系。物理问题是反映我们生活在一个连续的世界中,计算机只能处理离散的量,所以需要对连续量进行离散处理。这种方法应用很广,而且和上面的很多算法有关。事实上,网格算法、蒙特卡罗算法、模拟退火都用了这个思想。

九、数值分析算法

数值分析(numerical analysis),是数学的一个分支,主要研究连续数学(区别于离散数学)问题的算法。如果在比赛中采用高级语言进行编程的话,那一些数值分析中常用的算法比 如方程组求解、矩阵运算、函数积分等算法就需要额外编写库函数进行调用。这类算法是针对高级语言而专门设的,如果你用的是 MATLAB 、 Mathematica ,大可不必准备,因为像数值分析中有很多函数一般的数学软件是具备的。

十、图象处理算法

在数学建模竞赛中:比如01 年 A 题中需要你会读 BMP 图象、美国赛 98 年 A 题需要你知道三维插值计算, 03 年 B 题要求更高,不但需要编程计算还要进行处理,而数模论文中也有很多图片需要展示,因此图象处理就是关键。做好这类问题,重要的是把MATLAB 学好,特别是图象处理的部分。

关于Dijkstra算法的数学建模论文(四)
对PLS路径模型在综合评价应用中“优势”的审视

  摘要:近年来,PLS路径模型在综合评价领域有很多应用。文章针对该方法在综合评价应用中的公认“优势”进行了分析,对这些优势进行了客观的评价,并给出利用该方法进行综合评价的建议。

  关键词:PLS路径模型;综合评价;审视
  一、 引言
  PLS路径模型(PLSPM)是指基于偏最小二乘方法的结构方程模型,该方法最初提出是为了克服基于协方差分析结构方程模型(CB-SEM)很强的分布假定(R?�nkk?�. M and Evermann. J,2013)。在实际应用中,该方法在综合评价中也有不少应用,特别是在满意度综合评价方面应用广泛,在商学、管理学等社会科学中有重要地位。以致部分文献将顾客满意度模型等同于PLS路径模型(梁燕和金勇进 2007)。近年来,我国学术界对于该方法的应用在综合评价的研究也如雨后春笋一般出现了不少文献(如:王惠文和付凌晖,2004;林盛,刘金兰和韩文秀,2005;阮敬和纪宏,2006;邹树梁等,2008;刘旭华,2008;莫一魁和沈旅欧,2009;关子明等2009;叶明和张磊,2010;鲜思东和彭作祥,2011;区晶莹等,2011;杨威和张拓红,2012;王庆丰,2013)。根据这些文献和综合评价理论,可以将PLS路径模型进行综合评价的步骤归纳为:第一,确定评价目标,建立指标体系,收集数据;第二,实施综合评价,具体为:①用迭代(包括一系列最小二乘回归,线性运算和抽取平方根)得到潜变量的表达式,它们是可测变量的加权平均;②用通常的最小二乘得到潜变量之间的线性关系;③用通常的最小二乘得到潜变量与对应可测变量间的线性关系;④利用潜变量的估计值得到各种指数,进行综合评价。第三,检验与评估综合评价的结果。笔者查阅了近年来的相关文献发现,多数文献指出PLS路径模型进行综合评价有着其他方法没有的优势,具体可以归纳为四点:第一,克服多重相关性和共线性的影响;第二,相比CB-SEM,分布假定很弱;第三,样本容量要求没有CB-SEM高,适合小样本情形;第四,是一种客观的综合评价方法。但是,目前没有文献在综合评价框架下对这些优点做出进一步的细致说明。笔者认为,PLS路径模型并非为综合评价专门设计的方法,并且这些优点基本上是相对CB-SEM比较得出的,将它们直接移植到综合评价领域,不甚严格,需要推敲。事实上,用于综合评价的统计模型很多,但是很多学者对这些模型在综合评价框架下的适用性进行了研究,例如,仅关于主成分分析就有很多文献,如苏为华(2000),王学民(2007),林海明和杜子芳(2013)等。为此,本文将对上述四大优点在综合评价框架下进行审视,提出并解答四个问题,即利用PLS路径模型进行综合评价时:
  (1)有没有样本量的要求?
  (2)有没有针对样本的分布假定要求?
  (3)没有多重共线性的影响了吗?
  (4)客观性体现在哪里?
  二、 问题的研究
  为了对上述问题进行研究,我们首先概述PLS路径模型的算法,然后根据概述回答问题。
  1. PLS路径模型算法概述。利用PLS路径分析进行综合评价,首先要分划好可测变量的归属,一个潜变量对应一组可测变量。为此假设有Q个潜变量?孜1,…,?孜Q,第j个潜变量对应的可测变量为Xj=(xj1,…,xjpj)′,j=1,…,Q。则有xjh=?姿jh?孜1+?着jh(h=1,2,…,pj)或者?孜j=?撞■■wjh+?着j,前者为反映型(Reflective),系数为载荷;后者为反映型(Formative),系数为权重,选择何种形式需要根据实际问题决定,这种反映可测变量与潜变量关系的模型为测量模型。其次要设定好潜变量与潜变量之间的关系结构,即?孜i=?撞■■?茁ij?孜j+vij。这部分模型称为结构模型,模型中的系数为路径系数。潜变量的得分(即潜变量的估计值)是进行综合评价的关键,对其估计通过迭代实现。由三大步骤组成:
  外部逼近:
  Yj∝■wjhxjh
  Yj是?孜j的外部逼近估计量,∝表示左边是右边的标准化,Wj=(wj1,…,wjpj)′是外部权重。
  内部逼近:
  zj∝■ejiYi
  其中,i:i?圮j表示与第j个潜变量直接有关的潜变量的下标。eji是内部权重,有三种不同的形式(Tenenhaus M,2005)。
  更新权重:
  内部权重由潜变量间的结构决定,迭代过程中需要更新的是外部权重,当测量模型为反映型时,对于xjh,其新权重为以Zj为自变量,xjh为因变量的一元线性回归系数,但由于Zj被标准化,因此有wjh=cov(xjh,Zj),当测量模型为构成型时,新的权重以Zj为因变量,与之对应的可测变量xjh为自变量的多元线性回归的回归系数,即
  Wj=(Xj′Xj)-1Xj′Zj
  上述步骤反复迭代,直到权重变化不大,就认为收敛,得到最终的权重估计值,潜变量的得分就是可测变量的加权平均值。
  下面给出前面四个问题的解答。
  2. 问题解答。
  (1)问题1的解答。通过算法概述可以看出,PLS路径模型的最终目的虽然是得到潜变量得分,但是其本质是得到权重的估计。而权重的估计通过一系列的最小二乘方法反复迭代得到,即迭代过程中本质上涉及到一系列的线性回归模型。目前已有一些学者讨论了PLS路径模型的最小样本量,这些研究的主要依据是算法中涉及最大回归方程需要的样本量作为PLS路径模型的最小样本量。例如,Chin. W.W(1998)认为其最小样本量应该为最大结构方程中自变量个数的10倍。梁燕和金勇进(2007)从最大回归方程、准确估计参数、准确估计R2三个角度研究认为,样本量至少需要100,最好在230以上。但是这些研究都是从PLS路径模型作为统计方法出发的。不能回答综合评价需要的样本量。   根据综合评价的理论,综合评价的目的在于科学决策(杜栋等,2008),首先要求评价结果能够客观反映世界的真实情况。这就要求样本需要能够具有普遍性,因此样本量是否足够不仅需要考虑PLS路径模型本身,还需要考虑样本是否具备代表性,过小的样本量将带来较大的误差。其次,要求参与建模的统计模型能够客观地挖掘总体信息,达到样本推断总体的效果。这样才能针对总体情形进行科学决策。为此,需要首先回答PLS路径模型挖掘样本的何种信息,可以证明(Dijkstra. T,1983),PLS路径模型的权重估计是一个不动点估计问题,具体为:
  反映型:Wj∝?撞i:i?圮jeji・SjiWi,其中Wj′SjjWj=1;
  构成型:Wj∝S-1jj?撞i:j?圮ieji・SjiWi,其中Wj′SjjWj=1
  其中,Sji为第j组可测变量与第i组可测变量的样本协方差矩阵,Sjj是第j组可测变量的样本方差矩阵。上述等式说明了两点事实:
  ①对于权重估计的信息来自可测变量的样本协方差矩阵,权重可以看成是样本协方差矩阵的函数;
  ②PLS路径模型挖掘样本信息,是一种非参数方法。
  这就意味着PLS路径模型进行综合评价、科学决策的前提是样本协方差矩阵与总体协方差矩阵足够接近,这与CB-SEM对样本量的要求是相同的。因此,本文认为,在综合评价框架下,所谓PLS路径模型适合小样本的说法并不合适,为了进行科学决策,样本量越大越好。从样本协方差矩阵接近总体协方差矩阵的角度考察,PLS路径模型的样本量要求不低于CB-SEM的样本量要求。
  (2)问题2的解答。由于PLS路径模型的估计问题实质上是一个不动点问题,且估计方法为基于最小二乘的迭代算法,因此该方法本质上是一种非参数方法,从数学上而言,样本是不需要分布假定的。目前文献中通用的算法仅对其一阶矩有约束(Vinzi.V.E et al.,2010),
  E(?孜jh|?孜j)=E(?孜j|xj1,…,xjpj)=0
  E(?孜i|?孜j)=■?茁ij?孜j
  (3)问题3的解答。关于PLS路径分析进行综合评价可以消除多重共线性(多重相关性)的提法首见于王惠文和付凌晖(2004),其后又有若干文献有类似提法。根据这些文献的说法,“系统评估指标体系往往被分为若干个变量组,由每个变量组表达一个主题概念。在这种情形下,所建立的评估指数应能够反映指标体系的层次性”,利用PLS路径模型可以解决这些问题。事实上,这样的做法类似层次分析法,不同的是前者利用可测变量间的线性关系结构作为赋权依据,后者依赖专家评分(宁禄乔,2006)。但是这不意味着利用PLS路径模型就能解决多重共线性问题。我们指出,如果测量模型仅为反映型模型,且不考虑路径系数,那么多重共线性确实可以得到解决。除此之外,还存在其他的多重共线性问题。
  ①测量模型中可测变量的多重共线性。这种情况发生在测量模型为构成型,或者混合型(构成型和反映型的混合)时。原因在于,同一组可测变量都刻画一个潜变量,这些可测变量必然相关。
  ②结构模型中的多重共线性。当需要考察路径系数时,如果结构模型中解释变量多于一个,这种情况就需要引起注意。原因在于,得到潜变量得分估计后,需要通过最小二乘方法估计路径系数,如果解释变量多于一个,本质上就是潜变量之间的多元线性回归。这时就会面临多元线性回归的多重共线性问题。
  为了解决这些问题,需要对算法进行修正。Vinzi.V.E et al.,(2010)建议在迭代过程的权重更新阶段和路径系数估计阶段用PLS回归方法代替OLS方法。
  (4)问题4的解答。由于PLS路径模型进行综合评价是通过对可测指标赋权,得到潜变量得分,从而进行综合评价。因此讨论其客观性本质上关注的是权重的客观性。在综合评价框架下,计算权重大致可分为两类,一是主观权重,由专家判断得到;另一类是客观权重,由实际数据产生(杜栋等,2008)。通过其算法和评价步骤,我们认为PLS路径模型并非完全的客观评价方法。原因在于对可测变量的分组是主观的。其客观性体现在权重基于可测变量的方差-协方差结构,这是由权重的不动点性质决定的。根据数理统计知识,方差-协方差结构与变量间的线性关系有密切的联系,因此可以认为PLS路径模型挖掘了各变量间完全的线性关系(吴喜之,2013)。
  同时需要指出,可测变量间的方差-协方差结构对权重关系密切,对可测变量的量纲处理将影响权重的客观性。如果对可测变量进行标准化,使其均值为0,方差为1,则可测变量的方差-协方差矩阵退化为相关系数矩阵。这样,可测变量本身的变异信息将不能被权重反映出来,权重仅反映变量之间的相关关系信息。为此,在对可测变量进行去量纲处理时,应该保留其本身的变异信息。可以采用孟胜旺(1992)的处理办法。
  三、 结论和建议
  本文对PLS路径模型应用于综合评价时的几个“优点”进行了审视,指出①在综合评价框架下,PLS路径模型适合小样本不能作为优点看待,进行综合评价时,样本越大越好,使得样本方差-协方差矩阵与总体方差-协方差矩阵充分接近。关于样本量的要求,可以参考CB-SEM;②从数学上而言,PLS路径模型确实不需要分布假定,只需要满足几个一阶矩的约束即可;③对于测量模型为反映型时,如果仅考察潜变量得分,PLS路径模型确实可以克服多重共线性。但是当测量模型为构成型或者混合型时,或者需要考察路径系数时,该方法并不能克服多重共线性,需要对算法进行改进;④PLS路径模型不是完全的客观评价方法,需要对可测变量主观分组,其客观性体现在权重估计基于样本的方差协方差信息。
  对于使用该方法,除了已有文献(如Tenenhaus M 2005)给出的建议之外,本文提出如下建议:
  (1)应该根据实际问题,对可测变量合理分组,确定测量模型的类型,确定结构模型形式;   (2)在数据处理阶段,应该保留可测变量本身的变异,例如可以用原始变量除以均值代替标准化;
  (3)样本量越大越好,不建议对小样本进行综合评价,从理论上而言,没有意义;
  (4)当需要考察路径系数时,以及测量模型为构成型和混合型时,需要注意多重共线性的影响。
  参考文献:
  1. 杜栋,庞庆华,吴炎.现代综合评价方法与案例精选(第二版).北京:清华大学出版社,2008.
  2. 关子明,常文兵,王薇.基于结构方程模型的银行员工绩效考核方法.经济论坛,2009,(2):108-109.
  3. 梁燕,金勇进.顾客满意度模型的样本量研究.统计研究,2007,(7):68-74.
  4. 刘旭华.基于PLS通径分析的上市公司财务指标综合评价.数理统计与管理,2008,(4):695-700.
  5. 林海明,杜子芳.主成分分析综合评价应该注意的问题.统计研究,2013,(8):25-31.
  6. 林盛,刘金兰,韩文秀.基于PLS-结构方程的顾客满意度评价方法.系统工程学报,2005,(6):653-656.
  7. 孟生旺.用主成份分析法进行多指标综合评价应注意的问题.统计研究,1992,(4):67-68.
  8. 莫一魁,沈旅欧.城市公交系统公众评价的偏最小二乘通径模型.深圳大学学报(理工版),2009,(4):436-440.
  9. 宁禄乔.PLS算法研究.天津大学学位论文,2006.
  10. 区晶莹,张淞琳,俞守华.基于偏最小二乘通径模型的农民工信息能力综合评价.农业系统科学与综合研究,2011,(4):495-501.
  基金项目:国家自然科学基金(项目号:11361019);广西自然科学基金重点项目(项目号:2013GXNSFDA019001);中国人民大学科学研究基金项目“纵向边际化随机效应模型应用研究”(项目号:13XNF058)。
  作者简介:斯介生,中国人民大学统计学院博士生;李扬,中国人民大学统计学院副教授,中国人民大学统计咨询研究中心副主任,中国人民大学经济学博士,美国耶鲁大学博士后;肖宏伟,国家信息中心经济预测部助理研究员,中国人民大学经济学博士;蒋远营,桂林理工大学理学院副教授。
  收稿日期:2014-08-11。

本文来源:http://www.zhuodaoren.com/fanwen545294/

推荐访问:离散数学dijkstra算法 数学建模论文范文
扩展阅读文章
热门阅读文章