400-626-6068

判别法分析岩石样品的归属种类

发布时间: 2015-03-05 17:36浏览量:

王路军 张文炤

摘要:在地质科学研究中,当得到一个新的样品数据,要确定该样品属于已知类型中哪一类,这种问题就是判别分析法。判别法在使用前要求我们知道需要研究的变量共有几类。判别分析的目的就是从现有已知类别的样本数据中训练出一个判别函数来,以后再有未知类别的数据时,可以利用这个建立的函数来判断其类别。

关键词:判别分析法;函数;数据;

1、在 Spss 数据界面中,输入相关数据据:

1是山西南部不同地区的地幔橄榄岩中的主要氧化物组成。按照岩石学和地球化学的研究成果,我们已经明确的将样品分成了三类。其中第一类样品(采于山西沁水)代表古生代时期的地幔物质组成,第二类样品(采于山西屯留)代表新生代时期的地幔物质组成,第三类样品(采于山西长子)代表新生代时期的地幔物质组成。

1 山西南部不同地区橄榄岩的主要氧化物含量

类别     氧化物  SiO2      Al2O3   MgO      Na2O

第一类 55.37     1.19       18.86     1.08

      56.09     1.48       18.64     1.34

      56.39     1.55       18.64     1.34

      56.21     1.88       20.39     0.9

 

第二类 53.84     1.79       17.82     0.06

      53.39     2.31       17.41     0.19

      53.74     1.82       17.78     0.08

 

第三类 52.91     7.22       14.73     2.27

      53.1       6.58       14.6       2.53

      52.11     7.08       14.77     2.07

未知类 52.74     6.85       14.86     2.11

未知类 3.11       2.48       17.36     .20

未知类 55.37     1.39       18.11     1.23

未知类 53.83     1.84       17.77     .12

我们的目的是利用判别的统计方法,来确定表1中“未知类”样品的种属,判别出的种属是否实际的地质事实吻合。下面我们利用Spss提供的Discriminant过程(逐步回归)来进行判别。

此处采用Bayes判别,在 Spss 数据界面中,输入表1数据,首先验概率分布来描述这种认识,然后基于抽取的样本再对先验认识做修正,得到后验概率分布,再基于后验概率分布做各种统计推断。

2、具体的判别过程为:

Discriminant

                               2  Analysis Case Processing Summary

Unweighted Cases    N    Percent

Valid     10   71.4

Excluded            4     28.6

      At least one missing discriminating variable 0     0

      Both missing or out-of-range group codes and at least one missing discriminating variable    0     0

      Total      4     26.8

 Total   14   100

2为缺失值报告表,显示录入的14组数据中,10组是有效的,因为它们的类别已经知道。另有4 组待判断的数据,需要判断属于哪一种。

3  Group Statistics

GROUP            

Mean   

Std. Deviation    Valid N (listwise)

                           Unweighted Weighted

1    SIO2     56.015   0.44733 4     4.000

      Al2O3   1.5250   0.28337      4     4.000

      MgO      19.1325 0.84472 4     4.000

      Na2O    1.165     0.21502 4     4.000

2    SIO2     53.6567 0.23629 3     3.000

      Al2O3   1.9733   0.29195 3     3.000

      MgO      17.67     0.22605 3     3.000

      Na2O    0.11       0.07       3     3.000

3    SIO2     52.7067 0.52539 3     3.000

      Al2O3   6.96       0.33645 3     3.000

      MgO      14.7       0.08888 3     3.000

      Na2O    2.29       0.23065 3     3.000

Total

      SIO2     54.3150 1.55936 10   10.000

      Al2O3   3.2900   2.55400 10   10.000

      MgO      17.3640 2.00944 10   10.000

      Na2O    1.1860   .90593   10   10.000

3 为已知类别的10组数据的各个变量的均值、离差等统计数据结果。

Stepwise Statistics

4 是逐步分析的运行记录。可见第一步纳入了Al2O3,第二步纳入了Na2O,第三步纳入了MgO。右侧给出了WilksLambda检验的具体结果。三步检验的结果都拒绝SIO2,这说明这三步检验中分别纳入 Al2O3Na2OMgO对正确判断分类是有作用的。

4  Variables Entered/Removed(a,b,c,d) Wilks'

 

Step     

Entered       Lambda

             Statistic df1 Df2 Df3 Exact F

                                          Statistic df1 df2 Sig

1    Al2O3   .011       1     2     7.000     318.674 2     7.000     .000

2    MgO      .001       2     2     7.000     99.973   4     12.000   .000

3    Na2O    .000       3     2     7.000     122.782 6     10.000   .000

5  Variables in the Analysis

Step             Tolerance      F to Remove       Wilks' Lambda

1    Al2O3   1.000     318.674

2    Al2O3   .859       118.971 .035

      Na2O    .859       35.397   .011

3    Al2O3   .830       21.227   .002

      Na2O    .457       50.221   .004

      MgO      .451       9.331     .001

6  Variables Not in the Analysis

Step             Tolerance      Min. Tolerance    F to Enter     Wilks' Lambda

0    SIO2     1.000     1.000     57.096   .058

      Al2O3   1.000     1.000     318.674 .011

      MgO      1.000     1.000     52.813   .062

      Na2O    1.000     1.000     97.922   .035

1   SIO2     1.000     1.000     19.205   .001

      MgO      .847       .847       5.617     .004

      Na2O    .859       .859       35.397   .001

  2       SIO2     .742       .637       3.151     .000

      MgO      .451       .451       9.331     .000

  3       Na2O    .268       .126       1.999     .000

                    7  Wilks' Lambda

 Step    Number of Variables  Lambda df1 df2 df3

                                         Statistic

df1       df2 Sig.

1    1     .011       1     2     7     318.674 2     7.000     .000

2    2     .001       2     2     7     99.973   4     12.000   .000

3    3     .000       3     2     7     122.782 6     10.000   .000

通过观察表5、表6、表7三个表格,我们可以看出仍然是逐步判别分析的运行记录。

Summary of Canonical Discriminant Functions

下表(Eigenvalues)是说明在分析的过程中一共提取了2个维度的函数,其中第一个函数解释了所 有变异的85.1%,第二个函数解释了剩下的14.9%的变异。

                         8  Eigenvalues

Function      Eigenvalue   % of Variance      Cumulative %     Canonical Correlation

1    174.798(a)    85.1       85.1       .997

2    30.715(a)      14.9       100.0     .984

 

9  Standardized Canonical Discriminant Function Coefficients

      Function

      1     2

Al2O3  1.029     .160

MgO     -.309      1.307

Na2O   .506       1.374

上表为两个判别函数中各个变量的标准化函数,可以用来判断两个函数分别主要受哪些变量的影响 较大。此处我们的两个标准化的函数式如下:

Y1=1.029*Al2O3-0.309*MgO+0.506*Na2O;

Y2=-0.160*Al2O3+1.307*MgO+1.374*Na2O.

变量 SIO2并没有参与判 别分析,就是说它对判别分析的影响是很小的。

10  Functions at Group Centroids

 

 

GROUP      Function

      1     2

1    -7.037    4.853

2    -7.512    -6.344

3    16.894   -.126

 

Unstandardized canonical discriminant functions evaluated at group means

10表示了已经知道的三组数据的各自的重心在空间位置的坐标,如第一类的重心为(-0.70374.853)。如果我们计算出各个观测数据的具体坐标位置后就可以计算出它们分别离各个重心的距离, 这样就可以得知它们的分类。

Classification Statistics

11  Classification Function Coefficients

      GROUP

      1     2     3

Al2O3  -9.065    -4.759    75.179

MgO     145.044 119.534 120.569

Na2O   341.883 260.016 369.550

(Constant)   -1580.858     -1066.785     -1572.040

Fisher's linear discriminant functions

11即为相应于Fisher判别函数的Bayes判别函数的系数。据上表我们可以写出判别的函数式如下:

Group1=-9.065*Al2O3+145.044*MgO+341.883*Na2O-1580.858; Group2=-4.759*Al2O3+119.534*MgO+260.016*Na2O-1066.785; Group3=75.179*Al2O3+120.569*MgO+369.550*Na2O-1572.040.

Spss在此处判别的基本思路可以理解为:将未知种属的样品数据代入上面的三个函数中去,进行各类的评分,得分最高的一类就是该组数据相应的类别。

我们继续让Spss显示它完成的统计结果:

我们继续让Spss显示它完成的统计结果:

12  Casewise Statistics

Highest Group   Second Highest Group     Discriminant Scores

 Case

Number

Actual

Group   Predicted

Group

P(D>d |

G=g)

p    df

P(G=g

| D=d)

Squared Mahalanobis Distance to Centroid

Group

P(G=g

| D=d)

Squared Mahalanobis Distance to Centroid

 Function

1

Function

2

1    1     1     .271       2     1.000     2.615     2     .000       103.287 -8.256    3.791

2    1     1     .836       2     1.000     .358       2     .000       129.879 -6.458    5.003

3    1     1     .711       2     1.000     .681       2     .000       129.600 -6.219    4.966

4    1     1     .716       2     1.000     .669       2     .000       143.988 -7.213    5.651

5    2     2     .701       2     1.000     .711       1     .000       125.274 -8.352    -6.262

6    2     2     .317       2     1.000     2.296     1     .000       130.969 -6.010    -6.545

Original

7    2     2     .797       2     1.000     .453       1     .000       124.040 -8.174    -6.226

8    3     3     .700       2     1.000     .713       1     .000       639.418 17.711   -.339

9    3     3     .197       2     1.000     3.251     1     .000       554.874 16.290   1.573

10  3     3     .324       2     1.000     2.254     1     .000       604.345 16.681   -1.612

11  ungrouped    3     .441       2     1.000     1.639     1     .000       562.786 15.954   -.995

12  ungrouped    2     .097       2     1.000     4.671     1     .000       135.722 -5.377    -6.678

13  ungrouped    1     .186       2     1.000     3.362     2     .000       88.607   -6.768    3.039

14  ungrouped    2     .830       2     1.000     .372       1     .000       118.092 -7.995    -5.972

基于表12我们可以看出,Spss将未知的四组数据分别判给了第3、第2、第1、第2组。

3、结论:

上表是对本次判别过程的评价。可见,SPSS将四个未知类别的数据中的两个判给了第2组,一个判给了第1组,一个判给了第3组。对于已知类别的数据,误判为0。本次判别中,三类数据的判别准确率都达到了100%

 

参考文献:

 

[1]向东进. 实用多元统计方法[M]. 中国地质大学出版社. 2004.9

[2]  . SSPS实用基础指导[J]. 理论与方法. 2005.10

[3]潘淑霞,孙王杰. 数据分析与SSPS软件应用[J]. 吉林医药学院院报. 2002.9

[4]孙激流,沈大庆. 概率论与数理统计[M]. 首都经济贸易大学出版社. 2005.10

[5]  . 多元统计方法在自然资源开发中的应用[J]. 山东理工大学学报. 1712003.1