ã€ è‹—C~ï¼Œé¥µ" .7. Il ï¼Œ~ - ä¸–ç•Œå¤§å¦åŸŽ

More documents

Recommendations

Info

验。要是样本服从多元正态分布 , 采用二次判别 , 但是应该注意到二次判别分析没有计算判如果样本严重违反了判别分析的适用条件 , 则可以采取一些处理办法加以补救 , 总结如下 :(1) 当样本的多元正态分布假设不能满足的时候采取的措施和方法如下 : 如果数据的超平面是若干分段结构的话 , 采用分段判别分析。如果数据满足方差和协方差的齐次性可以采用距离判别分析、经典判别分析、贝叶斯判别分析中的任何一种 , 因为此时三者是等价的 , 建议使用经典判别分析。如果数据不满足方差和协方差的齐次性 , 则采用经典判别分析、非参数判别分析、距离判别分析 , 这些方法无此适用条件。进行变量变换。(2) 方差和协方差的齐次性不能满足的时候可以采取的措施如下 : 增加样本 , 这有时可以使其影响减小。慎重的进行变量变换。采用经典判别分析、非参数判别分析、距离判别分析 , 这些方法无此适用条件。在合乎总体实际情况的前提下 , 保证各个分组的样本量一样 , 判别分析中分组之间样本量一样可以带来以下几个好处 : 使得结果与方差齐次性假设不会偏离得太大 ;F 检验时第二类错误 ( 实际上为虚假的条件下正确的拒绝了原假设的概率 ) 得到减小 ; 使得均值更加容易比较和检错率和统计检验的公式。(3) 存在多重共线性时可以采取的措施如下 : 增加样本量。使用逐步判别分析。采用岭判别分析。对自变量进行主成分分析 , 用因子代替自变量进行判别分析。通过相关矩阵结合实际的理论知识删去某些产生共线性的自变量。显然 , 上述措施和线性回归中对共线性的处理方式是非常类似的。(4) 当线性假设被违反的时候可以采取的措施如下 : 采用二次判别分析。 K 最近邻判别分析或核密度判别分析两种非参数判别分析。离散型判别分析或混合型判别分析。由于判别分析的目的是建立准确有效的判别函数 , 除了以上使用条件外 , 他对样本量也有一定的要求 , 一般而言样本量 n 应在所使用的自变量个数 p 的 10 ~20 倍以上时 , 函数才比较稳定 ,至少也应当在 p 的 5 倍以上 ; 而自变量个数 p 在 8 ~ 10 个之间时 , 函数的判别效果才可能比较理想。当然 , 在实际工作中判别函数的自变量个数往往会超过 10 个 , 但请一定记住 : 越多并不代表效果就越好。13. 1. 3 判别效果的评价对于判别分析 , 人们最关心的是建立的判别函数用来进行判别时准确度如何。在评价时一般都使用错判率和正判率加以表示 , 后者就是 1 一判错率 , 低的判错率和高的正判率 (Hit Ratio)• 263 •
就说明判别的效果较好。但是 , 判别结果还要依赖于总体本身的分离程度 , 不同总体的差异越大越能得到好的判别结果。从判别分析的正确率角度来考察判别模型要达到多少才是可以接受 ?可以借鉴 "20% /25% " 法则 : 正确分类的比率应该超过随机分组比率的 20% 或者 25% 。计算随机分组的比率分作两种情况 :4 自然分组的总体中样本是等概率的情况 ;2 自然分组的总体中样本是不等概率的情况。所以针对两种不同情况期望达到的正确率计算公式为 :等概率 : 000% -;- C) x 1. 2 或 1. 25不等概率 :(pi+Pi+P:+ …+ 乓 )x 1. 2 或 1. 25其中 G 表示总类别数。以上公式中乘以 1. 2 是取正确分类的比率应该超过随机分组比率20% 的情况 , 如果超过了上述界值 , 则可以认为判别是有作用的。具体在错判 / 正判率的计算时 , 为了使得评价结果更为可观、稳定 , 能够代表总体的真实情况 , 又可以有以下几种计算方式 :(1) 自身验证 : 即将训练样本依次代入判别函数 , 用这样计算出的错判率来考察错判情况是否严重。但是这种方法往往会高估判别效果 , 自身验证的效果好 , 并不能说明该函数用来判别外部数据的效果也好 , 实用价值不大。(2) 外部数据验证 : 即判别函数建立完成后 , 重新再收集一部分样本数据 , 用判别函数进行判别 , 看看错判是否严重。这种验证方法理论上较好 , 但再收集的样本数据不能被用来建立函数 , 有些浪费 , 而且很难保证两次收集的样本是同质的。(3) 样本二分法 : 是外部数据验证的改进 , 采用随机函数将所用样本分为两部分 , 一般是按2: 1 的比例拆分 , 多的部分用于建立判别函数 , 剩下的用于验证。这种做法可以保证验证用样本和训练用样本的同质性 , 是最为理想的。但它要求样本量较大 , 否则建立的判别函数不稳定 , 白白浪费信息。(4) 交互验证 (Cross-Validation) : 这是近年来逐渐发展起来的一种非常重要的判别效果验证技术。它在样本二分法的基础上又大大前进了一步 , 具体来说就是在建立判别函数时依次去掉一例 , 然后用建立起来的判别函数对该例进行判别 , 用这种方法可以非常有效地避免强影响点的干扰。在 SPSS 中己经提供了交互验证功能 , 可直接使用对话杠操作。(5) Bootstrap 法 : 该方法在交互验证的基础上又前进了一步。其基本思想为 : 在原始数据的范围内做有放回的抽样 , 样本含量仍为 n , 原始数据中每个观察单位每次被抽到的概率相等 , 为l/n , 所得样本称为 Bootstrap 样本。从该样本可以得到一个判别分析结果 ; 重复抽取这样的样本若干次 , 这样可以建立起来一系列判别函数 , 相应的每个系数都有一系列取值。采用 Bootstrap方法的原理就可以求出最 " 稳健 " 的判别函数。用这种方法可以非常充分地利用样本信息 , 求得的判别函数又可以有效地避免强影响点的干扰。但是 , 各个 Bootstrap 样本中显然都含有相同个体 , 严格讲这并不符合验证的要求。除使用正判 / 错判率外 , 研究者还可以使用许多更为复杂和专业的指标进行判别效果的评价 , 如阳性预测值、阴性预测值等 , 因篇幅所限 , 这里不再详述。13. 1. 4 判别分析的一般步骤对于一个实际的判别分析问题 , 分析者需要做的工作往往并不是简单地运行一遍分析程序这样简单 , 而是全面地对数据进行考察 , 一般而言 , 可能需要经历以下几个步骤 :• 264 •
Page 1 and 2:
•【苗 C~ , 饵 " .7. Il ,~
Page 5 and 6:
序---Ì......口知识经济
Page 8 and 9:
日录第一部分一般线
Page 10 and 11:
6.3.2 分析实例 .............
Page 12 and 13:
思考与练习 ..............
Page 14 and 15:
19.3.3 比例风险性的图
Page 16 and 17:
Yij μ i + E: iJ其中 Yij 代表
Page 18 and 19:
3. 元素 CElement)元素指用
Page 20 and 21:
值。因此在多因素方
Page 22 and 23:
表 1. 4 是对前面所假
Page 24 and 25:
义不难理解 , 具体输
Page 26 and 27:
中的 Weight Estimation 过程
Page 28 and 29:
表 1. 13 Tests of Between-Subjects
Page 30 and 31:
在设定好一张轮廓图
Page 32 and 33:
表 1. 17 Lack of Fit TestsDependen
Page 34 and 35:
表 1. 18 中给出的是各
Page 36 and 37:
一下。因篇幅所限 ,
Page 38 and 39:
此。而在随机效应方
Page 40 and 41:
第 2 章常用实验设计
Page 42 and 43:
受试对象按性质 ( 如
Page 44 and 45:
Patient 选入 Random Factor 框 ,
Page 46 and 47:
表 2.5Tests of Between-Subjects Ef
Page 48 and 49:
此为 2 x3 析因设计 , 一
Page 50 and 51:
表 2.11正交设计及其结
Page 52 and 53:
表 2.14均匀设计安排及
Page 54 and 55:
2.3.2 重复测量设计重
Page 56 and 57:
理的小白鼠其进食量
Page 58 and 59:
期 70末考试成 60结90 -l 曰
Page 60 and 61:
表 2.23 是两组的修正
Page 62 and 63:
第 3 章多元方差分析
Page 64 and 65:
文、数学、英语的考
Page 66 and 67:
迹。值越大 , 该效应
Page 68 and 69:
3. 1. 4 对引例的进一步
Page 70 and 71:
大 , 即计算 F 值时的分
Page 72 and 73:
促销手段前两个月的
Page 74 and 75:
区、实行不同促销手
Page 76 and 77:
表 3.16 即为一元方差
Page 78 and 79:
第 4 章混合线性模型
Page 80 and 81:
图 4. 1 第一所学校的
Page 82 and 83:
表 4.1 是方差分析的检
Page 84 and 85:
l i i可号事 3气》矿标
Page 86 and 87:
表 4.11 同样是对随机
Page 88 and 89:
由上面的分析结果可
Page 90 and 91:
进行动态监测 , 走时
Page 92 and 93:
在预定义对话杠中未
Page 94 and 95:
表 4.25 中给出了 4 次重
Page 96 and 97:
表 4.31任意两次的相关
Page 98 and 99:
设定非常丰富 , 这里
Page 100 and 101:
参考文献221 Liang KY , Zeger
Page 102 and 103:
第 5 章多重线性回归
Page 104 and 105:
此处之所以从散点图
Page 106 and 107:
将自变量引起的变异
Page 108 and 109:
町 ,…, 与 ) 与反应变量
Page 110 and 111:
5.3 同归预测与残差分
Page 112 and 113:
图 5.5三维空间中的可
Page 114 and 115:
图 5.6几种常见的残差
Page 116 and 117:
差间相互独立。例 5.
Page 118 and 119:
根据公式 55 total = 55R + 55
Page 120 and 121:
SPSS 输出结果如下 :表 5
Page 122 and 123:
表 5. 12 Excluded Variables eColli
Page 124 and 125:
读者可自行练习在例
Page 126 and 127:
共线性越强 , 提取主
Page 128 and 129:
参考文献1 John Neter, Michae
Page 130 and 131:
2.52.01.51.01!ð主 0.5附口口
Page 132 and 133:
因变量模型 ; 自变量
Page 134 and 135:
自身预测值或者其他
Page 136 and 137:
系数必然会小于普通
Page 138 and 139:
Source variable. . n POWER value =
Page 140 and 141:
映的实际上是除了生
Page 142 and 143:
际上是假设这 4 档间
Page 144 and 145:
还对两种分类变量类
Page 146 and 147:
结果输出的最后就是
Page 148 and 149:
第 7章路径分析入门在
Page 150 and 151:
表 7. 2 Coefficients aUnstandardiz
Page 152 and 153:
个 , 因变量为 LW , 最下
Page 154 and 155:
型中各变量的具体联
Page 156 and 157:
根据该测量值 , 可以
Page 158 and 159:
表 7. 10 Model SummaryModel R R Sq
Page 160 and 161:
第 8 章非线性回归模
Page 162 and 163:
相应的主对话杠如图
Page 164 and 165:
的相关系数可用来辅
Page 166 and 167:
从图 8. 3 中可以看到 ,
Page 168 and 169:
图 8.5一乘法与二乘法
Page 170 and 171:
Source DF Sum of Squares Mean Squar
Page 172 and 173:
接下来方杠中的文本
Page 174 and 175:
第 9 章二分类 Logistic 回
Page 176 and 177:
0.5 为对称点 , 分布在 o
Page 178 and 179:
81) 1 (42/69) = 1. 217 , 并不
Page 180 and 181:
Waldx2 , 是对总体回归
Page 182 and 183:
exp ( - 5. 642 - 1. 356 X sex - O.
Page 184 and 185:
有意义 , 有些无意义
Page 186 and 187:
表 9.15Variables in the EquationB
Page 188 and 189:
验 , 就可以得知它们
Page 190 and 191:
法的分析结果。表 9.18
Page 192 and 193:
究者找到一系列的指
Page 194 and 195:
: Graphs• ROC Curve:Test Variable
Page 196 and 197:
就一定很好。例如使
Page 198 and 199:
的知识都可以被系统
Page 200 and 201:
第三部分多元统计分析
Page 202 and 203:
特别需要注意的是 ,
Page 204 and 205:
计量不一定能真实地
Page 206 and 207:
图 10.2 Output 子对话框图
Page 208 and 209:
(1) Test of Parallel Lines 检验
Page 210 and 211:
O. 458 • Csex = 1) 00.4)表 10. 1
Page 212 and 213:
变量叫 ,… , X m 对目标
Page 214 and 215:
表 10. 15 Model Fitting Informatio
Page 216 and 217:
10.4.2 实例一与 Logistic 模
Page 218 and 219:
关 ) 的不同取值水平
Page 220 and 221:
!Analyze• Regression• Probit:Re
Page 222 and 223: 第 11 章主成分分析与
Page 224 and 225: 的信息 , 其他的可以
Page 226 and 227: 表 1 1. 1 为 8 个原始变
Page 228 and 229: 各个因子间互不相关
Page 230 and 231: 由 Bartlett 检验可以看
Page 233 and 234: 于斜交旋转则显示旋
Page 235 and 236: F2 =0. 011ZX1 +0. 387ZX2 +0. 129ZX3
Page 237 and 238: 部的经济结构 , 找到
Page 239 and 240: 化 , 对初始因子载荷
Page 241 and 242: 得到综合因子得分 sco
Page 243 and 244: AUi从ì (U 11IU 21川AU l2 从U 22
Page 245 and 246: 图 12.1不同的分类方法
Page 247 and 248: 目前 , 非层次聚类法
Page 249 and 250: 从表 12. 1 中可以看出 5
Page 251 and 252: 一次出现是在第 1 步 ,
Page 253 and 254: 藏等 13 省市 ;第 5 类 : 包
Page 255 and 256: 第 4 类 : 消费水平相对
Page 257 and 258: 更新类别中心点。(5)
Page 259 and 260: 3. 结果解释分析结果
Page 261 and 262: 在 K - Means 生成的结果
Page 263 and 264: 0.017 3 。现希望通过聚
Page 265 and 266: 这就意味着在原来 12
Page 267 and 268: 散变量和连续变量。
Page 269 and 270: 思考与练习1. 对于例 1
Page 271: x2图 13.1典型判别分析
Page 275 and 276: Analyze• Classify • Discriminan
Page 277 and 278: 表 13.4 给出的是判别
Page 279 and 280: Canonical OiscriminantFunction 2UO-
Page 281 and 282: 别函数进行新样品的
Page 283 and 284: er) 、贝叶斯学派。它
Page 285 and 286: 刚毛王军尾花 y = - 80. 2
Page 287 and 288: 第 14章典型相关分析
Page 289 and 290: (Rl~lR12R2;lR21 -Â;) (Slâ ω) =0(
Page 291 and 292: Correlations Between Set - 1 and Se
Page 293 and 294: 由这两对典型变量的
Page 295 and 296: 0.5640.733立定 { 本前屈图
Page 297 and 298: 变量所求出的典型相
Page 299 and 300: 第 15章对应分析15.1 模
Page 301 and 302: 数据由 Fisher 在 1940 年首
Page 303 and 304: 功能作进一步解释。
Page 305 and 306: 的是各类别的信息在
Page 307 and 308: 的 Dimensions In Solution 杠中
Page 309 and 310: 换 , 交叉表就被转换
Page 311 and 312: !Analyze• Data Reduction→ Corre
Page 313 and 314: 15.4 多重对应分析15.4.1
Page 315 and 316: 表 15.10 Iteration History 表 15.
Page 317 and 318: 以确认图形中所观察
Page 319 and 320: 图 15.14哑变量设置格
Page 321 and 322: 果上的联系。(2) 使用
Page 323 and 324:
是用某个 r 维欧氏空
Page 325 and 326:
图 16.3MDS 过程的子对话
Page 327 and 328:
图 16.4 12 城市三维空间
Page 329 and 330:
16. 1. 3 距离的计算方
Page 331 and 332:
别间的问阳就会比较
Page 333 and 334:
Warning # 14654> The total number o
Page 335 and 336:
在 INDSCAL 模型中 , 仍然
Page 337 and 338:
接下来方杠中的结果
Page 339 and 340:
(2) 如果有可能 , 为每
Page 341 and 342:
在后面结合案例给予
Page 343 and 344:
Reduced rank: 和广义欧氏
Page 345 and 346:
N口。吕A。中国科大 0.6
Page 347 and 348:
5 张文月三主编 . SPSS 11
Page 349 and 350:
第 17 章对数线性模型
Page 351 and 352:
Model Selection 过程拟合的
Page 353 and 354:
这样做不会影响统计
Page 355 and 356:
作用 , 即不同胃溃荡
Page 357 and 358:
17.3 因果关系明确时
Page 359 and 360:
表 17.14 和表 17.15 两个表
Page 361 and 362:
表 17.18抽查人员的工
Page 363 and 364:
以下方杠中的文本是
Page 365 and 366:
If Deleted Simple Effect is DF L. R
Page 367 and 368:
17.5 对数线性模型与
Page 369 and 370:
本例的主要分析结果
Page 371 and 372:
第 18章信度分析在各
Page 373 and 374:
低于 0.7 , 则应该弃之
Page 375 and 376:
低 , 提示这两道题的
Page 377 and 378:
表 18.5 ANOVA with Friedman's Test
Page 379 and 380:
在表格的最上面 , SPSS
Page 381 and 382:
同 ) , 因此计算公式有
Page 383 and 384:
续表类型假设测量的
Page 385 and 386:
18.4.3 SPSS 中相应的分析
Page 387 and 388:
第 19章生存分析19. 1 生
Page 389 and 390:
下来 , 而不是等数据
Page 391 and 392:
风险函数非负生存函
Page 393 and 394:
= 川 c1 - d/n)ti
Page 395 and 396:
除以上用到的杠组外
Page 397 and 398:
分布曲线、风险函数
Page 399 and 400:
(1) Pooled over strata: 系统默
Page 401 and 402:
This subfile contains:20 observatio
Page 403 and 404:
19.3 Cox 同归模型前面介
Page 405 and 406:
杠的含义与操作和前
Page 407 and 408:
模型拟合时完全相同
Page 409 and 410:
间的抗体水平、不同
Page 411 and 412:
会对研究结果造成影
Page 413 and 414:
情况 :图 19.14真分层时
Page 415 and 416:
鳞癌型肺癌或夫访 )
Page 417 and 418:
集中其他无缺失变量
Page 419 and 420:
20.2.2 对缺失模式的分
Page 421 and 422:
记录的输出。如果指
Page 423 and 424:
失值的变量 , 然后为
Page 425 and 426:
20.3.2 使用回归算法进
Page 427 and 428:
示。因 20.6 Ca) 为回归
Page 429 and 430:
图 20.8EM 算法的散点图
Page 431 and 432:
SPSS 产品简介SPSS 系列
show all

ã€ è‹—C~ï¼Œé¥µ" .7. Il ï¼Œ~ - ä¸–ç•Œå¤§å­¦åŸŽ

Create successful ePaper yourself

Delete template?

Save as template?

ã€ è‹—C~ï¼Œé¥µ" .7. Il ï¼Œ~ - ä¸–ç•Œå¤§å¦åŸŽ