效度

EEPW百科 2009年08月18日

效度（validity）是指所测量到的结果反映所想要得考察内容的程度，测量结果和要考察的内容越吻合则效度越高，反之，则效度越低。包括构想效度、内容效度、效标关联效度等。效度比信度有更高的要求，信度是效度的必要条件，没有信度的测量工具就谈不上具有效度，但信度高的测量工具未必具有高的效度。
      目录 [隐藏]
      1 简介
      2 方法
      3 内在效度与外在效度
      4 相关词条
      5 参考资料
      效度-简介
      效度分析
      效度指一种测量手段能够测得预期结果的程度。从统计学角度可把效度(rXY)定义为潜在真分数方差(垏)与实得分数方差(垑)的比率,效度与信度的关系为：信度是效度的必要条件，但不是充分条件。一个测量的效度要高，其信度必须高，而一个测量的信度高时，效度并不一定高。即测量工具确能测出其所要测量特质的程度。效度是科学的测量工具所必须具备的最重要的条件。在社会测量中，对作为测量工具的问卷或量表的效度要求较高。鉴别效度须明确测量的目的与范围，考虑所要测量的内容并分析其性质与特征，检查测量的内容是否与测量的目的相符，进而判断测量结果是否反映了所要测量的特质的程度。
      效度-方法
      效度书籍
      考验效度的方法很多，J.W.弗伦奇和W.B.米歇贝根据测验目标把效度分为内容效度、构想效度和效标关联效度，这种分类为美国心理学会在1974年发行的《教育与心理测验的标准》一书所采纳，成为通行的效度分类方法。
      （1）内容效度指测验题目对有关内容或行为范围取样的适当性。成就测验和熟练测验特别注重这种效度。在成就测验中，测验题目是根据教学大纲和教材内容适当抽出，内容效度就是判断测验题目（内容）是否符合它欲测的目标。由于这种衡量效度的方法必须针对课程的目标和内容，以系统的逻辑方法详细分析题目的性能，又称课程效度或逻辑效度。确定内容效度的方法主要有两种：①专家判断，即由有关专家对测验题目与原定内容范围的符合性作出判断；②统计分析，即以一组被试在取自同样内容范围的两个独立测验上得分的相关作出估计。内容效度很容易与表面效度相混淆，实际上两者意义不同。表面效度指从外表（如测验的材料及用语、试题的印刷等）直观地看，测验题目与测量目标的一致程度，它与内容效度所指测验在实际测量上的有效程度不同。从技术意义上严格地说，表面效度不是效度，但为了取得被试的信任与合作，表面效度也不可忽视。
      （2）构想效度指测验分数能够说明心理学理论上的某种结构或特质的程度。主要适用于心理测验，其目的是以心理学的概念说明和分析测验分数的意义，即从心理学的理论观点对测验的结果加以解释和探讨。在心理学上，所谓构想是指心理学理论所涉及的抽象而属假设性的概念、特质或变量,如智力、焦虑、机械能力倾向、成就动机等,通常采用某种操作性定义并用测验来测量。确定构想效度的逻辑和方法一般是：先从某一构想的理论出发，导出各项关于心理功能或行为的基本假设，据以设计和编制测验，然后由果求因，以相关、实验和因素分析等方法，审查测验结果是否符合心理学上的理论观点。
      （3）效标关联效度指测验分数与效度标准的一致程度。效度标准简称效标，是足以反映测验所欲测量或预测的特质的独立量数，并作为估计效度的参照标准。测验分数与效标的一致程度以二者的相关系数表示，这种相关系数称为效度系数。效度系数越大,测验的效度越高。由于用相关系数这种统计数值表示，这种效度又称统计效度。效标关联效度可分同时效度和预测效度。同时效度指测验分数与当前的效标之间的相关程度，通常与心理特性的评估和诊断有关，常用的效标资料包括在校学业成绩、教师评定的等级、临床检查、其他同性质测验的结果等；预测效度指测验分数与将来的效标之间的相关程度,对人员的甄选、分类与安置工作等甚为重要,常用的效标资料包括专业训练的成绩和实际工作的成果等。运用追踪法对行为表现作长期观察、考核和记录，以累积所得的事实资料衡量测验结果对将来成就的预测性。
      测量的各种效度的区别在于各自强调的方面不同。一个测验可以有多种效度，每种效度视使用者的具体目的而定，不存在测验的统一效度。各种效度又是相互联系和补充的。内容效度和构想效度既是效标关联效度的保证，又须得到它的支持。考察内容效度和效标关联效度又有助于确定构想效度。
      效度-内在效度与外在效度
      内在效度指实验的自变量和因变量之间存在明确因果关系或相关关系的程度。表明因变量的变化在多大程度上来自自变量——有效性。　
      外在效度指教育实验研究结果的概括程度，表明实验结果的可推广程度。　
      在心理学研究（特别是实验研究）文献中，常使用内在效度和外在效度的概念，这与测量的效度的含义有所不同。内在效度指研究的自变量和因变量之间存在明确关系的程度。如果一项研究经过分析表明，因变量的变化确系主试操纵的自变量的变化所引起，并不因其他变量的影响而变得模糊不清或复杂化，那么这项研究就具有内在效度。
      影响内在效度和外在效度的因素：　
      影响实验研究的外在效度的因素主要有样本 (往往是便利样本而无法推及总体) 和环境 (人为制造而往往强化了实验效果) 两类。
      影响内在效度的因素较多，可以用Stanley and Campbell 及其他人有关影响实验研究内在效度的下述因素为参照：
      1.自我选择（Selection，在单次调查中更容易存在）；
      2.历史（History，在重复实验或调查中均存在）；
      3.成熟（Maturation，同2）
      4.重复测试（Repeated Testing，固定样本调查有此问题）
      5.测试工具影响（Instrumentation，调查问卷自然有其问题）
      6.回归趋中（Regression to the Mean，调查同样存在、追踪调查尤其如此）
      7.实验对象流失（Experimental Mortality、同样适用于固定样本）
      8.自我选择和成熟的交互影响（Selection-Maturation Interaction、见1和３）
      9.实验偏差（Experimenter Bias，在调查中也有调查环境的问题）
      上述影响中，大部分与追踪调查或固定样本调查（前者可以用非固定样本）有关；而与最常见的单次调查有关的是自我选择，即调查对象往往将自己的预存行为和观念（统称 predispositions) 带入他们对调查问题的回答，这是自然的，问题在于调查者无法测量各种预存行为和观念之间的先后次序，从而无法确定它们之间的因果关系。
      调查与实验的结合，可以互补互助。在程序上，可以先做实验以确定一对关系的内在效度，然后通过调查来验证其外在效度；也可以倒过来，用实验来验证自己或前人已经做过的调查发现。Iyengar and Kinder (1988) 用实验方法做议程设置研究，开创了议程设置研究的一个新范式，其实验结果则给议程设置研究中的”鸡与蛋“悬案（即“先有媒体议程还是先有公众议程”）作了最后的定论。
      控制实验 (control experiment) 与现场实验 (field experiment) 的结合使用，也是提高实验外在效度的一种有效方法，这里主要解决的是控制实验的环境问题；是否能否解决样本的代表性问题则要看现场实验的抽样方法。
      固定样本调查是解决自我选择问题的良方，但是其容易受到其它几种影响。所以需要在做最后一次固定样本调查的同时，再另抽一个独立样本。其意义与调查与实验的结合相似。
      内在效度与外在效度的联系：
      效度是研究设计必须考虑的问题。效度只是程度上的问题，是高与低的问题。效度不会全有或全无。内在效度是研究设计的基本要求，是研究质量的根本保证，是外在效度的先决条件。没有内在效度便无所谓外在效度，因为一个研究本身不科学、不精确，内在效度很低，即使它再容易推广、再现，外在效度再高，也不能正确解释问题现象，也不可能有什么实际意义。一般来说，内在效度越充分，结果的可推广度越大，研究也越有价值。
      内在效度的目的在于排除另类的解释，使研究变量关系纯化、凸现，能经得起重复、验证。只有这样，最终的研究结果才能被大家所接受。研究设计时，研究者本人应该确定自己研究的内在效度，在确保研究最基本的内在效度的基础上，考虑研究的外在效度，即在保证研究科学性的前提下，考虑研究的可推广性

查看原文