2.3 人才测评的效度_人才测评：方法与应用（第4版）-QQ阅读武侠男生网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

2.3　人才测评的效度

效度是衡量测量工具质量的另一个重要指标，效度的作用比信度的作用更为重要。如果一个测量工具的效度很低，无论它的信度有多高，这个测量工具都没有应用价值。

2.3.1　效度的概念

效度是一种测量工具测到所要测量的东西的程度，其可以反映测量的准确性。在物理测量中，尺子测量的总是长度，磅秤测量的总是重量，但是在人才测评中，有时会发生用“尺子”测量“重量”、“磅秤”测量“长度”的现象，这种测量就缺乏效度。另外，就算测量的特质没有问题，但结果也未必准确。例如，一台磅秤，由于长期使用，弹簧已经变形，一个20kg重的人站上去，显示的却是55kg，一天称10次，显示的都是55kg，测量的“信度”足够好，但准确度并不高，也就是说效度并不理想。影响测量效度的因素很多，主要包括对测量要素的界定是否清晰、试题是否能考查应试者的相关素质、评价者是否准确把握了要素的内涵及其操作定义等。

从测量理论的角度讲，效度可以定义为与测量目标有关的真实方差与总方差的比率。真实方差是由所要测量的目标变量产生的方差。效度的定义用公式表示为

式中，rxy为效度；为真实方差；为总方差。

效度的定义也可以通过真分数的概念和方差分析方法来加以说明。我们知道，一组测验分数的总方差等于真实方差与误差方差之和：

真实方差还可以分为有关方差（由应试者的变化引起的变化）和无关但稳定的方差（与应试者无关但由于量具的原因而有规律地存在的度量值的变化）两部分。无关但稳定的方差就是所谓系统误差带来的方差：

式中，代表有关方差；代表无关但稳定的方差。将式（2-3）代入式（2-2），可得

因此，一组测验分数之间的方差是由有关方差、无关但稳定的方差和测量误差的方差3部分决定的。也就是说，造成测验分数变化的原因的三大来源：测量对象本身的变化、量具的精度造成的系统误差、量具使用中造成的随机误差。

信度是效度的必要条件，但并不充分，效度要进一步解释经验水平的指标与理论概念的联系。因此可以把效度大体上分为两大类：一类是经验效度，这是比较普遍的一类，它的主要表征为一些可观测变量之间的关联程度，因此，这类效度通过分析两个或两个以上变量之间的关系，可以用一些观测变量预测另外一些观测变量；另一类是理论效度，它主要表征观测变量与理论概念之间的关系，这些理论概念往往是潜在变量，不可直接观测。

2.3.2　各种人才测评技术的效度比较

大量人事选拔的有效性研究表明，在人事选拔中，各种人才测评技术的效度是不一样的。墨菲（Murphy，1997）发现不同的预测源适合预测不同的效标，如能力适合预测个体任务绩效和有关技术熟练性方面的绩效；责任心适合预测组织公民行为；人格适合预测工作动机、团队合作、人际有效性等。

施密特和亨特（Hunter，1998）对17种人才测评技术的效度进行了分析，当选用总体工作绩效评定（一般是上级评定）作为效标时，这17种人才测评技术的预测效度从高（认知能力和正直测验的结合效度为0.65）到低（兴趣测验效度为0.10）存在不同的分布。在效度校正的研究方面，Eran发现高效度的人才测评技术包括结构化面试和认知能力测验，它们的平均校正效度超过0.45；中等效度的人才测评技术包括传记资料、非结构化面试、人格测验和正直测验，它们的平均校正效度在0.25～0.45；低效度的人才测评技术包括五大人格测验，它们的平均校正效度在0～0.25，其中效度由低到高依次为开放性、愉悦性、外倾性、情绪稳定性和责任心。

1986年至1998年，M.Smith在英国曼彻斯特理工大学对常见的人才测评技术的效度问题进行研究后公布了研究结果（见图2-2）。

图2-2　常见的人才测评技术的效度比较

根据两个比较有影响的元分析结果，各种人才测评技术的效度如表2-5和表2-6所示。效度是预测结果与实际工作绩效的相关系数。

表2-5　各种人才测评技术的效度比较（一）

表2-6　各种人才测评技术的效度比较（二）

尽管表2-5和表2-6不完全相同，但总体上是一致的。各种人才测评技术效度的高低与其应用的普遍性并没有必然的联系，也就是说，效度高的人才测评技术并不一定用得最多，如评价中心的效度最高，但其应用却不是最普遍的，而申请表的效度比较低，但其应用却非常广泛。不过这种状况正在发生转变，在人事选拔中，评价中心和心理测验的使用越来越多，就英国来说，1971年仅有11%的组织使用评价中心技术（Kingston）；到1986年，这个比例增加到了21.4%（Robert & Makin）；而到了20世纪90年代，有58.9%的组织在人事选拔的某个阶段使用了评价中心技术（Shackleton & Newell，1991）。当然，这并不是说申请表之类的方法正逐渐被评价中心等人才测评技术所代替，而是随着科技的发展，人才测评技术也正在传统方法的基础上不断地充实、完善，更全面深入地对候选人进行观察和了解，从而使选拔的准确性日益提高。

2.3.3　如何评估效度

随着效度概念的发展，效度评估理念也在发生着变化。早期的效度概念关注的是两个变量之间的相关，随后关注重点转向效度的多种类型，后来则注重考查测验的构想效度。当前，效度验证被看作一个持续不断的动态过程，在这个过程中，运用各种技术不断地评价、质疑和检查由测验分数进行推论和解释的有效性。根据传统效度评估方法的不同，效度可以分为内容效度、效标关联效度和构想效度3类。下面对这3类效度及其评估方法分别加以介绍。

1. 内容效度

1）内容效度的定义

内容效度是检查测验内容是不是所要测量的行为领域的代表性取样的指标。在实际工作中，我们编制的测验不可能包含所要测量的行为领域的全部材料或情景，因此只能选择一个有代表性的样本，通过观察应试者对个别题目的反应，来推测他的总体行为表现。因此，取样的恰当性就是影响测量效果的一个重要因素。如果选择的题目偏重于某部分内容，或者过难或过易，就会使测验难以对目标行为或特点进行准确、全面的测量。

2）内容效度的评估方法

内容效度的确定一般没有可用的数量化指标，只能靠推理和判断来进行评估。较好的内容效度的测验依赖于两个条件：

（1）测验内容的范围明确。

（2）测验内容的取样有代表性。

因此，要保证良好的内容效度，应该从开始编制测验时就谨慎地选择合适的测验题目。

内容效度的评估方法通常是由专家根据测验题目和假设的测验内容范围进行系统的比较和判断的。如果专家认为测验题目恰当地代表了所测内容，则测验具有内容效度。这种评估方法的主要问题：缺乏一种数量化指标来描述内容效度的高低；不同专家的判断可能不一致；如果测验内容的范围缺乏明确性，会使效度的判断十分困难。

为了使内容效度的评估过程更为客观，可以依次采用如下步骤。

（1）确定总体范围，即描述相关的知识与技能及所用材料的来源。

（2）编制双向细目表，确定内容和技能各自所占的比例，并由测验编制者确定各题目所测的是何种内容与技能。

（3）制定评定量表来测量测验的整个效度及其他特点，如测验包括的内容、技能、材料的重要程度、题目对内容的适用性等，由每位评价者在评定量表上做出判断，总结获得测验内容效度的证据。

3）内容效度的应用

内容效度比较适合评估教育和职业成就测验。在这种测验中，通过对内容效度的评价可以回答两个问题：一是该测验是不是考查某种技能和知识的代表性样本；二是该测验的成绩是否不受无关因素的影响。其中，内容效度对效标参照测验尤为重要，因为在效标参照测验中，应试者的表现往往通过测验内容来解释。效标参照测验应用的基本条件是具备足够的内容效度。

内容效度也适合评估某些用于选拔和分类的人事测验。在这种测验中，测验内容是实际工作的一个样本，应包含实际工作需要的技能和知识。在这种情况下，应该通过内容效度的分析来确定测验是否测量了实际工作中需要的知识和技能。

内容效度的评估一般不适合能力倾向和人格测验。能力倾向和人格测验不太要求测验题目与所取样本的行为领域的内在相似性，其测验题目的选择更多地受某种假设的指导，这种假设的正确与否由测验的其他效度形式来确定。此外，能力倾向和人格测验与成就测验不同，前者不是建立在某种教学课程或工作知识与技能的基础上的。在对相同测验题目做出反应时，每位应试者使用的方法和心理过程是不同的，同一测验对不同的应试者来说，测量的是不同的心理过程。在这种情况下，不可能由检查测验的内容来确定测验测量的功能。

2. 效标关联效度

效标关联效度也称效标效度，它反映的是测验分数与外在标准（效标）的相关程度，即测验分数对个体的效标行为表现进行预测的有效性程度。

效标是考查测验效用的外在参照标准。例如，一个机械能力倾向测验，其效标可以是某人成为机械师后的工作表现；对于一个管理能力测验而言，其效标可以是某人将来管理工作的绩效。效标效度往往用于预测性测验，在这种测验中，根据测验分数做出的预测一般用于甄选决策。所以，只有当测验分数确实能够预测所需研究的行为表现时，这种决策才可能是正确的。

效标效度主要考查测验分数与效标的关系。因此，效标效度也可以定义为测验分数与效标的相关程度。效标材料可以在与测验开始实施时间大致相同的时间获得，也可以在测验实施很长时间后获得。根据效标材料的收集时间不同，可以将效标效度进一步分为预测效度和同时效度。

1）预测效度和同时效度

预测效度的效标材料往往是测验结束后隔一段时间才获得的，它反映的是测验分数对任一时间间隔后应试者行为表现的预测程度。预测效度适用于对人员进行选拔、分类和安置的人事测验，这些测验需要对应试者未来的工作绩效进行可靠的预测。

通常用追踪法来评估预测效度，具体可通过长期观察、积累材料，以衡量测验结果对应试者未来表现的预测能力。例如，可以对应试者进行长期观察，获得他们隔一段时间后的工作绩效的情况，然后看测验分数是否正确预测了他们的工作绩效。

同时效度的效标材料可以和测验分数同时收集。有时，同时效度可以替代预测效度，因为当测验施测于已存在有效效标材料的团体中时，就不必经过一段时间后再进行比较。例如，大学生的测验成绩可以与其在学校的功课成绩直接比较，选拔测验的得分也可以与应试者在现在工作中的绩效进行比较。因为同时效度的评估不需要长期追踪，所以应用更为普遍。

同时效度和预测效度的差异的根源不是收集效标的时间，而在于测验目的的不同。前者多用于诊断现在的状态，后者多预测未来的结果。这种差异可以用两种不同的询问方式来说明：

（1）“某人成功了吗？”“某人患病了吗？”

（2）“某人会成功吗？”“某人会患病吗？”

第一类问题属于具有同时效度性质的测验要求回答的问题；第二类问题属于具有预测效度性质的测验要求回答的问题，针对的是未来会发生的情形。

2）效标和效标测量

效标是衡量测验有效性的参照标准，是一种可以直接、独立测量的行为。换句话说，要测量效标，就必须把效标行为转化为某种可以操作的测量指标，以便进行比较。这种可操作的测量指标就称为效标测量。因此，从效标的概念来看，其可以细分为观念效标（效标的实质概念内容）和效标测量（效标的具体测量方法）。例如，对于用于筛选销售人员销售技巧的测验而言，其观念效标是“销售工作的成功”，而效标测量往往用“年销售量”来表示。

效标测量要求能真正反映效度，即它们的相关要高。例如，技术水平可以作为某种机械能力倾向或职业选拔测验的观念效标。如果产品主要由个人的技术水平决定，而与工作环境和个人的其他因素无关，那么产品数量可以作为技术水平的效标测量。另外，效标测量还必须具有较高的信度。

效标测量的一个重要特性是客观性。首先，避免偏见的影响，尤其当效标测量是等级评定时，可能会受评价者印象或成见的影响。其次，应防止效标污染。效标污染是指由于评价者知道测验分数而影响个人的效标成绩的情形。为避免效标受到污染，应该注意不让评价者看到测验分数，等效标评定材料收集完毕后再公布分数。这样可以保证效标测量结果与测验分数的独立性。例如，一方面要评价管理者的管理技能，另一方面要评价管理者的管理业绩以作为效标，但在效标评价时，由于评价者知道管理者的管理技能评分，因此影响其对管理者业绩的评价。所以，最好将这两种评价分开操作。

3）常用的效标

由于每个测验的用途不同，因此会有不同的效标。常用的效标有以下几种。

（1）学术成就。这种指标常作为智力测验的效标，其逻辑假设是智力高（以高IQ分数为标志）的人，其学术成就也应当越大。常见的效标还有在校成绩、学历、标准成就测验分数、教师对学生智力的评定、工作中的研究成果、有关的奖励和荣誉等。这些指标属于对学术能力倾向测量的精确描述，因此，也可以作为某些多重能力倾向测验和人格测验的效标。

（2）特殊训练成绩。能力倾向测验常用的效标是应试者在将来某种特殊训练中取得的成绩。例如，机械能力倾向测验的效标可以是在工厂的技术培训中的成绩。以特殊训练成绩作为效标，其测量值往往采用完成训练后的某种成就测验的成绩、正式安排工作的等级、指导教师的评定等指标。多重能力倾向测验常采用学校中类似课程的成绩作为效标的测量值。例如，言语智商以语文成绩作为比较标准，空间视觉能力以地理成绩作为比较标准。

（3）实际工作表现。在许多情况下，比较令人满意的效标是实际工作表现，这种效标可用于起选拔作用的一般智力测验、人格测验及能力倾向测验等。

（4）团体对比。采用团体对比法确定测验有效性的方法：用两个在效标表现上有差别的团体，比较他们在预测源分数上的差别。例如，一个音乐能力倾向测验的效度，可以由比较音乐学院学生的分数与一般大学生的分数而获得；一个机械能力倾向测验的效度可以由比较机械学院学生的分数与一般大学生的分数而获得。这种对比团体几乎可以在任何效标的基础上进行选择，如学校成绩、评定或工作表现，也可以使用现行的类别（如不同的级别、岗位、部门之间的对比）。团体对比法在人格测验中很常用，如社交特质测验的效度可以比较推销员或行政官员的测验成绩和工程技术人员的成绩之间的差别。各种职业团体的比较常可作为兴趣测验的效标，而有些态度量表也常通过不同政治、宗教、地理的团体对比来确定效度。

（5）等级评定。等级评定往往由应试者的老师、同学、上级、同事等观察者进行。这种评定不局限于对应试者某种成就（如工作绩效）的评定，可以包括观察者根据测验所要测量的心理特质在应试者身上的表现而做出的一种个人判断。例如，对应试者的支配性、领导能力、诚实性、独创性或智力等进行评定。等级评定可以作为任何测验的效标，尤其适合人格测验，因为人格测验的客观效标很难找到。虽然这种评定是主观的，但只要在严格控制的条件下，它仍不失为效标材料的有效来源。

（6）先前有效的测验。一个新测验和先前有效的测验的相关经常作为效度的证据，这种效度叫作相容效度。当新测验只是现有有效测验的简式时，现有有效测验的成绩完全可以作为一种效标。同样，纸笔测验可用效度已知的操作测验成绩作为效标；团体测验可用个体测验作为效标。必须指出，只有当新测验比先前有效的测验更简单、更省时、更经济时，才能用先前公认的有效测验作为效标。

3. 构想效度

测验的构想效度是指测验能够测量到理论上的构想或特质的程度。构想通常指一些抽象的、假设性的概念或特质，如智力、创造力、言语流畅性、焦虑等。这些构想往往无法直接观察，但是每个构想都有其心理上的理论基础和客观现实性，都可以通过各种可观察的材料加以确定。例如，言语流畅性可以通过语速、语句间的逻辑性、口误的次数等可观察的指标进行确定。构想效度关注的问题：测验是否能正确反映理论构想的特性。例如，一项言语流畅性测验测量的是不是真正的言语流畅性，是否对言语流畅性的理论概念中包含的所有特点（如语速、语句间的逻辑性、口误的次数等）进行了测量。

1）确定构想效度的步骤

一般而言，确定一个测验的构想效度包括以下3个基本步骤。

（1）建立理论框架，以解释应试者在测验上的表现。

（2）依据理论框架，推演出各种与测验成绩有关的假设。

（3）以逻辑和实证的方法来验证假设，根据某些累积材料决定某种理论是否能恰当地解释现有材料。如果不能做出恰当的解释，则应该修正上述假设，直到能做出恰当的解释为止。

构想效度的确定过程可以用一个简单的例子来说明。例如，某人对创造力这个构想感兴趣，他假设那些具有创造力的个体与那些不具有创造力的个体有某些不同，因此可以建立一个理论（或理论体系）来说明那些有创造力的个体（或具有创造力构想的个体）的行为与其他人不同，从而使人们能够通过观察个体的行为和根据某种理论分类来辨别具有创造力的个体。如果希望编制一个测验来测量创造力，那么这个创造力测验必须具有构想效度，即测验分数与根据创造力的心理学理论观察应试者行为做出的判断相关。如果这种关系不成立，则该创造力测验缺乏构想效度的支持；如果关系不太大，可能有多种原因，如测验可能没有真正测量创造力，或者关于创造力的理论是错误的。如果测验分数与根据创造力的心理学理论观察应试者行为做出的判断相关很高，则表明测验具有构想效度。

由此可见，构想效度不是通过简单的逻辑分析或统计分析来确定的，而是通过从各种来源中逐渐累积资料来确定的。

2）常用的确定构想效度的指标

确定构想效度的一般方法可以分为以下几种。

（1）测验内部的方法，如采用测验内容效度、内部一致性等指标。

（2）测验间的方法，如采用相容效度、因素分析、会聚效度和区分效度等指标。

（3）效标效度的研究方法，如采用发展变化等指标。

（4）实验和观察方法，检验是否有构想效度。

常用的确定构想效度的指标如下。

（1）发展变化。智力测验中最常用的标准是年龄差异，通常是通过考查实际年龄来观察测验分数是否逐年增加。在儿童期，一般认为人的能力是逐年增强的，因此如果测验有效，则测验分数应该反映这种变化。所以，在验证智力测验的构想效度时，可以检查不同发展水平的儿童的表现。在工作中，人们的经验会随时间的推移而积累，所以如果要考查某项技能的效标，可以假定该技能在一定时间范围内是随从事该项工作的年限的增加而增加的。工龄增加，经验更丰富，技能增加，对组织的贡献也就增大，报酬自然也应该多。这个假定实际上也是年资工薪的理论基础之一。当然，这个假定并不是对所有的人在所有的时间段内都成立的，需要加以考查验证。

（2）与其他测验的相关。测量相同特质或构想的测验，彼此之间应该有高相关。因此，一个新测验与相似的旧测验之间的相关，可以作为衡量新测验测量相同行为的程度的标准。这种新旧测验的相关系数又称为相容效度。与效标效度不同，这类相关虽然较高，但不是特别高。如果一个新测验与现有的有效测验的相关很高，而且不是更简便或易于实施的，那么没有必要编制这个测验。与其他测验的相关还有另一种用途，就是表示新测验是否受到某些无关因素的影响。一般来说，测量不同特质或构想的测验之间的相关很低，因此一个能力倾向测验不应该和人格测验有高相关，学术能力测验不应该与管理技能测验有太高相关。

（3）因素分析。因素分析是确定心理特征的一种统计方法，比较适合用于构想效度的研究。通过因素分析可以找出测验中包含的特质。卡特尔就是通过因素分析的方法从一系列特质中归纳出16种共同特质，最终按照这16种特质构造成16因素人格测验的。

采用因素分析的方法对材料的构想效度进行分析：首先对测验的所有项目进行因素分析统计，抽取出能够解释测验结果的大部分变异的共同因子，这些共同因子可以用来对测验的组成进行描述，然后比较由这些共同因子描述的测验组成是否与测量目标（某种特质或能力）的理论构想一致。

（4）内部一致性。有些测验，尤其是人格测验，多以内部一致性作为构想效度的指标，这是因为如果测验的所有题目被验证为具有很高的内部一致性，则说明它们都是关于同一内容的，符合同一种构想。一般来说，这种方法常以测验的总分为标准，有时也用获得不同总分的应试者的差异为标准。用来考查内部一致性的方法主要有以下3种。

• 考查总分较高和较低的两类人在各题目上的通过率大小，比较每道题目上总分最高的27%的应试者与总分最低的27%的应试者，如果前者在该题上的通过率显著大于后者（一般要求在30%～40%），则认为题目是有效的，否则应淘汰或修改。

• 计算题目与总分的相关，如未达到显著水准，则应淘汰；采用以上两种方法选择题目，其结果的内部一致性必然较高。

• 求分测验与总分的相关。例如，许多智力测验大多包括多个分测验（如词汇、算术、推理等）。在编制这种测验时，常要求各分测验与总分有显著相关，如果这一相关未达到显著水平，则应删除。

（5）会聚效度和区分效度。坎贝尔指出，要确定一个测验的构想效度，则该测验不仅应与测量相同特质或构想等理论上有关的变量有高相关，而且应与测量不同特质或构想等理论上无关的变量有低相关，前者称为会聚效度，后者称为区分效度。这就是坎贝尔和菲斯克（D.W. Fiske）在1959年提出的构想效度的一种考验方法。例如，一个数学推理能力测验与数学课成绩的相关就是会聚效度，而该测验与阅读理解能力测验的相关很低，则该相关就是区分效度。因为在测验设计时，已将阅读理解能力作为数学推理能力的无关因素来考虑了。区分效度特别适合人格测验，因为人格测验比较容易受到各种无关变量的影响。

2.3.4　影响效度的因素

影响效度的因素有很多，包括测验、样本团体、效标、信度等。前面已经介绍了信度对效度的影响，现将前3种影响因素分别加以说明。

1. 测验

凡是能造成测验结果误差的因素都会影响测验的效度。一个测验的效度高低，很大程度上取决于该测验受无关因素影响的程度。受无关因素影响越小，则效度越高。由测验带来的影响因素有以下几点。

1）测验题目的质量

测验题目的指导语不明确、题目的表达不清晰、题目太难或太容易、题目中出现额外的线索、诱答设计不合理、题目过少、题目的安排和组织不恰当、题目不符合测验目的等，都会使测验的效度降低。

2）实施测验时的干扰因素

实施测验的环境太差、应试者不遵从指导语、记分错误等，都会使测验的效度降低。对于效标效度，效标获取的时间与测验的时间相隔越长，测验结果与效标的关系受无关因素的影响就越大，所求得的效度必定越低。显然，这些因素使得测验分数反映的不单是测验内容，而且有无关因素的干扰。

细心的读者会注意到，这些因素同样也会影响信度，因为它们会使测验结果波动不定。

3）应试者的影响因素

应试者的反应定势、测验动机、情绪和身心状态都会对测验结果造成影响，所以这些也会影响测验效度。

4）测验的长度

一般来说，增加测验的长度通常可以提高测验的信度，而效度系数能否达到最大值也受信度的影响，因此，增加测验的长度往往也能提高测验的效度。不过，效度增加的前提是这些增加的测验题目必须与测验的目标相关。

测验的长度对效度的影响可以用公式来表示：

式中，是测验的长度增长到原来的n倍后，测验（X）与效标（Y）的相关系数（增长后的效度系数）；n为测验的长度增长的倍数；rxy为原测验的效度系数，rxx为原测验的信度系数。根据公式可以推知，要达到满意的效度水平，测验的长度需要增加几倍。

2. 样本团体

效度往往是通过对样本团体的测验分数进行各种分析而得到的，所以样本团体的性质也会对测验的效度产生影响。这种影响体现在以下3个方面。

（1）同一个测验对不同的团体测量的功能可能是不同的。例如，同一个算术测验，对于能力较差的应试者可能测量的是数学推理能力，但对于能力较强的应试者，可能测量的只不过是对以前所学内容的回忆能力和计算能力。在评价效度时，我们要力求使样本团体的性质与所要测量的团体的性质尽量相似，这样求得的测验效度才会较高。

（2）对于同一个测验，样本团体的性质不同，效度也会有较大的差别。样本团体的性质包括年龄、性别、教育水平、智力水平、动机水平、职业等有关特性。同一个测验对不同性质的团体可能有不同的预测能力，因此我们将这些对测验的效度产生影响的因素称为干涉变量。例如，对出租车司机实施能力倾向测验后发现，测验成绩与司机的工作成绩的相关仅为0.20，这是相当低的预测效度，但是当把对开车有兴趣的司机抽取出来单独计算效度时，却发现效度为0.60。这说明该测验虽然对所有司机的工作成绩没有预测能力，但对于“有工作兴趣的司机”这一亚团体却有较好的绩效预测能力。在这个例子中，兴趣就是一个干涉变量。

在进行效度分析时，必须将影响效度大小的干涉变量找出来。美国测量学家吉谢利（E.E. Chiselli）提出了一种确定干涉变量的方法，其步骤如下。

• 用回归方程求得团体的预测效标分数，将其与实际效标分数相比较，可以得到差数D，如果D的绝对值很大，说明测验中可能存在干涉变量。

• 根据样本团体的构成选择不同的对照组进行分析，分别计算效度，从而找出干涉变量。

• 根据干涉变量将想要测量的团体分为高预测性和低预测性两个亚团体，高预测性团体获得的测验的效度较高。

（3）样本团体的异质性对效度也会有影响。用相关系数表示的效度系数会受到样本团体分数分布的影响。如果其他条件相同，那么样本团体越同质，效度越低；反之，效度越高。

3. 效标

在采用效标效度时，效标的性质会影响测验效度的高低。一般来说，如果其他条件相同，测量的行为或心理特质与效标行为或特质越相似，效度值就越高。例如，假设我们要进行一项管理能力测验，现在要为这个测验选定效标。也许有人会考虑采用以下效标来源：学历、升入现任职位的速度（年限）、近三年管理工作的业绩、同行的评价、上司的评价等。显然，这些效标与测验内容的同质性并不高，将测验分数与它们求相关时，得到的效度值的大小也就不同。

另外，效标与测验分数之间是否线性相关也是皮尔逊积差相关的重要影响因素。因为，皮尔逊积差相关的前提条件是，两个变量的关系是线性相关的。如果测验分数与效标之间的关系是非线性相关的，采用皮尔逊积差相关将会低估相关的程度，造成效度偏低。

2.3 人才测评的效度

2.3.1 效度的概念

2.3.2 各种人才测评技术的效度比较

2.3.3 如何评估效度

2.3.4 影响效度的因素

2.3　人才测评的效度

2.3.1　效度的概念

2.3.2　各种人才测评技术的效度比较

2.3.3　如何评估效度

2.3.4　影响效度的因素