CTT是现代人才测评技术的理论基石

作者：益才发布时间：2024-06-14

现代人才测评通常采用心理学、管理学、统计学、认知心理学等学科的理论和方法，通过一系列标准化、规范化的操作流程，对个体进行科学、客观、准确的评估。其特点主要体现在以下几个方面：

人才测评的科学性主要体现在其严谨的理论基础和科学的方法论上。它结合了心理学、管理学、统计学等多学科的理论，通过系统的方法和标准化的流程来评估个体的能力、性格、潜力等特质。这种科学性的基础保证了人才测评的准确性和可靠性，使得测评结果能够客观地反映被测者的真实情况。

人才测评的客观性体现在其评估过程中的公正性和中立性。它不受主观偏见和人为干扰的影响，通过标准化的操作流程和评分规则，确保对每个被测者进行公平、一致的评估。客观性使得人才测评的结果更加可信，能够为组织提供准确的人才信息，为人才选拔、培养和激励提供有力的支持。

人才测评的间接性是指它通常不直接测量被测者的心理特质或能力，而是通过观察和分析其外在行为、表现或反应来间接推断其内在特质。这是因为心理特质往往难以直接观察和测量，需要通过其外在表现来间接评估。例如，通过面试、心理测试、模拟任务等方式来评估被测者的沟通能力、领导力、创新思维等特质。这种间接性的评估方式需要测评者具备丰富的经验和专业知识，以确保评估结果的准确性和有效性。

01经典测量理论（CTT）的发展

经典测量理论（Classical Test Theory, CTT）亦称“真分数理论”。20世纪初提出，至 50 年代臻于完善。该理论假设观测分数 X 是由真分数 T 及随机测量误差 E所组成，即 X= T+ E；误差 E 的平均数等于 0；误差 E 与真分数 T 间的相关为 0。根据这些基本假设，提出信度和效度的概念。信度等于真分数变异数与实得分数变异数之比。效度等于有效分数变异数与实得分数变异数之比。在此基本理论框架基础上，经典测验理论建立了自己的测验方法体系，推导了包括信度和效度在内的各种指标的计算公式，完善了测验的标准化程序，使整个测验过程建立在较为客观的基础上。

1998年真分数理论是最早实现数学形式化的测量理论。它从十九世纪末开始兴起，二十世纪30年代形成比较完整的体系而渐趋成熟。50年代格里克森的著作使其具有完备的数学理论形式，而1968年洛德和诺维克的《心理测验分数的统计理论》一书，将经典真分数理论发展至颠峰状态，并实现了向现代测量理论的转换。

所谓真分数是指被测者在所测特质（如能力、知识、个性等）上的真实值，即(True Score)真分数。而我们通过一定测量工具（如测验量表和测量仪器）进行测量，在测量工具上直接获得的值（读数），叫观测值或观察分数。由于有测量误差存在，所以，观察值并不等于所测特质的真实值，换句话说，观察分数中包含有真分数和误差分数。而要获得对真实分数的值，就必须将测量的误差从观察分数中分离出来。为了解决这一问题，真分数理论提出了三个假设：

其一，真分数具有不变性。这一假设其实质是指真分数所指代的被测者的某种特质，必须具有某种程度的稳定性，至少在所讨论的问题范围内，或者说在一个特定的时间内，个体具有的特质为一个常数，保持恒定。

其二，误差是完全随机的。这一假设有三个方面的含义。一是测量误差的平均数为零的正态随机变量。在多次测量中，误差有正有负。如果测量误差为正值，观测分数就会高于其实际的分数（真分数）；如果测量误差为负值，则观测分数就会低于其实际的分数，即观察分数会出现上下波动的现象。但是，只要重复测量次数足够多，这种正负偏差会两相抵消，测量误差的平均数恰好为零。用数学式表达为：E(E)=0。二是测量误差分数与所测的特质即真分数之间相互独立。不仅如此，测量误差之间，测量误差与所测特质外其它变量间，也相互独立的。

其三，观测分数是真分数与误差分数的和。即X=T+E。

在上述三个基本假设的基础上，真分数理论作出了如下两个重要推论：

第一，真分数等于实得分数的平均数（T=E(X)）；

第二，在一组测量分数中，实得分数的变异数（方差）等于真分数的变异数（方差）与误差分数的变异数（方差）之和。即（S²_X= S²_T + S²_E）。

02经典测量理论（CTT）大厦

经典测量理论在真分数理论假设的基石上构建起了它的理论大厦，主要包括信度、效度、项目分析、常模、标准化等基本概念。

（1）信度(Reliability)。

信度是测量理论中最重要的核心概念，指测量结果的一致性程度，亦称可靠性程度。在经典测量理论中信度被定义为：一组测量分数的真分数的方差（变异数）在总方差（总变异数）中所占的比率。

由于真分数的方差和误差分数的方差是无法获得的，因此这个信度概念还只是一个理想的构想的概念，不能直接计算。为了解决这一问题，CTT提出了平行测验(Parallel Test)的概念。所谓平行测验是指能够对同一被试的同一特质作相同准确测量的不同测验形式(测验题目)。如果某一测验有许多平行式，则某被试可以在每一形式上获一个观测分数，这样就产生了一个观测分数的分布，这一分布的平均值就称作该被试的真分数。实际上，平行测验是一个构想的概念，要在实际的测验的编制中实现是非常困难甚至是不可能的，最多也只能说是比较接近。

在平行测验假设的基础上，CTT提出了估计测验信度的一系列方法，如采用相关法进行重测信度(Test-retest Reliability)、复本信度(Equivalent-forms Reliability)、分半信度(Split-half Reliability)的估计，提出同质性的概念以保证反应的一致性，如克伦巴赫(Cronbachα)系数、库德和理查逊(G.F.Kuder & M.W.Richardson，1937)提出的估计一致性的两个公式K－R20公式和K－R21公式、荷伊特信度(Hoyt，1941)等都是进行同质性估计的重要方法。

(2)效度(Validity)。

测量的效度是指测量结果的有效性程度，也就是已测到的质和量与主试者欲测的质和量相符合的程度，有的也称效度为正确性。效度是任何一种测评必须解决的首要问题，因为有效性决定了一种对测量效度的考查是一个很复杂的问题，特别是对人的潜在特质的测量，因为潜在特质并不是一个看得见摸得着的物质实体，而是一种观念构想。对潜在特质的测量只能采用间接的方法，其测量模型可表示用行为主义的公式S－R表示，在测量过程中我们所能控制的是呈现给被试的刺激S，所能观测到的是被试在一定测量情景下对刺激S的反应R。而潜在特质是介于S和R之间的，在这一中间过程对S传入大脑的信息作出了处理，处理后的信息以R方式输出。简单地说，效度要弄清楚的是在S信号传入大脑后，哪种（哪些或最主要是哪一种）特质参与了对输入信号的处理。

CTT对效度问题提出了诸多解决方案，因而有很多效度名称。如，同时效度，预测效度，表面效度，效标关联效度，实证效度，等。为了规范效度问题的研究与解释，美国心理学会在1974年将测量的效度分为三大类，即，内容效度(Content Validity)，是指测验的内容对欲测范围内内容的代表性程度；结构效度(Construct Validity)，测量结果与测验的理论假设之间的一致性程度；效标关联效度(Criterion-related Validity)，又称实证效度，指测量的结果与某种外在效标之间的一致性程度，一般用测验分数与效标之间的相关系数表示。

成就测验或学科测验（以检测知识为主的考试）较容易获得较高的内容效度，而对这类测验也往往注重考察它们的内容效度。对于能力测验、个性测验、态度测验、品德测评等，其内容效度的考察往往比较困难，而采用效标关联效度较多。效度的检验不是一次就能完成的，往往要通过累积证据的方法不断积累效度资料来证实它的有效性，结构效度在根据某一理论结构模型（智力、个性等）编制测验时特别注重，它也是通过累积证据的方法来效度获得支持的。

(3)项目分析(Item Analysis)

为了提高测验的信度和效度，CTT理论特别注重测验项目的质量，除了深入研究试题的类型和功能及编制技巧外，还发明一系列筛选、甄别项目的方法，统称为项目分析，其中最主要的是难度分析和区分度分析。项目难度的主要指标是通过率，即在该题上答对的人数与全体被试的比率（或平均得分与该题满分的比率）。仅难度还不足以说明题目质量的优劣，CTT还提出以题目对被试水平区分鉴别能力作为评价试题质量的区分度概念。

(4)常模(Norm)

CTT理论认为，仅从测验试卷上的得分不能获得被试个体确切地位的信息。为了对测验的分数进行合理的解释，提出常模的概念。所谓常模即是从某一总体中抽取的被试样本在该测验上得分的分布，以常模团体的平均数（或中位数）为参照点，将个体的分数标定在高或低于参照点的某一位置以确定该被试在团体中的相对地位。这种标定可以通过原始分数(Raw Score)转换成量表分(Scale Score)，或称导出分数。

CTT将这种类型的测验称为常模参照测验(Norm-referenced Test)，与此相对应的称为标准参照测验(Criterion-referenced Test)，其测验分数的解释与转换方法有所不同。

(5)标准化(Standardization)

所谓标准化是指对测验实施程序、对象范围、施测环境、测试方式、测验时限、分数解释（常模）作了统一的规定，使测验能够在异时、异地，不同的主试等条件下进行，并能得到同等有效的测验结果。标准化的思想主要来自于自然科学中对实验条件进行严格控制以降低测量误差，其方法主要源自实验心理学中对无关变量和干扰变量控制的方法。

03经典测量理论（CTT）的价值

在20~21世纪大部分年代里，教育和心理测量的理论与实践一直建立在CTT理论的基础上。CTT理论即真分数模型是以弱假设为基础的，因此这些假设容易验证并易于被绝大多数测验数据资料所满足。CTT理论在此基础上建立了一整套理论及统计分析方法，便于在实际测验情境实施，是目前测验学界使用与流通最广的理论依据。在测验实际工作中有着强大的影响力，发挥着重要的指导作用。

CTT理论在人才测评提供了坚实的理论基础。通过真分数模型（X=T+E），揭示了观测分数、真分数和测量误差之间的关系，使得人才测评能够基于科学的理论框架进行。

CTT理论明确提出了信度和效度的概念，为人才测评提供了评价标准和依据。通过评估测评工具的信度和效度，可以确保人才测评结果的可靠性和有效性。

CTT理论推动了人才测评的标准化进程。通过制定标准化的测评流程和评分规则，可以确保对每个被测者进行公平、一致的评估，提高人才测评的客观性。

CTT理论为人才测评实践提供了指导。在测评过程中，可以根据经典测量理论的原则和方法，选择适当的测评工具和技术，制定科学的测评方案，提高人才测评的科学性和准确性。

CTT理论作为人才测评领域的基石之一，其发展和完善推动了人才测评技术的进步和创新。通过不断研究和实践，可以探索更加科学、有效的人才测评方法和技术，为组织提供更加准确、全面的人才信息。