心理测量学小词典最全催眠百科知识介绍

催眠百科

心理测量学小词典（小词典）

心理测量学小词典

第一部分：概念词条

比率量表(ratio scale)：量表类型之一。能够精确反映所测量事物的差异，并用相同的计量单位表示差异，相差多少可以用比率表示，如握力测验就是比率量表，握力测验结果用公斤计量，差异精确，可以说20公斤比10公斤多10公斤，也可以说20公斤是10公斤的2倍。比率量表有绝对零点，对结果可以用几乎所有统计方法进行处理，是高级的精确测量量表。常用于心理物理测验。

比率智商(ratio intelligence quotient）：表示智力水平高低的心理测量指标。计算儿童的智力年龄与实际年龄的比率求得。计算公式为：比率智商一（智力年龄／实际年龄）X 100。比率智商的特点是将个人智力发展水平与年龄大小相比，从而反映出智力发展是否与年龄发展平行或退后或提前，由此判断智力发展水平。

标准化测验(standardization test)：按心理测量技术要求编制的心理测验。心理测量技术包括测验项目筛选、有统一和标准的测验实施方法，选取有代表性的样本，建立常模供测验结果的分析比较，通过必要的信度和效度检验。

表面效度(face validity)：从测验内容的表面判断测验是否有效地反映了所要测量的心理特征。当测验的实施者和被测者认为某测验有效时，就表示该测验具有表面效度。表面效度不是检验效度的客观指标，也不是真正意义上的效度，但它对测验参与者的动机和情绪有影响。如果被试在主观上感觉测验与测验目的无关或简单幼稚，会缺乏参与完成的动机，不合作，马虎了事，甚至拒绝。但在某些人格测验中，过高的表面效度，被试一看便明了内涵，也会使被试掩饰回答增加。过低或过高的表面效度都会降低测试的实际效度。

操作测验(performance test)：通过动手操作或作业方式完成的测验，如智力测验中的图片排列，图案设计、图形推理、数字符号（译码）、迷津测验等。着重测量观察能力、动作敏捷性、顺序推理能力，视觉空间知觉与组织能力，眼手协调能力等。

测量误差(measurement errors)：心理测验理论认为，测量分数会由于样本、被试动机、注意力等各种原因在不同时间和情境中变动，产生偶然误差。引起测量结果变化或不一致的偶然误差，即为测量误差。在实际应用中以测量标准误表示。测量标准误可以理解为多个测验样本分数的标准差，是反映真正分数的分布范围（统计学称离散程度）的指标。测量标准误用途非常广泛，如估计测验分数的范围和置信水平，做为评价信度的指标，比较两个测验分数差异是否显著等。

测验标准化（test standardization)：从测验的编制开始到测验的实施和评分解释等过程按照统一标准和要求进行，减少无关因素对测验的影响，保证测验的客观性和准确性，使测验结果有参照标准和具可比性。标准化过程和内容包括：①由专家选择编制统一的测题；②制定标准的测验指导语，规定时限和特定的测验环境；③编写详细的评分标准与说明；④有代表性的常模，即供分析比较的参照标准；⑤检验测验项目难度、区分度、信度与效度；⑥编写测验手册，按统一的标准实施测验。

测验法(test method)：心理评估方法之一。心理评估的方法包括观察法、谈法和测验法。测验法指运用各种心理测验方法评估人的心理特征和状况。常用测验方法包括智力测验，人格测验，能力测验、神经心理测验和心理症状评定量表等。

测验分数(test score)测验分数即通过测验获得的分数，通常有两类，一类是原始分数(row score），即从测验直接获得的，末做加工处理和转化的分数，如被试在能力测验中算术的正确数和词汇的正确数等。原始分数单位不统一，缺乏解释的参照点，不便解释和进行比较。因此，实际应用时常将原始分转换为另一类分数，即量表分，也称为导出分。常用量表分如各种标准化测验常用的Z分、T分、智力测验中的离差智商、百分位数等。

测验焦感（test anxiety）：指被试在测验前和测验时产生的紧张、优虑和恐惧的情绪。同时伴随生理活动变化、如心跳加速、呼吸加快，出汗等。测验焦虑的发生与缺乏自信、抱负水平或期望值过高而能力较低、被试认为测验意义重大而又不熟悉测验等因素有关。适当焦虑有积极作用，有助于提高兴奋性，增强注意力与反应力，提高测验成绩；过度焦虑则起到消极作用，使注意狭窄或分散、思维不灵活、运动不协调等，影响被试发挥真实水平，降低测验成绩。

测验手册(test manual)：有关测验的指导说明书，凡是标准化测验都会提供。内容主要包括：测验目的和功能，测验编制理论基础，测验取样的情况，分析比较结果的常模，实施指导、评分方法与标准信度和效摩资料。

测验项目（test item）：构成测验的题目或条目。例如数学能力测验中的数学运算题；词汇测验中的词汇；人格测验问卷中的问题；症状评定表中的症状条目。

常模（norm）：心理测验时用于比较和解释测验结果的参照分数标准。根据有代表性人群样本的测验结果制订。根据样本来源和大小划分，通常有全国常模，区域常模和特殊常模，根据具体应用标准和分数特征可有：①平均数常模；②百分数常模；③标准分常模，包括Z分、T分智商等。

常模参照性侧脸(norm referenced test)：用常模分数做参照比较标准解释个人测验分数的一类测验，例如智力测验，成就测验、能力测验和人格测验等，常用常模参照标准如Z分、T分智商、百分位等。

常模参照测验主要以一个人的分数在常模团体中所处的相对位置来解释结果，关心被试的成绩是否位于所属人群的平均水平，或平均水平以上，或平均水平以下，并排列个人成绩在团体中的位置。适用于能力比较、发展水平比较和人格评估等。

称名量表(nominal scale)：量表类型之一，也称为类别量表。用数字标记代表事物或对事物分类，如用“1”代表男性，“2”代表女性。这里的数字，只作标记，并不表示大小或多少，称名量表适用于统计事物的频数和百分数。

导出分数（derved score)：导出分数是由原始分数或粗分数换成的标准分数。由于不同测验直接得到的原始分数单位不一致，不能清楚反映出个体测验成绩或操作水平的高低，原始分数之间也无法相互比较，因此导出分数采用统一单位（标准差）将原始分数经过计算转换成标准分，使分数有共同参照点，便于较比和解释。常见导出分数有2分，T分和百分位数等。

等距量表（equal-interval scale)：量表类型之一。等距量表不仅能反映出测量事物的差异，还用等距的单位表示差异。例如，用IQ分数表示结果的智力测验被认为是一种等距量表。这里，IQ90-100之间的差别相等于IQ100-110的差别。很多心理测验都是以等距量表的形式编制的。

等值复本(equivalent forms)：见平行测验。

多项选择法（multiple choice method）：测验题目形式之一。通常由题干（问题）和选项（对间题的多个选择回答）组成，即在每个问题后，列出多个选择回答，通常有4个选择回答，但其中只有一个回答是正确的。多项选择法评分客观，适用范围广，从一般知识到复杂能力测验均适用，特别适用于团体测验。

分半信度(split-half reliability)常用信度检验方法之一。反映测验项目内部一致性程度，即表示测验测量相同内容或特质的程度。具体分析是在测验后将测验项目分成相等的两组（两半），通常采用奇偶分组的方法，即将测验题目按序号的奇数和偶数分成两半，然后计算两组项目分之间的相关。相关高表示信度高，或内部一致性程度高。

概化理论（generalizability theory)：心理测验领域中有关测验信度推论的理论。概化理论认为，测验所得分数来自于测查总体样本中的一个有代表性的样本，反映了所测查心理特征对样本分数的信度估计，概括了总体分数，可以推广用于总体分数和信度估计。根据样本结果对总体作推论的能力，称为概化能力。

概化的另一个含义是，通过测验观察到的心理特征在实际情境中也能同样存在。如在通过测验观察到的阅读能力，在课堂上也能同样反映出来，可以根据测验结果概括和推测个体的心理特性。

个别测验(individual test)：指以个别方式进行的心理测验，即一个主试者对一个被试者进行测验。具有代表性的个别测验有早期的比奈一西蒙智力量表和后来发展的韦氏智力量表。个别测验通过向被试提间，要求完成某些操作任务等方式进行，如回答常识问题和算术问题，用木块拼出指定图案等。个别操作测验可以较全面观察被试都在测试中的反应和行为特征，深人分析测验结果，但测验费时，对主试者的条件要求高。

构想效度(construct validity)：亦称结构效度，检验测验在多大程度上正确反映编制测验的理论构想。编制一套测验，往往针对所要测量的心理特征提出理论上的构想，例如，编制智力测验，针对智力特征提出以下理论构想：1.智力随年龄的增长而发展；2.智力高低与学习成绩成正相关；3.脑损伤会影响智力发展；4.智力涉及多方面的能力。检验一个智力测验的结构效度，可以分析智力测验结果是否有年龄间的差异？是否与学习成绩相关？脑损伤与正常人之间的智力差异是否显著？因素分析能否证实代表不同能力因子的存在？结构效度检验常通过相关分析、因素分析和年龄间差异比较等方法进行。

合成分数（composite score）：合成分数指将若干测验的分数通过计算得到的综合分，常见于成套测验的分数。如韦氏智力量表测验的智商，便是综合若干分测验分数得到的，为典型的合成分数，另如90项心理症状核查表（女L-90)的总平均分等。

鉴别指数(discrimination index)：一个好的有效测验应该能区分能力强与能力差的被试，鉴别指数就是检验测验项目鉴别力的方法。做法是根据检验成绩总分将被试者排队，取27％高分端的受试者组成高分组，另取27％低分端的受试者组成低分组，然后比较高分组被试者在该项目的的通过率，用公式表示为：D=PH-PL.式中，D=鉴别指数，PH-高分组的项目通过率，PL=低分组的通过率。根据D值大小了解每个测验项目的区分力，D值越高表示区分度越大。

交叉效度分析（cross validity）：同一测验用于不同样本时的效度分析即交叉效度分析。由于单一样本存在取样误差的可能，此时得到的效度可能并不真实，需要通过对不同样本进行效度分析，进一步证实。曾有例子说明对一个样本统计分析表明测验有较高的效度之后，在另一个样本不能证实第一个样本发现的效度结果，提示一个样本的效度有可能与抽样有关，因此，测验效度需要用不同样本的检验证实，即进行交叉效度分析。

克伦巴赫α系数（cronbach's α系数）：测验信度分析的方法之一。检验测验项目的一致性程度，即题目与题目之间的一致性关系。适用于多重记分的项目，如某种态度量表的项目记分有经常、有时、偶尔和从不4个等级，对这种采用多重记分的题型，不宜用分半相关法，而要采用克伦巴赫α系数。

客观测验（objective test）：测验项目由客观题组成的一类测验。客观题指计分客观，事先规定好标准答案（记分键），评分时没有评分者的主观和随意判断。常用客观题有是非题、填空题和多项选择题等。绝大部分心理测验都属于客观测验，如韦氏智力量表、明尼苏达多相人格问卷、90项心理症状核查表等。

客观题（objective item）：测验题目的一种类型，其特点是计分的客观性，即在测验前就规定好测验题目的正确答案，严格按标准（记分键）记分，评分时没有评分者的主观判断。常见题有多项选择题、填空题、是非题、匹配题等。应用最广的是多项选择题。

库德·理查森检验（Kuder Richardson test）：计算分半信度系数的方法之一。属于内部一致性检验方法，用于检验测验项目同质性程度，即是否所有项目都测量同一个心理特性或特质，测量的内容是否一致。库德理查森检验方法的特点是根据被试在每道题目的得分进行计算，适用于二分法（如正确与错误，通过和未通过）记分的项目。

跨文化测验（cross-culture test）：在考虑到不同国家，民族、语言和生活环境等差异基础上，为适应不同文化背景编制的一类测验。这类测验在材料方面多选择非文字测验材料，如对图形分类、图形匹配和推理、绘图等；在内容方面尽量选用不同文化人群都熟悉的内容，测验材料和内容较少受文化背景和语言差异等影响。常见方法有“卡特尔文化公平智力测验”，“瑞文渐进图形测验”和“绘人测验”等。

离差智商(deviation intelligence quotient）：表示智力水平高低的心理测验指标。由美国心理学家韦克斯勒创立。离差智商的特点在于将个人智力测验成绩与同龄人群的智力测验平均成绩相比，反映个体智力水平在同龄人群中的位置或智力水平高低。离差智商可以用于计算所有年龄人群的智商。所谓“离差”，指将个体智力测验成绩与同龄人群的平均成绩相比，计算个体成绩距离平均成绩的差异，并用标准差做为衡量差异大小的单位，即判断“离平均成绩差多少”，在此基础上建立公式计算的智商即为离差智商。

离差智商计算公式为：离差智商=(X-M/SD) X15+100。

式中，X=个人智力测验成绩；M=同龄人群的智力测验平均成绩；SD=标准差；15=标准差单位大小；100=常数（基数）

量表值（scale value）：亦称量表分(scale score)，指由测验所得原始分数（粗分）转换成的量表分数。由于测验的原始分数没有参照点，意义不明确，单位也不一致，难以相互比较。因此，通常采用标准差做为分数的统一参照尺度，将原始分数转换成便于比较和解释的量表分。常见量表分有智力测验的离差智商和分测验量表分、人格测验的T分等。

临床测验(clinical test)：泛指临床心理学家常用于临床辅助诊断和心理评估的若干测验方法。有用于脑损伤和脑功能测查的神经心理测验，如VR神经心理成套测验、Benton视觉保持测验、Benton视觉运动格式塔测验；辅助智力低下诊断的智力量表，如韦氏智力量表，贝利婴幼儿发展量表；反映儿童行为问题的问卷；某些人格问卷，如明尼苏达多项人格问卷；还有精神症状评定量表等。

目标参照性浏验（criterion referenced test）：也称为效标参照测验，准则参照测验等。60年代由Glaser提出，其特点是解释测验结果的参照标准为预先设定目标或效标。以学生数学能力测验为例，目标参照测验判断测验成绩的参照标准是被试能做多少测验题，正确完成多少，是否达到了预定目标。

目标参照性测验在教育领域应用较广，如在教学中，预先规定不同层次水平的教学目标，并制定与目标相应的测验，测验结果的评估是否达到相应教学目标为准则，分析完成数量或百分数。效标参照测验方法可反映受试者的真正能力水平，能做什么，做多少。目标参照性测验也适用于心理治疗和康复治疗等的疗效评估。

内容效度(content validity)分析测验项目的内容在多大程度上代表了所要测量的心理特征。如编制一个记忆能力测验，测验题目应该能代表和反映记忆能力，这样才具有内容效度。内容效度检验主要是判断性的，通常由专家根据经验评估确定。

难度测验(power test)侧重反映被试能力水平的测验。难度测验的时间充裕，但其项目由易到难，困难难度越来越大，最后有一些无法解决的难题，几乎没有人可以得满分。这样的测验可以充分反映个体能力水平的差异。气

能力测验(ability test）：能力测验是测量个人能力的一类测验。通常包括一般能力测验和特殊能力测验。一般能力测验如智力测验；特殊能力测验包括音乐、美术、绘画、体育才能和机械操作技巧等特殊才能的测验。

平行测验(parallel test）：也称为平行复本或等值复本。所谓平行或等值测验，即两套具有同样效力的测验，其测量目的相同、基本方法相同、形式相同、记分相同，仅题目不同或内容表示不同。这两个等值的测验互为复本。例如，韦氏记忆量表的A式（甲式）和B式（乙式）两套，其B式就是A式的等值复本。

评定者误差（raters error)：测验误差之一，指由于不同测验评定者掌握评分标准和判断差异造成评分不一致所产生的误差，是检验测验信度时要考虑的一项指标，通常通过分析评分者信度检验评定者误差。

评分者信度(scorer reliability）：信度评估方法之一，检验评分者的评分一致性或误差大小。对于评估两个评定者对多份测验评分之间的一致性检验常采用积差相关或等级相关方法。如果评分者在三人以上，而且采用等级记分时，可采用肯德尔和谐系数(W)反映评分者信度。如果采用定性评定，即采用符合率（而不是分数）做指标，可采用Kappa分析。

迫选测验（forced-choice test）：迫选测验通常由若干成对的短句组成。要求被试在每对短句中选择适合自己特点的句子。下面是Edwards个人喜好量表中的迫选题：

A我喜欢向别人谈论自己。

B我喜欢朝自己既定目标努力。

要求被试在两个句子中选择最符合自己情况的句子。迫选测验形式常用于需要评估和倾向性分析，如Edwards个人喜好量表和罗特的内外控制感量表。

潜在特质理论(latent trait theory）：即项目反应理论，参见项目反应理论。

情境测验(situation test)：指在控制情境下观察被试行为的评估方法。如障碍间题情境测验，要求被试完成一项任务，但故意按排一些制造麻烦的人，造成困难和困境，观察被试在在挫折不断的情境中能否努力完成任务。此类测验常用于人才选拔。

区分效度（differential validity）：检验测验构想效度的方法之一。检验一个测验的构想效度，要检验两个假设：一是与测验相同特质的测验分数应该有较高的相关，如数学能力测验与数学成就测验间应有较高的相关。第一个假设的检验是会聚效度。二是测量不同特质的测验分数间应该是较低的相关，如数学能力测验与语文能力测验间应该相关较低。第二个假设检验的就是区分效度。

人格测验（personality test）：也称个性测验。测量个体行为独特性和倾向性等特征。最常用的方法有问卷和投射技术。问卷法由许多涉及个人心理特征的问题组成，进一步分出多个维度或分量表，反映不同人格特征。常用人格问卷有艾森克个性问卷(EPQ)、明尼苏达多相人格问卷(MMPI)和16项人格因素问卷(16PF)。投射技术包括几种具体方法，如墨迹图测验、逆境对话测验语句完成侧验等。

时限(time limit)：即测验的时间限制。常用于测查与反应速度有关的测验中。大多数操作测验都有时间限制。要求在规定时间范围内完成测验题目，超过限制将影响测验分数，被扣分或甚至不计分。

实证效度(validation validity)：即效标关联效度。将测验结果与效标进行相关分析，用实际标准证实测验的效度，如学业能力测验结果与学习成绩的相关分析便是实证效度检验。详见效标关联效度。

双盲(double blind)：科研或实验设计方法之一。在科研或实验工作中，为了避免主试者了解实验内容后生产期望效应等影响观察结果，也为了避免被试者了解实验内容后受启示等因来影响，让主试和被试双方在不知道的实验内容和意义的前提下进行实验。故称双盲。

顺序量表(ordinal scale)：量表类型之一，也称为等级量表。等级量表是将观测的事物按照一定原则分等级排序。如将学生按高矮顺序排序，分出高、中、矮，并依次量化为3、2、1。这里，数字包含有大小关系，但并没有相等单位，也没有零点。顺序量表反映了观察对象的相对位置或等级。

斯皮曼-布郎公式(Spearman-Brown formula)：计算分半信度系数的方法（公式）之一，检验测验的内部一致性。通常，计算分半信度系数时，测验愈长，条目愈多，系数就会愈大，因此必须修正条目数多少对系数大小的影响。斯皮尔曼一布朗公式就常用修正公式，调节测验长短对系度的影响。

速度测验（speed test）：指测查被试反应速度为主的测验。这种测验度试题的难度很低，使所有被试都有能力答对，但由于严格限制回答时间，没人来得及答完所有的题目。被试的测验得分高低或成绩完全依赖于其反应速度快慢。这种测验注重反映被试的反应速度而不是能力的高低。智力测验中的数字符号测验是速度测验。

特质(trait)：心理学中表示人的相对稳定的行为倾向性，是一个抽象的概念，主要与人格有关。特质概念最初由心理学家奥尔波特提出，他用语意和逻辑分析方法推测人的特质，并将特质解释为反映人的个性“心理结构”，是“个人所具有的神经特性”。心理学家卡特尔进一发展了特质理论，提出特质有代表个体外显行为属性和功能的表面特质，还有决定处显行为的根源特质。卡特乐采用问卷和因子分析法研究人的特质，分析出反映特质的16种人格因素。

虽然还有不少人对特质进行了研究并有新的见解，但到目前为止，特质仍是一个不完善和不确定的概念。

填充测验(completion test)：填充测验的形式包括填词、填句子和填图形等。要求受试者填充一段文字遗漏的词或短语，或填充某图形不完全的部分等，测查受试者能力以及人格特征等。例如在下面的句子填充测验中，要受试者根据自己的经验和体会填写不完整的句子：我最大的恐惧是；我最烦恼的是；我喜欢。在Rosenzweig的图片对话测验中，呈现对话情境的图片给被试，要求填写未完成的对话。如有一男女对话情境的图片，女孩对男孩说：“我不打算请你参加我的生日聚会了”。男孩的回答空缺，请被试者充当男孩角色，根据自己的感受作出回答。

同时效度(concurrent validity)：效标关联效度的一种。在检验测验效度时，将测验结果与效标进行相关分析，做为效标的材料可以与测验结果一起在同一段时间获得，将测验结果与同时获得的效标进行相关分析，即同时效度分析，所得到的相关系数即同时效度系数。

团体测验(group test)：指以团体方式实施的测验，常采用纸笔和多项选择的形式进行。有代表性的例子如较早期的欧提斯（Otis）团体智力测验，还有一次世界大战后期，美国用于从大规模人群中选拔军官和分配兵种的军队甲种测验和军队乙种测验。前者为文字材料测验，后者为非文字测验。后来发展的团体测验有多种能力成套测验和教育能力测验等。团体测验适合大量人群的测试，省人省时，但不利于临床对个人行为的深人观察和分析。

文化公平测验（culture fair test)：指能在不同国家、民族、讲不同语言和有不同风俗文化群体中应用的测验方法。其特点是采用非文字测验材料，采用图形匹配，图形分类，图形推理，绘图与绘人等非文字的测验材料与方法。常见的测验方法如Leiter的国际操作量表，卡特尔的文化公平智力测验，瑞文渐进图形测验，以及绘人测验。

相容效度(congruent validity）：构想效度的一种。根据构想效度的观点，具有相同特质或构想的测验间彼此应该有较高的一致性或相关。如国外翻译过来的智力测验与国内编制的智力测验之间应该有较高的一致性或相关，检验两种方法的一致性和相关分析即为相容效度。

项目反应理论（item response theory）：亦称潜在特质理论或潜在特质模型，是一种现代心理测量理论，其意义在于可以指导项目筛选和测验编制。

项目反应理论假设被试有一种“潜在特质”，潜在特质是在观察分析测验反应基础上提出的一种统计构想，在测验中，潜在特质一般指潜在的能力，并经常用测验总分做为这种潜力的粗浅的估计。项目反应理论认为被试在测验项目的反应和成绩与他们的潜在特质有特殊的关系。通过项目反应理论建立的项目参数具有恒久性的特点，意味着不同测量量表的分数可以统一。项目反应理论通过项目反应曲线综合各种项目分析的资料，使我们综合直观地看出项目难度、鉴别度等项目分析的特征，从而起到指导项目筛选和编制测验比较分数等作用。

项目分析(item analysis)对组成测验的条目（项目）进行分析，评价测验项目内容的恰当性，难易度和有效性等。通常包括项目的难度分析，项目的鉴别力分析（亦称项目区分度分析）和项目一致性分析。

项目难度(item difficulty）：指测验项目的难易程度。通常用项目的通过率，即答对和通过该项目人数的百分比表示，通过率高，表明项目难度小，通过率低，表示项目难度大。

项目区分度（item discrimination）：指测验项目对所测量心理特性的区分或鉴别能力，例如，能力测验的项目能否区分能力水平高与能力水平低的被试。项目区分度检验包括以下内容：①项目通过率与效标成绩的相关分析；②鉴别指数分析；③项目与总分相关分析；④项目间相关分析。

项目特征函数（item characteristic function）：计算项目特征曲线数学导出值的函数或参数模型。有多种不同的函数或计算方法，如累计正态分布方法和对函数法等。

项目特征曲线（item characteristic curve）：利用数学函数模型分析被试对测验项目的反应特征，并将分析结果用线图表示，即为项目特征曲线，该曲线反映了项目反应理论的特点，综合反映了项目难度、鉴别度，正确反应的可能性等特征。

效标（criterion）：用于检验测验有效性的参照标准，称为效标。如对于大学生学业能力测验来说，其效标可以是大学生学习成绩，对于神经心理测验量表，其效标可以是CT、脑电等辅助检查结果。对于一个团体智力测验，其效标可以是已有个别操作的智力测验。效标还包括训练成绩，实际工作表现和成就等。

效标关联效度（criterion-related validity）：参照标准效标衡量测验是否有效的效度检验方法即效标关联效度，也称实证效度。例如要检验新编制团体智力测验的效度，用个别进行的智力测验作效标，将两种测验结果进行相关分析，根据相关程度高低判断团体智力测验的效度。

效标资料可以是在测验的同一段时间获得的，也可以是在测验实施后的一段时间才获得，据此进一步分出同时效度和预测效度。不过，同时效度和预测效度的逻辑差异不在于时间，而在于测验目的，前者反映现在的状态，而后者则预测未来的结果。两者的差异用两种询间的方式说明，同时效度问的是“某人成功了吗？”“某人患病了吗？而预测效度问的是“某人会成功吗？”“某人会患病吗？”

效度（validity）：反映测验有效程度的指标，即测验是否较好测到了所要测量的内容，测到何种程度？如一个焦虑量表能否准确反映出被试的焦虑特性和程度。效度不是“全是”或“全无”的，而是程度上有差别，因此用效度较高或较低表示测验是否较好（准确）测量了所要测的内容。效度不是直接获得，而是根据若干证据间接推出来。效度有很多类别。但应用比较广泛的有三类，即内容效度，构想效度和效标关联效度。

心理测量学(psychometrics)：有关心理测量的研究和方法，包括心理测验编制的理论与技术、心理测验的统计方法、心理测量分数、测验信度与效度的理论与方法、项目分析等。

心理测验(mental test）：心理测验一词由卡特尔于1890年首次正式在刊物上提出，他当时所用的测验包括感觉、运动、记忆能力和反应时测定等。世界上第一个正式心理测验是由法国心理学家比奈和西蒙编制的智力测验。第一次世界大战后期，在美国编制了能力测验（陆军甲种测验和乙种测验），将心理测验大规模的用于人群测试，选拔军官和分配兵种。此后，心理测验日益广泛应用。

正规心理测验通常为标准化测验，即通过一定的标准制定，有必要的心理测量技术，包括：常模，标准化的样本和测验方法、信度、效度。常用心理测验有智力测验、人格测验、能力测验和神经心理测验等。

心理量表（mental scale)：指对人的行为或心理特性进行分级和量化评定的方法。心理量表通常由若干测验题目组成，每题都具有一定的分值，测验分数可以进一步分类或计算出量表分等分数。从而对人的心理状态或特性进行量化分析。常用心理量表有智力量表、人格量表，兴趣和态度量表，特殊能力量表，症状评定量表等。

心理年龄（mental age）：也称智力年龄，或简称为智龄；反映儿童智力水平高低的测验指标。由法国心理学家比奈提出，用于智力测验。在其编制的智力量表中，从3岁一10岁按年龄分组编制测验题目，每个年龄组都有6个测题，若被试儿童通过3岁的6个测题，就表示他的智力年龄为3岁，若儿童通过5岁的测题，就表示他的智力年龄为5岁。用智龄表示儿童智力发展水平。智龄简单，易理解，但由于成人智力发展变化与年龄增长并不同步，因此智龄只适用于儿童阶段。

信度（reliabilily )：判断心理测验方法是否可靠和稳定的指标。例如两次测验的结果是否一致或稳定，测验条目之间是否一致

在同样条件下，同一批受试者两次测验的结果一致，说明此方法的性能稳定、可靠。反映同一心理特性（如能力）的测验条目也应该是一致的，彼此相关，说明结构一致、可信。

常见信度有重测信度、复本信度、内部一致性信度和评分者信度等。信度用不同信度检验方法所得的系数表示，如重测法，将两次测验结果进行相关分析，得到重测相关系数；又如分半相关法，将一套测验条目按奇、偶数分成两半，对测验结果进行相关分析，得到分半相关系数。通常，系数越大，一致性越高，稳定性越好。能力测验的信度系数要求较高，系数通常在0.8以上；而对人格测验的要求较低，系数通常在0.7左右。

选拔与安里测验(selection and placement test)：指用于选拔人员或对人员分类安置的测验，并不特指某种测验，包括具有选拔安置功能效应的多种测验。如大学人学测验和研究生人学测验就属于选择测验。职业能力和职业兴趣测验属于安置测验。另外，常用智力测验、能力倾向测验、成就测验、创造力测验等也可以用于选拔与安置。

因素效度(factorial validity）：构想效度检验方法之一，通过因素分析进行。例如，用10个测验测查了200个被试，这些测验中有主要测查言语能力的测验，也有主要测查数字能力的测验，对测试结果进行因素分析，发现在这些测验中，涉及言语能力的测验彼此相关很高，可以用言语因素概括；同样，涉及数学能力的侧验间彼此相关很高，可以用数学能力因素概括，而这些语言测验与数学能力测验间彼此相关很低。因此，可以将原来的10个测验归结为2个因素，即言语能力因素和数学能力因素。通过因素分析检验测验的构成特点便是测验的因素效度分析。

预测(predictability)：根据当前的测验结果推测未来可能的结果，如用能力倾向测验的结果判断和推测被试学业成功或事业成功的可能性。用人才选拔测验的结果选拔军官和分配兵种的正确性。

预测效度(predictive validity）：效标关联效度一种。反映测验预测未来行为结果的可靠或精确程度。例如，检验学业能力测验的预测效度，可以将测验成绩与后来的学习成绩进行相关分析，这便是预测效度分析。所得相关系数即为预测效度系数。

正误题（true-false item）：测验题目的一种类型，也称为是非题，要求被试判断题目（事实、观点等）是否正确。例题如“心理测验是心理评估的唯一方法。是／否？”正误题特点是答题只有两种可能的选择，即肯定（同意、正确、是）和否定（不同意、错、否）。是非题简单、计分客观，但容易受猜测影响，信度较差。

纸笔测验(paper-pencil test)：测验实施形式之一。将测验题目全部印刷，以书面形式呈现，要求被试用笔做书面回笔，常用于各种问卷测验，如人格问卷，能力倾向测验等。纸笔测验适合于团休测验。

指导语(instruction)：为测验主试者编写的测验实施说明，以便统一方法，避免不同主试指导被试时出现不正确指导，如多说或少说指导语，给予暗示等。指导语内容包括说明测验目的、完成测验的方法、要求和注意事项等。指导语的内容是统一和规范的，不能随意改变，如增减或外加提示说明。

智力测验(intelligence test)：测量智力水平高低的方法。世界上的第一个智力测验是法国心理学家比奈和西蒙编制的比奈一西蒙智力量表，用于鉴别有智力缺陷儿童，以便对他们进行特殊教育。目前应用较广的智力测验有斯坦福一比奈量表、韦氏智力量表等。这些智力测验都已在中国修订。智力测验多以成套测验形式组成，即由多个测查不同能力的分测验组成测验，分测验如词汇测验、算术测验、数字符号测验和拼图测验等。测验结果用智商和量表分等表示，反映智力水平高低和智力特征。

智商（intelligence quotient，IQ)：表示智力水平高低的心理测验指标。最初由德国心理学家Stern提出。美国心理学家推孟在其制定的“斯坦福一比奈智力量表”中正式引用了智商，即将测验所得儿童智力年龄除以其实际年龄所得的商数。为去掉商数的小数，将商数乘以100，将此智商称之为比率智商。由于比率智商是将智力测验成绩与年龄相比，当成年时，智力发展的速度与年龄发展不再平行，不成比例，故比率智商不适用成人。为此，美国心理学家韦克斯勒提出了离差智商（详见离差智商）。

重测信度（test -retest reliability）：也称再测信度，为常用信度评估方法之一。反映测验跨越时间的稳定性和一致性，即应用同一测验方法，对同一组被试先后两次进行测查，然后计算两次测查所得分数的相关系数，相关程度高，表示前后测量一致性高，稳定性好。重测信度测重评估时间差异所造成的误差及其对测验稳定性的影响，评价重测信度时应注意重测间隔时间长短对重测相关系数的影响。

主观题（subjective item）：测验题目的一种类型，指评分有主观性特点的测验题目，评分标准很难严格统一，容易受到评分者个人理解和主观判断的影响，如论文题目，投射测验项目和创造力测验等。

第二部分：心理测量工具词条

爱位华个人偏好量表(Edwards Personal Preference Schedule，EPPS)

美国心理学家爱德华(A. L. Edwards )于1953年编制，以美国蛤佛大学心理学家默端(H. A. Murray) 1938年提出的人类15种需求为理论基础。各分量表的项目是针对这个理论的15种需要，即①成就(ach)；②顺从(def )；③秩序(ord )；④表现(exh)，⑤自主（aut)；⑥亲和(aff)；⑦省察(int )；⑧求助(suc)；⑨支配Worn)；⑩谦逊(aba)；(11）助人(nur)；(12）变通(chg )；(13)坚毅(end)；(14)性爱(het）；（15)攻击(egg)编制成的。

EPPS问卷共包括225个题目（其中有15个重复题目，用以检查反应的一致性），每题包括A、B两个第一人称的陈述句，要求受试者按自己个性偏好从两者中圈选其一，当A、B两项均能表现被试者的特征时，受试者要选择最能表现自己特征的一个；当两个陈述都不能表现自己的特征时，或两种情况都不喜欢时，受试者应该选择讨厌相对较轻的一个。受试者必须在A、B两项之中选择一项，没有中间答案，也不允许空缺。这是一种“强迫型”问卷，强迫受试者在相互比较中表现出自己真实的需要。

全量表的题目平均分配测量这15种需要，成为15个分量表，施测后每人得到15分个数。根据个人所得的15个分数的百分位等级所绘制的剖析图，即可对个人的心理倾向有个概括的了解。此外，EPPS还有一个一致性量表，主要看受试者在回答15重复题目上的一致性。如果回答不一致的题目太多，说明受试者在回答时不够认真，因而该测验即被认为是无效的。

该量表的重测信度在0.74-0.88之间，分半信度在0.60-0.87之间，效度则采用结构效度。根据一项调查研究，