经典和现代测验理论导论 pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

出版者:华东师范大学出版社

作者:Linda Crocker

出品人:

页数:600

译者:金瑜

出版时间:2004-7

价格:59.00元

装帧:简裝本

isbn号码:9787561737156

丛书系列:当代心理科学名著译丛

图书标签:

心理学
心理测量学
测量
统计
测量学
教材
心理测量
心理专业书籍～技术
测验理论
经典测验理论
现代测验理论
心理测量
教育测量
统计方法
评估设计
认知科学
数据建模
测量模型

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到本本书屋

onlinetoolsland.com

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

具体描述

本书特点：

首先，此书中对于经典测验理论和现代测验理论的介绍兼而有之，内容全面而丰富。一方面作者沿着测验分数获得之过程，从基本的测验理论概念到技术性极强的测量特征分析、测验评分及解释等诸多环节，无一不涵盖其内。另一方面，根据测验理论发展的轨迹，在相关章节逐次对传统经典测验理论和现代测验理论各自的精髓之处进行透彻的介绍和评价。

第二，此书很好地做到了理论和实际的结合。在每章之后都有一些练习题，提供一些实际心理测量情境，模拟一个心理测量中真实能遇到的问题，大大提高运用效应。

第三，本书在全书的组织结构和写法手法上也很有特点。每章配有大量实际例子帮助读者巩固加深对每章介绍内容的理解。每章后面的小结更是作者的精心安排，它可使读者更清楚地把握每章的主要内容，易于理清每章的知识要点及知识结构安排。

测验设计与心理测量学：理论、方法与实践本书导读在教育、心理学、人力资源管理乃至更广泛的社会科学领域中，测验（Assessment）作为一种科学工具，其质量直接决定了我们对个体能力、知识、特质和行为的评估是否可靠和有效。本书《测验设计与心理测量学：理论、方法与实践》旨在提供一个全面、深入且注重实践操作的框架，用以理解和掌握现代测验构建的全部流程与核心原理。我们避开纯粹的数学推导迷宫，转而聚焦于如何将严谨的统计学概念转化为可操作的设计指南和实用的数据分析流程。本书面向的读者群体广泛，包括教育测量专家、心理学研究人员、从事大规模标准化考试的专业人士、企业人才测评师，以及所有对科学评估抱有浓厚兴趣的实践工作者和研究生。我们假定读者具备一定的基础统计学知识，但对专业测量理论的深度尚未完全掌握。因此，全书结构层层递进，从基础概念的澄清开始，逐步深入到高级建模技术。第一部分：测验的基石——理论与概念的奠定本部分致力于为后续的高级内容打下坚实的理论基础。我们首先探讨测验在现代社会中的角色和伦理考量，强调测验结果的社会责任。第一章：评估的本质与测量哲学本章首先界定了“测量”（Measurement）与“评估”（Assessment）的区别与联系。我们深入探讨了测量的四个基本尺度（定类、定序、定距、定比）如何影响后续的数据分析选择。随后，本书将重点探讨心理学和教育学中“潜变量”（Latent Variables）的概念——那些我们无法直接观察，但通过观测行为推断出来的特质，如智力、焦虑或动机。我们比较了历史上测量哲学的演变，从经典心理物理学到现代行为科学，为理解测验的复杂性提供历史视角。伦理维度是本章的重中之重，涵盖了公平性、隐私保护和结果误用的风险。第二章：测验的质量标准：信度（Reliability）的深入剖析信度是测验稳定性和一致性的核心指标。本书不再仅仅停留在讲解“重测信度”和“内部一致性”的表面，而是将信度视为一个多维度的概念。我们详细解析了如何计算和解释克朗巴赫 $alpha$ 系数（Cronbach’s Alpha），并重点讨论了其局限性，特别是当测验项目同质性不均时如何选择更合适的指标，如最优平行项目分析（Optimal Parallel Test Analysis）。更进一步，我们将探讨在动态测量中，诸如“评分者间信度”和“时间点间信度”的重要性，并教授如何通过构建信度系数矩阵来识别测验内部结构的不一致来源。本章强调，信度不是一个固定的数值，而是依赖于测验的使用情境和样本群体的。第三章：有效性（Validity）的范式转换：从证据链到建构论有效性是测验存在价值的根本。本书采纳了现代测量学中以“建构效度”（Construct Validity）为核心的统一框架。我们将传统上的内容效度、效标关联效度和结构效度统一纳入“效度论证”（Validity Argument）的逻辑体系中。读者将学习如何系统地收集和整合来自不同来源的证据——内容证据、反应过程证据、内部结构证据、与其他测验的关系证据以及后果证据——来支持对某一特定解释的合理性。本章将花费大量篇幅介绍如何运用因子分析（Exploratory and Confirmatory Factor Analysis）来检验理论上的内部结构假设，确保测验项目确实在测量预期的潜变量。第二部分：测验的构建与项目反应理论（IRT）本部分将测验的理论要求转化为实际的设计蓝图，特别是引入了现代测量工具——项目反应理论。第四章：测验的编题与项目分析的实践本章专注于测验项目的实际开发过程。从项目编写的风格指南（如避免歧义、控制阅读难度）到不同题型（多项选择、简答、项目式任务）的选择，我们提供了一套流程化的指南。在项目分析阶段，本书侧重于经典测验理论（CTT）框架下的项目难度（Difficulty）、区分度（Discrimination）和随机猜测（Guessing）的分析。读者将学会如何使用项目信息曲线（Item Information Curve，虽然在IRT框架下讨论，但其概念来源于CTT项目分析）来识别表现不佳的项目，并进行有效的“项目筛选”。第五章：项目反应理论（IRT）导论与应用 IRT是现代测量学的核心驱动力之一。本章将清晰地阐述IRT与CTT的关键区别，特别是在项目参数（如项目难度、区分度和猜测水平）与被试能力参数相互独立性上的优势。我们将侧重于介绍一、二、三参数逻辑斯谛模型（1PL, 2PL, 3PL），并解释这些模型如何用于构建信息量更优的自适应测验。读者将学习如何运用IRT模型来估计被试能力，并理解“信息函数”（Information Function）如何指导测验的设计和项目银行的构建。本书将侧重于如何解读软件输出结果，而非复杂的数学推导过程。第六章：测验的建构与标准化流程一个好的测验必须经过严格的标准化过程。本章涵盖了从初稿到最终定稿的全过程。内容包括样本选择（代表性抽样）、预测试的实施、数据收集的环境控制、以及分数转换技术。我们将详细讨论如何建立常模团体（Norm Groups），并应用百分位数、标准分（Z-Scores, T-Scores）和标准十分位数等转换方法，使原始分数具有可解释性。最后，我们将探讨如何根据不同用途（如分类、诊断或预测）来设定和验证有效的“临界分数”（Cut Scores）。第三部分：高级主题与测验的未来本部分探讨了测量学在复杂情境中的应用，并展望了数据科学对测验领域带来的变革。第七章：测验的公平性、偏误（Bias）与适应性测量公平性是现代测验实践中不可回避的议题。本章深入探讨了测验偏误的来源，区分了项目层面的偏误（如文化负荷、语言模糊性）和解释层面的偏误（如分类后果的不平等）。我们将介绍检测和校正系统性偏误的技术，例如利用 DIF (Differential Item Functioning) 分析，来确保不同群体在相同能力水平下获得相同的被试能力估计。此外，本章还将介绍计算机化自适应测验（CAT）的设计原则，以及如何利用CAT在保证测量精度的同时缩短施测时间。第八章：多维测量与结构方程模型在测验中的应用当一个测验旨在测量多个相互关联的潜变量时，多维测量成为必要。本章将侧重于因子分析（尤其是验证性因子分析 CFA）在检验测验结构有效性中的作用。我们将解释如何通过模型拟合指标（如 $chi^2$, RMSEA, CFI, TLI）来评估测量模型的拟合程度，并指导读者如何基于证据修正测量模型。对于那些涉及复杂因果关系的评估，我们将引入结构方程模型（SEM）的基础概念，展示如何使用路径分析来检验潜变量之间的假设性关系。第九章：测验结果的报告、解释与问责测验的价值最终体现在其结果的沟通上。本章聚焦于如何撰写专业、清晰的测验报告。这不仅包括对原始分数和转换分数的精确报告，更重要的是对信度和效度证据的摘要性陈述。我们强调沟通的“使用者中心”原则——报告必须以目标受众（家长、学生、雇主或政策制定者）能理解的方式，准确传达测验结果的局限性。问责制（Accountability）的讨论将涉及如何利用测验数据来驱动教学改进、制定政策或进行机构评估，并警示过度依赖单一测验分数的风险。结语：迈向持续改进的评估生态系统本书最终的目标是培养读者构建一个持续迭代、自我修正的评估生态系统。通过系统地理解信度、效度和项目反应理论，读者将能够超越简单的分数计算，进入到科学的测量设计和数据驱动的决策制定阶段。未来的测验将更加依赖大数据和机器学习技术，本书所奠定的坚实理论基础，将是驾驭这些未来工具的关键所在。

作者简介

目录信息

总序
译者前言
中文版序
序
diyi部分测量理论介绍
第1章什么是测验理论
第2章测验理论中的统计概念
第3章度量概述
第4章测验编制过程
第5章合成的测验分数
第二部分信度
第6章信度和经典真分数模型
第7章信度估计的方法
第8章概化理论介绍
第9章标准参照测验的信度系数
第三部分效度
第10章效度导论
第11章预测和分类的统计方法
第12章选择中的偏差
第13章因素分析
第四部分测验编制中的项目分析
第14章项目分析
第15章项目反应理论介绍
第16章检查项目偏差
第五部分测验计分和解释
第17章对猜测的矫正与其他计分方法
第18章标准设置
第19章常模与标准分数
第20章不同测验间的分数等值化
参考文献
· · · · · · (收起)

读后感

评分☆☆☆☆☆

用户评价

评分☆☆☆☆☆

《经典和现代测验理论导论》这本书，在我看来，是一本能够真正“启迪民智”的著作。在初读经典测验理论（CTT）时，作者以非常系统的方式，将我们引入了信度和效度的殿堂。他不仅解释了信度系数的计算方法，更重要的是，他深入剖析了信度与测量误差的关系，让我们理解了为什么一个测验可能不够稳定，以及如何通过优化题目设计和施测过程来提高信度。在效度方面，作者的论述尤为精彩，他细致地区分了内容效度、效标关联效度（包括预测效度和同期效度）以及结构效度。我尤其对结构效度的讨论印象深刻，作者结合了大量的心理学研究实例，例如如何通过因素分析来验证一个智力测验是否能够有效地测量不同的智力成分，或者一个态度问卷是否能够准确地反映被试的态度倾向。这些案例让我深刻地认识到，心理测量并非仅仅是“猜”一个人的表现，而是需要通过科学的方法来“测量”和“理解”人的内心世界。随后，本书自然地过渡到现代测验理论（IRT）。作者认为，IRT是对CTT的重大革新，它将题目本身的特性（难度、区分度、猜测参数）与被试的潜在特质联系起来，并通过项目反应模型来描述这种关系。我了解到，IRT能够生成与特定试卷样本无关的能力估计，并且在自适应测验（CAT）等领域有着不可替代的作用。

评分☆☆☆☆☆

这本书的逻辑链条非常清晰，从基础的经典测验理论（CTT）出发，层层递进，最终引出更先进的现代测验理论（IRT）。作者在介绍CTT时，并没有回避其局限性，反而恰恰是基于CTT的这些不足，引出了IRT的必要性。在CTT的部分，关于信度的讨论非常详尽，作者解释了信度系数的平方根代表了测量结果的真实比例，并深入探讨了提高信度的策略，比如增加题目数量、保证题目同质性以及优化评分标准。我特别欣赏作者对效度类型的区分，他不仅解释了内容效度、效标关联效度和结构效度的定义，还提供了大量的实例来佐证。例如，在讲解结构效度时，作者花了相当篇幅讨论了如何通过因素分析来检验测验是否能够区分不同的潜在构念，或者是否能反映单一的潜在构念，这对于理解教育心理学中关于能力和特质的测量非常有帮助。接着，书本自然地引入了IRT，并着重介绍了项目反应理论（IRT）的核心思想，即被试的能力和题目本身的属性（难度、区分度、猜测参数）共同决定了被试答对题目的概率。作者通过生动的图表，如项目特征曲线（ICC），直观地展示了IRT如何精确地描述题目和被试之间的关系。特别是，IRT能够生成与特定试卷样本无关的能力估计，这对于在不同考试中使用相同量表的被试进行能力比较提供了可能。此外，书中还提到了IRT在自适应测验（CAT）中的应用，让被试能够根据自己的能力水平实时调整题目难度，这极大地提高了测验的效率和准确性。

评分☆☆☆☆☆

这本书如同一本精美的地图，为我绘制出了心理测量学的宏大版图。在解读经典测验理论（CTT）部分时，作者非常有条理地介绍了信度与效度的核心概念。我理解了信度是测验结果的稳定性，就好比同一把尺子反复测量同一物体的长度，结果应该是一致的。作者详细解释了多种信度估计方法，如重测信度、复本信度、内部一致性信度（包括Cronbach's alpha），并深入分析了影响这些信度系数的因素，从题目设计的细节到施测环境的细微之处。在效度方面，作者的讲解更是让我茅塞顿开。他区分了内容效度、效标关联效度（预测效度和同期效度）和结构效度，并提供了丰富的实例来阐释。我特别为结构效度的讨论所吸引，作者通过因子分析等统计技术，展示了如何证明一个测验是否真正测量了预设的心理构念，比如“焦虑”或“创造力”。这让我明白，一个测验的有效性需要多方面的证据支持，而不仅仅是简单地看看分数。接着，本书巧妙地引入了现代测验理论（IRT）。作者认为，IRT是CTT的重大发展，它将题目本身的属性（难度、区分度、猜测参数）与被试的潜在特质联系起来，并通过项目反应模型来描述这种关系。我了解到，IRT能够提供与特定试卷样本无关的能力估计，并且在自适应测验（CAT）等领域有着广泛的应用前景。

评分☆☆☆☆☆

《经典和现代测验理论导论》这本书，对我来说，不仅仅是一本学术著作，更像是一次思维的洗礼。在阅读了关于经典测验理论（CTT）的部分后，我才真正理解了“信度”和“效度”这两个术语的深度内涵。作者以极其清晰的逻辑，解释了信度是如何衡量测验结果的一致性和稳定性，以及我们如何通过重测信度、复本信度、内部一致性信度等多种方法来估算它。我尤其对信度系数的解读印象深刻，它并非一个简单的数值，而是包含了对测量误差来源的深刻反思。在效度的讨论上，作者更是循序渐进，从内容效度、效标关联效度（包括预测效度和同期效度）到结构效度，层层深入。我被书中引用的心理学研究案例所深深吸引，例如如何通过因素分析来验证一个测验是否能够准确地测量出预设的心理特质，如智力、人格或动机。这让我明白，测量心理特质需要严谨的科学方法，而不仅仅是凭感觉。随后，本书自然而然地引入了现代测验理论（IRT）。作者将IRT描绘成对CTT的一项重大突破，它通过项目反应模型，将题目和被试的潜在特质联系起来，并使用项目特征曲线（ICC）来直观地展示这种关系。我了解到，IRT的强大之处在于它能够提供与特定试卷样本无关的能力估计，并且在自适应测验（CAT）等领域有着不可估量的应用价值。

评分☆☆☆☆☆

这本《经典和现代测验理论导论》确实打开了我认识心理测量世界的一扇窗。在阅读之前，我一直认为测验不过是些填空题、选择题的集合，或者是一些能算出分数的东西，完全没有想到它背后竟然蕴含着如此深厚的理论基础和严谨的科学体系。书的开篇就以一种非常引人入胜的方式，将我们带入了测验理论的历史长河，从早期的经典测验理论（CTT）的萌芽，到后来随着统计学、心理学和社会科学的不断发展，现代测验理论（IRT）如何应运而生，并逐步取代和完善了CTT的不足。作者在讲解CTT时，并没有枯燥地罗列公式，而是通过生动的案例和清晰的逻辑，解释了信度、效度等核心概念的含义、计算方法以及它们在测验编制和解释中的重要性。例如，在讨论信度时，作者详细介绍了重测信度、复本信度、内部一致性信度（如克朗巴赫系数）等不同类型的信度系数，并深入剖析了影响信度的各种因素，以及如何通过提高测验的内在一致性来增强其可靠性。对于效度，更是从内容效度、效标关联效度（包括预测效度和同期效度）到结构效度，层层递进，让读者理解一个测验的有效性是多维度、多层面的考量。尤其是对结构效度的阐述，作者结合了心理学中各种抽象概念的测量，如智力、人格、动机等，让我对如何将这些难以捉摸的心理特质转化为可量化的指标有了全新的认识。书中的例子非常贴近实际，无论是教育考试、招聘选拔，还是临床诊断，都能找到对应的应用场景，这让我觉得测量理论并非高高在上的学术象牙塔，而是与我们的生活息息相关。

评分☆☆☆☆☆

在我看来，《经典和现代测验理论导论》这本书最大的亮点在于它既有宏观的理论视野，又有微观的实践指导。作者在阐述经典测验理论（CTT）时，并没有简单地罗列公式，而是深入浅出地解释了信度和效度的概念，以及它们在实际测验编制中的重要性。他详细介绍了信度系数的计算方法，如重测信度、复本信度、分半信度、Cronbach's alpha等，并解释了这些系数的含义以及它们如何反映测验结果的稳定性和一致性。同时，作者对效度进行了多维度的探讨，包括内容效度、效标关联效度（预测效度和同期效度）和结构效度。特别是在讲解结构效度时，书中引用了心理学研究的经典案例，如智力测验对不同智力成分的测量，或者人格问卷对五大人格特质的区分。这让我明白，一个好的测验不仅仅是分数能够反映出差异，更重要的是它能够准确地测量出我们想要测量的心理特质。随后，本书自然地过渡到现代测验理论（IRT）。作者认为IRT是对CTT的重大发展，它将题目和被试的潜在特质联系起来，并通过项目反应模型来描述这种关系。书中详细介绍了IRT中的项目特征曲线（ICC），以及如何利用题目难度、区分度和猜测参数来评价题目的质量。我尤其对IRT在自适应测验（CAT）中的应用印象深刻，它能够根据被试的实时表现动态调整题目难度，从而在更短的时间内获得更准确的被试能力估计。这种理论与实践的结合，让我对测验理论有了更全面、更深刻的理解。

评分☆☆☆☆☆

这本书的价值远不止于理论的介绍，更在于它所揭示的“测验背后的逻辑”。我一直对各种标准化考试的信度和效度感到好奇，这本书就给了我一个深入了解的窗口。作者在介绍经典测验理论（CTT）时，非常清晰地阐述了“观测分数”等于“真分数”加上“误差分数”这一核心思想，并且详细讲解了如何通过重测、复本、分半等方法来估计信度，以及信度系数的含义——它代表了测量结果的一致性和稳定性。我尤其对“效度”的讨论印象深刻，作者没有将效度简单化，而是从内容效度、效标关联效度（包括预测效度和同期效度）和结构效度等多个角度进行了深入剖析。在讲解结构效度时，书中引用了大量心理学研究的案例，例如如何通过因素分析来验证智力测验是否测量了不同的智力因素，或者人格问卷是否能区分出不同的人格特质。这让我明白，效度是一个持续验证的过程，而不是一劳永逸的证明。随后，本书精彩地切入了现代测验理论（IRT）。IRT的出现，在我看来，是对CTT的一个重大突破。书本详细介绍了IRT如何从题目本身的特性（难度、区分度、猜测参数）出发，建立被试能力与答对题目概率之间的函数关系。特别是项目特征曲线（ICC）的介绍，通过图形化的方式直观地展示了不同题目的区分能力，以及它们在不同能力水平被试上的表现。书中还提及了IRT在构建自适应测验（CAT）中的核心作用，让被试能够根据自己的表现，在后续的题目中得到更符合其能力水平的题目，从而提高测量效率和用户体验。

评分☆☆☆☆☆

读完《经典和现代测验理论导论》，我感觉自己对“考试”和“评估”的看法发生了根本性的转变。过去，我可能只关注分数的高低，但现在，我开始思考分数是如何产生的，它的背后隐藏着怎样的测量原理。作者在讲解经典测验理论（CTT）时，对信度（Reliability）的阐释非常透彻，他不仅介绍了信度的概念，更深入地分析了造成测量误差的来源，比如题目本身的变异性、施测情境的不稳定以及评分者的主观性等。通过对不同信度估计方法的讲解，如重测信度、复本信度、内部一致性信度（如Kuder-Richardson公式和Cronbach's alpha系数），我明白了信度值越高，测验结果就越稳定和一致。同样，对效度（Validity）的讨论也是书中一个非常重要的部分。作者强调，信度是效度的必要条件而非充分条件，一个测验可能很稳定，但它测量的不一定是它声称要测量的东西。书中对内容效度、效标关联效度（预测效度和同期效度）以及结构效度的系统介绍，让我理解了如何从不同维度来评估一个测验的有效性。例如，在讨论结构效度时，作者引用了因子分析等统计方法，来解释如何验证测验是否真正测量了预设的心理构念，如智力、焦虑或人格特质。这些深入的分析，让我对如何科学地编制和评价测验有了更宏观的认识。

评分☆☆☆☆☆

我原本以为这本书会是一本晦涩难懂的统计学教材，但读下来却惊喜地发现，它更像是一本引人入胜的“测验哲学”入门指南。作者非常巧妙地将测验理论与人的认知、行为和社会评价紧密联系起来，让我深刻理解了“测量”这个行为的本质——我们如何通过观察和量化来理解和预测人的表现。在介绍经典测验理论时，书本强调了“真分数”的概念，以及它与“测量误差”之间的关系。作者用通俗易懂的比喻，比如射击的靶子，来说明信度高但效度低的测验，就像枪法很稳定但打不中靶心一样。这种形象的比喻极大地帮助我理解了抽象的统计概念。接着，书本自然地过渡到现代测验理论（IRT），它所带来的革命性变化在于将题目本身的特性（如难度、区分度）和被试的潜在特质（如能力水平）结合起来进行建模。特别是项目反应理论（IRT）中的一维模型，比如Rasch模型和2PL模型，作者通过详细的公式推导和图示，解释了它们是如何通过项目特征曲线（ICC）来揭示题目质量的。让我印象深刻的是，IRT能够提供比CTT更精细的被试能力估计，并且这种估计不受特定试卷样本的影响。这意味着，即使被试完成了不同难度和组成的题目，他们的能力值也是可以放在同一条能力尺上进行比较的，这在自适应测验（CAT）等领域有着巨大的应用价值。书中还探讨了IRT在处理缺测值、评分者效应等复杂情况时的优势，以及它如何能够生成更公平、更有效的测量工具。

评分☆☆☆☆☆

这本书对我最大的启发在于，它让我看到了“测量”这件事情背后隐藏的严谨科学和深刻智慧。在初识经典测验理论（CTT）时，作者用清晰的语言解释了信度和效度的核心概念。我了解到，信度是关于测验结果的稳定性和一致性，而效度则是关于测验是否测量了它声称要测量的东西。书中详细列举了多种信度估计方法，如重测信度、复本信度、内部一致性信度（包括Alpha系数和KR公式），并深入分析了影响这些信度系数的因素，比如题目质量、施测环境以及被试的情绪状态等。在效度方面，作者对内容效度、效标关联效度（预测效度和同期效度）和结构效度的区分与阐述，让我对一个测验的有效性有了更全面的认识。例如，在讨论结构效度时，作者引用了大量心理学研究的案例，展示了如何通过因子分析等统计技术来验证测验是否能够有效地测量预设的心理构念，如智力、焦虑或动机等。这些案例让我深刻理解了，心理测量并非主观臆断，而是建立在扎实的统计学和心理学理论基础之上的。随后，本书精彩地引入了现代测验理论（IRT），并将其视为对CTT的重大突破。IRT通过项目反应模型，将被试的能力和题目本身的特性（难度、区分度、猜测参数）联系起来，并引入了项目特征曲线（ICC）这一关键工具。我了解到，IRT能够提供与特定试卷样本无关的能力估计，并且在处理自适应测验（CAT）等领域有着独特的优势。

评分☆☆☆☆☆

: B841.7/4264

评分☆☆☆☆☆

: B841.7/4264

评分☆☆☆☆☆

金瑜老师。

评分☆☆☆☆☆

金瑜老师。

评分☆☆☆☆☆

金瑜老师。