英语评估与测试（上册） pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

出版者:人民教育出版社

作者:

出品人:

页数:149

译者:

出版时间:2005-8

价格:11.60元

装帧:平装

isbn号码:9787107190469

丛书系列:

图书标签:

英语测评
英语测试
语言评估
语言测试
教育测量
外语教学
英语学习
教学参考
上册
教材

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到本本书屋

onlinetoolsland.com

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

具体描述

英语评估与测试（下册）本书简介本书是《英语评估与测试（上册）》的续篇，系统深入地探讨了英语测试理论、实践以及相关的前沿发展。它旨在为语言教育工作者、测试设计者、研究人员以及准备从事英语教育和评估领域的学生提供一个全面、严谨且具有实践指导意义的知识体系。本书内容覆盖了从基础的测试原则到复杂的设计流程，再到新兴技术的应用与挑战，力求构建一个既扎实又具有前瞻性的评估框架。 --- 第一部分：评估理论与标准基础本部分着重于奠定英语测试的理论基石，理解有效、可靠评估所应遵循的根本原则。第一章：评估的哲学基础与功能定位本章首先回顾了语言能力观在不同历史时期的演变，探讨了结构主义、功能主义和交际主义等理论如何影响了英语测试的设计取向。深入剖析了测试在教育体系中的多重功能：诊断性评估（Diagnostic Testing）如何揭示学习者的薄弱环节；形成性评估（Formative Assessment）如何指导教学过程的实时调整；总结性评估（Summative Assessment）如何衡量学习成果的最终达成度；以及安置性评估（Placement Testing）如何确保学生进入合适的学习阶段。重点讨论了“评估的伦理”和“权变评估”（Contingent Assessment）的概念，强调评估决策必须基于明确的教育目标和公平原则。第二章：测量的基本原则：信度、效度与实用性这是任何测试设计与解释的基石。本章详细阐述了信度（Reliability）的四个主要类型：重测信度、复本信度、内部一致性信度（如Kuder-Richardson公式与Cronbach's $alpha$ 系数）和评分者信度。特别关注了如何通过统计方法量化和报告信度水平。随后，深入探讨了效度（Validity）的现代观，即效度是一个统一的概念，而非多种类型的简单叠加。重点分析了“证据推理”（Evidence-Based Reasoning）框架下的效度来源：内容效度（Content Validity）的系统抽样设计；结构效度（Construct Validity）中区分潜在特质和测量误差的因素分析（Factor Analysis）；效标关联效度（Criterion-Related Validity）中的预测效度与同时效度；以及交互作用效度（Consequential Validity），即测试对教学与学习产生的实际影响。最后，讨论了实用性（Practicality）的重要性，包括测试实施的时间、成本、易操作性和可解释性，并平衡其实用性与理想的信效度要求。第三章：测试标准与质量保证体系本章引入国际公认的测试质量标准，如《语言测试中的评估标准》（Standards for Educational and Psychological Testing）的核心要求。详细解读了标准中关于测试设计、开发、管理、评分和结果解释的规范。讨论了“标准参照性测试”（Criterion-Referenced Testing, CRT）与“常模参照性测试”（Norm-Referenced Testing, NRT）在解释分数和报告上的根本区别及其适用场景。同时，探讨了测试结果的公平性（Fairness）和文化敏感性（Cultural Sensitivity）在标准制定中的核心地位。 --- 第二部分：英语能力模型的构建与技能测试本部分转向语言能力本身的界定，以及如何将抽象的能力模型转化为可操作的测试项目。第四章：英语能力模型的演进与选择本章回顾了从离散技能模型（Discrete-Point Testing）到交际能力模型（Communicative Competence Model）的转变。详细介绍了Canale与Swain的交际能力框架，包括语言知识（Grammatical, Sociolinguistic, Discourse, Strategic Competence）。重点分析了现代语言能力模型，如基于任务的能力模型（Task-Based Competence）和通用欧洲语言参考框架（CEFR）下的能力层次结构。讨论了在设计特定测试时，如何选择或构建最适合测试目的的能力模型，以及模型选择对项目设计的影响。第五章：听力理解测试的设计与实施本章聚焦于听力理解测试的复杂性。首先，区分了对具体信息提取（Specific Information Retrieval）和推断理解（Inferential Comprehension）的测试需求。其次，详细分析了干扰项（Distractors）的构建策略，确保干扰项既具有迷惑性又不涉及内容或语言上的不公平。探讨了不同材料类型（对话、讲座、广播等）的选择标准，以及语速、口音和背景噪音对测试结果的影响。最后，讨论了计算机自适应听力测试（CAT-Listening）在提高效率和维持信度方面的应用。第六章：阅读理解测试的结构与项目类型阅读测试的设计关键在于平衡对语言知识（如词汇、语法结构）的考察与对高级认知技能（如主旨把握、逻辑推理、文本评价）的评估。本章细致区分了选择题（Multiple-Choice）、匹配题（Matching）、句子填空（Sentence Completion）和摘要写作（Summarizing）等不同题型的优缺点。特别强调了“超越文本”（Beyond the Text）的推理测试设计，要求应试者整合文本信息并结合背景知识进行判断。深入分析了如何确保测试文本的难度与长度适中，并且其主题内容对目标群体公平。第七章：写作评估的复杂性与量化方法写作评估是语言测试中最具挑战性的领域之一。本章系统介绍了对写作产出的评估维度，包括内容（Content）、结构（Organization）、语言准确性（Accuracy）、语言多样性（Variety）和流利度（Fluency）。详细阐述了评分者间一致性（Inter-Rater Reliability）的提升策略，包括细致的评分量规（Rubrics）设计和定标（Anchoring）过程。对比分析了人工评分（Human Scoring）、半自动评分（Semi-Automated Scoring，如利用自动化工具辅助人工判断）以及全自动评分（Automated Scoring Systems, ASS）的优势与局限性。重点讨论了“任务设计”如何有效激发应试者的目标性写作（Purposeful Writing）。第八章：口语测试的评估与交互设计口语测试的有效性高度依赖于评估环境的控制和考官的熟练程度。本章区分了结构化口语测试（如回答预设问题）与更具生态效度的交互式口语测试（如讨论、角色扮演）。深入讨论了口语评分的维度，包括流利度（Fluency，如停顿和重复的模式）、发音（Pronunciation，包括音素准确性与语调语流）、词汇资源与语法范围和准确性。阐述了“交际性反馈”（Communicative Feedback）在口语评估中的作用，以及如何通过考官培训和多次评估来提高评分的客观性。 --- 第三部分：测试的开发、实施与解释本部分着眼于测试从概念形成到实际应用的整个生命周期管理。第九章：测试项目和试卷的开发流程本章提供了一个结构化的项目开发蓝图。从“蓝图”或“测试规格说明书”（Test Specification Document）的制定开始，明确测试的信效度目标、内容覆盖范围和能力层次。详细描述了项目编写的原则（如清晰性、避免双重否定、项目长度适中）和项目初审（Item Review）流程。重点讲解了项目试测（Piloting）的必要性，以及如何通过项目分析（Item Analysis）来计算难度指数（P值）和区分度指数（D值），用以筛选和修正无效或低效项目。第十章：测试的统计分析与项目反应理论（IRT）本章深入探讨了现代测试的统计基础。回顾了经典测量理论（Classical Test Theory, CTT）在项目分析中的应用。随后，引入了项目反应理论（Item Response Theory, IRT）作为更高级的分析工具。详细介绍了IRT的基本模型（如单参数、双参数和三参数模型），重点阐述了项目特征曲线（Item Characteristic Curve, ICC）的意义，以及如何利用信息函数（Information Function）来优化测试的测量效能。讲解了如何运用IRT进行测试编制（Test Assembly）和试卷等值化（Equating）。第十一章：计算机化测试与自适应系统随着技术进步，计算机化测试（Computerized Testing）已成为主流。本章探讨了计算机化测试环境下的各种优势，包括即时反馈、自动化评分和安全性提升。重点详细介绍计算机自适应测试（Computerized Adaptive Testing, CAT）的原理，包括项目池的构建、参数估计、信息量最大化以及终止规则的设计。讨论了在CAT环境中保持测试等值性的统计挑战。第十二章：测试结果的解释、报告与反馈测试结果的有效传递与解释与测试本身的质量同等重要。本章讨论了如何根据测试目的选择合适的报告方式（分数、等级、描述性反馈）。深入分析了分数报告中的“标准分”（Standard Scores，如Z分数、T分数）的意义，以及如何利用“能力尺度”（Proficiency Scales）清晰地传达应试者的真实能力水平。强调了向不同利益相关者（学生、教师、家长、机构）提供定制化、可操作的反馈的重要性，确保评估结果能够有效驱动后续的学习改进。 --- 第四部分：评估的前沿领域与未来趋势本部分展望了英语评估领域的新兴挑战和发展方向。第十三章：跨文化适应性与测试的全球化在全球化背景下，英语测试的跨文化有效性日益关键。本章探讨了文化偏见在测试材料中的体现，以及如何进行跨文化验证（Cross-Cultural Validation）。讨论了在非母语文化背景下对语言测试结果进行解释的注意事项。分析了国际大型标准化考试（如IELTS, TOEFL）在维持全球一致性、应对不同教育体系差异时所采用的策略。第十四章：新兴技术在评估中的应用与挑战本章关注大数据、人工智能（AI）和自然语言处理（NLP）对英语评估的颠覆性影响。讨论了AI在自动化评分（尤其是口语和写作）中的最新进展及其局限性（如对创造力和细微语义的捕捉）。探讨了利用学习分析（Learning Analytics）和学习管理系统（LMS）数据来深化形成性评估的潜力。最后，讨论了利用虚拟现实（VR）/增强现实（AR）技术构建更具生态效度的模拟测试环境的前景。第十五章：评估的未来展望：从测试到学习导向的评估本章总结性地提出，未来英语评估将更紧密地融入学习过程。探讨了“评估素养”（Assessment Literacy）在教师专业发展中的核心地位。展望了更加动态化、个性化、持续性的评估模式，强调评估不再是终点，而是促进语言学习持续进步的反馈循环的核心驱动力。本书力求在理论深度和实际操作性之间找到平衡点，为读者提供一个全面掌握现代英语评估与测试科学的专业指南。

作者简介

目录信息

读后感

评分☆☆☆☆☆

用户评价

评分☆☆☆☆☆

这本书给我的感觉是，它仿佛是一位经验极其丰富的老教授，耐心地为你拆解一个复杂系统的每一个齿轮是如何咬合的。它没有那种急功近利的浮躁感，完全是沉下心来探讨评估的本质。与其他同类书籍相比，它在“情境化评估”（Contextualized Assessment）和“基于表现的评估”（Performance-Based Assessment）这两个前沿领域投入了大量的篇幅。特别是对口语和写作评分标准（Rubrics）的设计和校准（Calibration）流程的详尽描述，简直是实操指南级别的细致。我一直苦恼于如何让不同阅卷老师之间的评分保持一致性，这本书里关于“评分者间信度”的提升策略，包括预先培训、多轮会审、以及利用统计方法剔除异常评分者等步骤，为我提供了一套完整的操作流程图。此外，书中对新技术在评估中的应用也有所涉猎，比如如何评估计算机辅助测试（CAT）的效率和公平性，这显示了作者紧跟时代发展的视野。唯一的遗憾是，上册的内容聚焦于基础理论和客观题为主的测量，对于动态的、交互式的、尤其是那些依赖于人工智能分析的现代测试的深入剖析，可能需要等待下册的补充了。但就目前所涵盖的内容而言，其深度和广度已经足以让使用者受益匪浅。

评分☆☆☆☆☆

说实话，这本书的份量和深度，绝对超出了一个普通英语学习者所能承受的范畴，它更像是面向专业人士的进阶读物。我个人背景是从事对外汉语教学的，但因为工作需要经常接触到跨文化交际能力的评估，所以抱着“触类旁通”的心态购入了此书。这本书的价值在于，它将英语评估领域中那些看似遥不可及的理论概念，通过大量贴近实际的案例进行了具象化处理。例如，在论述测验编制的命题原则时，书中提到如何确保试题情境的文化敏感性和真实性，这对于我们评估非母语学习者时的文化偏误问题提供了绝佳的思考框架。我特别欣赏它对“测验负面影响”（Test Impact）的讨论，这在很多基础教材中是被忽略的。它引导我们思考，一个评估工具的使用，除了测出学习者的语言能力外，是否反过来扭曲了教学目标或制造了不公平的学习压力。这种批判性的反思能力，正是专业评估人员必备的素养。阅读过程中，我常常需要停下来，结合我手头正在进行的项目去对照反思，这本书提供的不是“标准答案”，而是一套**“思考工具箱”**。虽然有些章节涉及到较深的测量统计理论，需要一定的数学基础来辅助理解，但总体来看，其逻辑的连贯性和论证的说服力，足以支撑读者攻克这些难关。

评分☆☆☆☆☆

这本《英语评估与测试（上册）》简直是为我这种长期在“考”与“评”之间摸索的英语学习者和教育工作者量身定做的宝典。说实话，我之前接触过不少关于英语测试理论的书籍，大多要么过于学术化，堆砌着晦涩难懂的统计学名词，读起来昏昏欲睡；要么就是流于表面，只教你如何“应试”，却对评估背后的科学原理讳莫如深。但这本教材的平衡感做得极其到位。它并没有直接丢给我一堆冷冰冰的公式，而是从构建有效性（Validity）和可靠性（Reliability）的基石讲起，用清晰的逻辑链条引导我们理解，一个“好”的测试究竟应该具备哪些内在特质。最让我惊喜的是，它在讲解项目分析（Item Analysis）时，不仅停留在了难度指数（P值）和区分度指数（D值）的计算上，更深入探讨了如何利用这些数据反思我们命题的质量和教学的侧重点。例如，书中对多选题区分度低的分析，直接点明了可能是选项设置不当或是题目考察知识点模糊导致的，这对于我日常出卷子时避免“无效试题”具有极强的指导意义。阅读过程中，我感觉自己不再是孤立地处理一个个测试分数，而是站在了教育测量学的制高点上，对整个评估流程有了宏观且微观的洞察。如果非要挑剔，也许是希望能在某些特定技能（如口语和写作的效度证据收集）的实操案例上再多展开一些，但瑕不掩 পুষ，对于打牢理论基础来说，这已是顶尖水平。

评分☆☆☆☆☆

这本书的阅读体验是一次酣畅淋漓的“知识重构”。在此之前，我对“英语评估”的理解可能还停留在“出卷子”、“改卷子”的层面，充满了经验主义的色彩。但读完《英语评估与测试（上册）》，我才真正理解了评估的科学性、严谨性和伦理责任。最让我佩服的是它对于“测量误差”的坦诚讨论。作者毫不避讳地指出，任何测试都存在误差，关键在于我们如何系统地识别、量化和控制这些误差。书中对随机误差和系统误差的区分，以及如何通过设计来减少它们，是极其宝贵的知识点。它教会我，不要盲目相信任何一个分数，而是要关注分数背后的置信区间。此外，它对不同评估目的的测试设计原则的对比分析也极富启发性，比如一个用于诊断学习障碍的测试，其设计逻辑和关注点，与一个用于入学选拔的测试是截然不同的，需要不同的效度证据来支撑。这本书的语言虽然专业，但行文流畅，引人入胜，它成功地将看似枯燥的心理测量学理论，与我们日常的英语教学评估实践紧密地结合在了一起，让理论不再是纸上谈兵，而是可以指导实践的强大工具。这绝对是一本值得反复研读、并时常翻阅的专业参考书。

评分☆☆☆☆☆

我花了很长时间才把它彻底啃完，感受最深的是其内容组织呈现出的那种严谨的、如同精密仪器一般的结构感。它不像市面上那些“速成秘籍”，试图用一两招就解决所有评估难题，而是采取了一种由浅入深、层层递进的教学法。从最基础的测试类型划分——能力测试、成就测试、诊断性测试——到后面对各种主流测试标准（如CEFR、ACTFL等）的解读，每一步都走得踏实而有力。尤其是在谈到量表的构建与标准化过程时，作者的阐述简直就是一次高质量测试从概念到落地的全景演示。我记得有一章专门讲解了信度估计的不同方法，比如重测信度、分半信度以及内部一致性信度（特别是Cronbach's Alpha的适用情境分析），它不仅给出了公式，更重要的，它解释了每种方法背后的假设条件和局限性。这对于我们这些需要进行大规模教育研究的人来说至关重要，因为选错信度估计方法，可能直接导致研究结论出现偏差。这本书的排版和插图也值得称赞，图表清晰明了，复杂的统计概念通过可视化手段得到了很好的消化，极大地降低了理解难度。总而言之，它提供了一个扎实的、批判性的视角去看待所有现行的英语测试，让我对“分数”背后的含义有了更深层次的理解和敬畏。

评分☆☆☆☆☆