语言测验的质量评价.PPT

下载文档 降价啦

7
0
约6.28千字
约 53页
2017-08-12 发布于天津
举报
版权申诉
保障服务

语言测验的质量评价.PPT

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

语言测验的质量评价

（1）测验的长度（题目数量）一般来讲，测验题目数量越多，信度越高，但当题目数量过多时，被试会产生疲劳或厌倦，信度反而会降低。 HSK(初中等)有个170项目，但有人研究发现140个项目足以达到相当的，因此从经济的角度考虑，可以减少一些题目。（2）测验题目的同质性测验题目的同质性主要靠题目的区分性(如较高的点双列相关系数)来保证，一个测验所有题目都有较好的区分性，则内部一致性信度便会较高。（3）题目难易度分布如果题目难易度分布不好，就会造成分数范围缩小，分数的变异程度减小，因而降低信度系数。另外，过难的题目会增加猜测的可能，也会使信度降低。（4）被试样本的异质程度被试的水平差距越大，即被试异质程度越高，分数的变异范围就越大，信度系数就会越高。 4.2 测量的效度（Validity） ——准确性，是否达到测验目的 4.2.1 效度的基本概念 4.2.2 效度的类别 4.2.3 影响效度的一些因素 4.2.4 信度和效度的关系 4.2.1 效度的基本概念效度：指测量的有效性或准确性，即测量对它所要测的东西准确测量的程度。两个基本问题: 测验测量到了它要测量的东西吗？（测量效度）测验对它所测量的东西测量到了什么程度，它是否可以用于制定精确的决策？（用于决策的效度） 4.2.2 效度的类别（1）内容效度（Content Validity）（2）效标关联效度（Criterion-Related Validity）预测效度（Predictive Validity）共时效度（Concurrent Validity）（3）构想效度（Construct Validity）（1）内容效度（Content Validity）指测验的内容（测验项目）对所欲测量的内容范围或行为范围取样的代表性和恰当性程度，即指实际测验内容与预定测验内容之间的一致性程度。代表性如何就是内容效度问题。评判方法：主要靠经验判断，如专家判断的方法。内容效度的确定方法主要是逻辑分析的方法。其工作思路是请专家对测验题目与原定内容范围的吻合程度作出判断。（1）内容效度（Content Validity） ①明确测验目的及测验内容的范围； ②确定每个题目所测的内容，并与测验编制者所列的双向细目表对照； ③制订评定量表，考查题目对所定义的内容范围的覆盖率、判断题目难度与能力要求之间的差异等。（1）内容效度（Content Validity）评判步骤（2）效标关联效度（Criterion-Related Validity）效标就是衡量一个测验是否有效的外在标准，是我们所要预测的行为。如：我国高考的效标应该是被选拔出进入大学的考生未来在大学学习的成功程度； HSK的效标可以是根据其他可靠的手段评定的考生实际运用汉语的熟巧程度。根据测验的不同性质和用途，用来评判其效标关联效度的效标也是多种多样的，像学业成就、工作表现、特殊训练成绩、团体的能力划分、教师对学生的等级评定、其他相关测验的成绩等等都是常用的效标。效标关联效度指测验结果与效标的一致性程度。也就是测验分数与某一外部效标间的一致性程度，即测验结果能够代表或预测效标行为的有效性和准确性程度。计算方法：测验结果与效标之间的相关系数 =PEARSON(A2:A6,B2:B6) （2）效标关联效度（Criterion-Related Validity）效标关联效度分类 1）预测效度（Predictive Validity）以参加测验的被试未来的表现为效标来评定测验的有效性，看测验结果是否能够有效地预测被试未来的行为。 2）共时效度（Concurrent Validity）以测验实施相同或相近的时间里搜集到的其他经验性资料为效标。即所谓共时，是说效标资料与测验数据能够同时获得. （3）构想效度（Construct Validity）指测验结果与理论构想或特质之间的一致性程度。也就是测验是否实际测量了所欲测量的理论概念或能力。如： “幸福感” “智力” “职业倦怠” “汉语水平” 当人们想测量这些概念时，必然先量化这些概念，就要分析这些概念或能力是一个什么结构构想效度建立的过程测验编制者提出关于能力或特质的理论假设即所谓构想；对构想进行操作性定义即编制测验并实施测试；检验测试结果与构想的一致性程度。如：从一般的智力理论，可提出四项主要的假设：（1）智力随年龄的增长而增长；（2）智商是相对稳定的；（3）智力与学业成就有密切关