International Open Access Journal Platform

logo
open
cover
Current Views: 1215878
Current Downloads: 1375490

Psychology of China

ISSN Print: 2664-1798
ISSN Online: 2664-1801
Contact Editorial Office
Join Us
DATABASE
SUBSCRIBE
Journal index
Journal
Your email address

取代还是共存——信度估计系数阿尔法与欧米伽

Replace or Coexist —Cronbach’s Alpha and McDonald’s Omega

Psychology of China / 2022,4(8): 954-961 / 2022-09-05 look524 look2960
  • Authors: 高清辉
  • Information:
    厦门大学,厦门
  • Keywords:
    Reliability estimation; Cronbach’s α; MacDonald’s ω
    信度估计; 克隆巴赫α; 麦克唐纳ω
  • Abstract: Coefficient Cronbach’s α is the most widely used for estimating reliability. Researchers have used the index extensively in the papers that need to report its reliability, but many scholars have also questioned it. The α coefficient is used as reliability and must satisfy the “essential tau-equivalence” assumption. This assumption is too strict and difficult to meet, and its violation may lead to α overestimating or underestimating the reliability. Using Cronbach’s α to estimate internal consistency is inappropriate. The acceptable lower bound to the reliability of a test is often set empirically, and there is no precise standard. Researchers increase the α value by deleting items, which may also lead to a decrease in the actual reliability of the scale. Although these problems exist, α has been widely used in related research for a long time. This is due to the following reasons: many research fields involve reporting reliability coefficients, researchers have not been taught how to use α correctly for a long time; in addition, standard statistical software has the function of calculating α, which is convenient for calculation; the editors also have requirements for reporting α in the paper. McDonald pointed out that α is a particular case of MacDonald’s ω, and ω becomes α when the “essential tau-equivalence” is satisfied. ω is better than α when the “essential tau-equivalence” cannot be satisfied in reliability estimation. However, the calculation of ω must use confirmatory factor analysis (CFA), which is challenging to implement in the pre-computer era. Researchers have gradually started to use ω instead of α in their research, and more and more people have accepted ω. However, whether MacDonald’s ω should be used instead of Cronbach’s α, there is still a heated debate in the academic community. Opinions on ω mainly focus on the fact that the actual values of ω and α are not significantly different in the calculation. That ω may show more estimation failures when the sample size and overall reliability are small. It is unreasonable to abandon α or be unwilling to move forward and stick to α. In future research, use McDonald’s omega and Cronbach’s alpha for reliability estimation to coexist for a long time and complement each other. 在众多信度指标中,克隆巴赫α (Cronbach’s α )系数最为常用,但α 系数在使用中常常忽视重要的“基本τ 等价”假设,导致α 系数并非真正的信度;并且存在着误用与滥用、阈值不确定等问题,受到很多批评,被长期广泛应用是因其易于计算、易于理解等特性。麦克唐纳ω 克服了α 系数的上述缺点,信度估计上明显优于α 系数,但麦克唐纳ω 也存在计算要求较高等缺点,尚无法取代克隆巴赫α 。两个信度指标ω 与α 将长期共存,在研究报告中应同时提供ω 与α 的数值,互相补充。
  • DOI: https://doi.org/10.35534/pc.0408114
  • Cite: 高清辉.取代还是共存——信度估计系数阿尔法与欧米伽[J].中国心理学前沿,2022,4(8):954-961.


1 引言

在心理学和一些实证行为科学研究中,经常要关注一些无法直接测量的量或结构,例如某种能力、心理压力等。多项目测量量表是研究这些量或结构的常用方法:设置若干个能表达隐性目标量的项目,考察对象的反应,运用某种方式进行数字的聚合(常见如加总或平均),以生成每个被测量对象的测量值。在此类测试中,测量结果的稳定程度即信度是一个非常重要的指标。在众多信度指标中,克隆巴赫α(Cronbach’s α)系数最为常用。自从克隆巴赫在1951年提出α系数[1]之后,α系数得到了广泛的应用,且被引用的次数极高,按谷歌学术搜索的统计,到2021年其被引用次数已超过
54000次。虽然α系数得到如此多的引用,但对其的批评也很多,有的甚至很尖锐。孟庆茂和刘红云指出“用α系数对测验进行评价的确存在一些问题”[2]。西茨玛(Sijtsma)认为“想必没有其他统计数据受到如此多的误解和混淆”[3]。彼得斯(Peters)建议放弃使用α系数,因为“Cronbach’s α值的用处十分有限”[4]。许多学者提议用麦克唐纳的ω[5]取代α,认为研究人员应该从α转向ω,但因种种原因目前仍是α占主导地位。在2021年,前述克隆巴赫这篇开创性的论文[1]发表70周年之际,心理测量学界的权威刊物“Psychometrika”以“克隆巴赫α的再审视”为专题发表了5篇专栏论文,表明了心理测量学界对该问题的关切。正如温忠麟所言,α是“晃而不倒的信度标杆”[6],“晃”是因为其自身的局限性而受到多方批评,“不倒”是它在新条件下仍有存在的价值。那么,作为信度指标,α系数具体有哪些缺点?α系数既然有那么多的局限性,为何还会被广泛应用呢?能否用ω取代α?我们将对这些问题作探讨。

2 作为信度指标的α系数

2.1 克隆巴赫α系数

在许多文献中,α通常被直接看作测试的信度,但这是有条件的。信度的定义来自经典测试理论(CTT),一个测试的信度是一个被测团体真分数的变异数与实际分数变异数的比值。根据信度的理论定义实际求出一个测试的信度是困难的,测试中我们只能得到实际分数,而真分数与测量值的误差都是未知的,解决方法一是添加一些假定,缩小不确定性;二是估计信度的下界。克隆巴赫Cronbach对信度的估计用α表示[1],即

 (1)

其中,Χ是由k个项目组成的测试,Χ1,Χ2,Χ3……Χk是观测到的项目分数。他证明了α是所有可能的分半信度的平均值。因此α在概念上等同于同一场合实施的两平行形式的测试之间的相关性。在没有计算机辅助计算的时代,通过简单的运算就可得到所有可能分半信度的平均值,这是一种“快速且安全”的估计信度的方法。此后,它就被称为“Cronbach’s α”而广泛应用于表示测试的信度,但也不断受到质疑,主要有以下四个方面。

2.1.1 重要的假定被忽视

腾伯格与索康(TenBerge and Socan)证明了在CTT假设下α和信度之间有如下关系[7]。

 (2)

Χ是由k个项目组成的测试,Χ1,Χ2,Χ3……Χk是观测到的项目分数;Ti是第i项目的真分数。由式(2)可得两个结论:(1)α是信度的下界,式(2)的右边是信度ρ(X),左边的第二项是非负数(因为Var(·)≥0),因此,α≤ρ(X);

(2)当且仅当Var(Ti-Tj)=0 (i≠j) (3)

时,α=ρ(X)。

条件(3)实际意义为“任意两个项目的真分数只相差一个常数”即Ti=Tj+Cij(i≠j),其中Cij是与第i第j项目有关但与被试无关的常数。这就是所谓的“基本tau等价”(essentially τ equivalent)。只有在“基本τ等价”的假设满足时α才是真正的信度。要求任意两个项目的真分数都相等的“τ等价”实在是要求过高,即使加上了“基本”,允许相差一个常数,也是过于严苛的假设。若违反了“基本τ等价”,α可能高估或低估了信度,对于项目数较少的测试,偏差程度可能很大。格林(Green)与杨(Yang)的模拟发现,违反基本τ等价,甚至可能使α低估真实信度达0.2之多[8],将动摇测试者对此测试可靠性的看法。

2.1.2 α的误用

α也有相当多的误用,误用最多的是关于α与同质性和内部一致性的关系,内部一致性(Internal Consistency)是指项目之间的关系,各项目得分之间有较高的相关性,则说其内部一致性高。高内部一致性是测量测试项目样本同质性或一维性的必要条件,但不是充分条件。将同质性和内部一致性看作同一概念,并将α看作是同质性或内部一致性的度量,这是典型的误用。达文波特(Davenport)证明了式(4)。

α=kr/[1+(k-1)r] (4)

其中,r是所有项目成对相关系数的平均值,可作为内部一致性的度量[9]。从式(4)可以看出,在固定r>0的条件下,只要增加项目数k就可使α无限接近1。可见α是不能作为内部一致性度量的。

2.1.3 阈值问题

将α看作测试的信度时,就面临如何确定阈值问题:α多大才可以认为测试是可以接受的?科蒂纳(Cortina)认为α大于等于70%是可接受的[10]。该阈值源于努纳利(Nunnally)的建议[11],并在很多论文中得到认可和应用,然而该建议只是从一般的信度考虑,而非归因于α本身的性质。努纳利的书在1967年版时指出信度在0.5或0.6就足以进行探索性研究,但在1978年版时增加到0.7,人们选择引用哪一个版本,往往取决于他们的α高于还是低于0.7。文图拉·莱昂(Ventura-León)指出,判断描述一个测试的质量仅靠一个α的值是不够,认为“世界不应当围着‘α≥0.70’转”[12]。实际上在某些情况下,α水平较低的测试可能非常有用。α的阈值在不同情况下应有不同,需要进行的区分越精细,信度就必须越高。

2.1.4 删除项目问题

如果测试的α值不够高,达不到测试人所希望的值(例如0.7),研究人员常常会删除原测试中某些项目来提高α值,这样做并非无懈可击,删除项目间相关性较低的项目可能会导致α值的夸大,会产生样本的α水平比总体的α水平更高的“α膨胀”现象。雷科夫(Raykov)认为即使项目数量减少α似乎也在增加,但实际上量表的真实信度可能反而降低[13]。

2.2 α系数被广泛引用的原因

α系数有如此多被质疑之处,但α系数仍被大量引用,有以下几个原因。

一是论文发表的需要。多项目测量量表是心理学和许多社会科学学科经常使用的重要方法,可以说有多项目测量量表的地方就有测量信度的要求。许多期刊和组织规定,发表关于多项目测量量表的论文必须报告信度数据。科蒂纳回顾了从1966年到1990年社会科学文献引用α系数的情况,“在278种不同期刊上被引用”,列举出引用的领域有“教育、工业、社会、临床、儿童、社区和异常心理学、实验心理学、社会学、统计学、医学、咨询、护理、经济学、政治学、犯罪学、老年学、广播学、人类学和会计学等”[10]。

二是教学上有关统计学的训练较少而导致α的误用。在心理学教育系统中,数学和统计学训练不是重点,这就导致只应用α而不顾α的应用条件,以至于误用。针对α系数的严厉批评文章大部分只能在心理测量学的期刊(如“Psychometrika”等)上或在以方法论家和统计学家为目标读者的期刊上找到。如前述关于“基本τ等价”的问题,虽然在理论上是一个非常重要的假设,但只在测量理论圈受到关注,在实际测量中社会科学家们很少注意这个问题,形成“你讲你的新思想,我用我的老方法”的尴尬局面。

三是α的计算较为便捷,配套软件较多。如SAS、SPSS等软件可以帮助研究者们不必深究统计概念、编写计算机程序,只要轻点鼠标就可以轻松得到所需要的参数,便于应用。

3 α的挑战者ω

3.1 挑战α地位的新指标

70年来虽然有许多学者指出α的诸多缺点,但要用新的指标来取代α系数却很不容易。例如:陈希镇的β系数[14],谢小庆的γ系数[15],丁树良和周新莲的ξ系数[16]等所提出的新系数都只是改进了α的部分功能,无法得到普及,当然也无法挑战α了。

本特勒(Bentler)和伍德沃德(Woodward)提出了信度最大下限glb(Greatest Lower Bound),可以证明,α≤λ2≤g1b≤ρ(X),因此作为信度的下界,glb比α要好[17]。雷弗尔(Revelle)和津巴格(Zinbarg)则建议用麦克唐纳的ω[18]。

3.2 麦克唐纳的ω

1970年,麦克唐纳(McDonald)在论及因子分析的论文的附录中给出了系数θ[19],后来在其1999年的论文中,他将θ改称为ω[5],中文文献称为组合信度或合成信度,大多数文献将其称为麦克唐纳的欧米伽McDonalds ω,ω的含义如下:

考虑单因子模型,设Ti=μi+λiT i=1,…,k; (5)

其中μi是常数,满足∑μi=0(本节中,∑表示i从1到k取和,下同),λi是因子负荷,满足∑λi=1,τ是唯一隐变量,于是可将Xi分解为式(6)。

Xi=μi+λiT+ei (6)

利用因子分析求出λi,便可依下式求出ω:

(7)

上式中,分子是所有项目的非标准因子载荷和的平方,分母是它再加上项目剩余方差之和,是信度的表达式。麦克唐纳(1999)指出,在假定一维的情况下,若所有λi都相等,则(7)式中的ω就是Cronbach的α[5]。这就是说,α是ω的特例。注意到ω没有假定“基本τ等价”,而当“基本τ等价”被满足时,所有λi都相等,ω就成为α。这就说明ω在信度估计中是优于α的选项。满足“基本τ等价”的模型,ω的性能至少能和α一样好,而在违反“基本τ等价”时ω优于α。

因为ω明显优于α,近年来不仅得到理论工作者的大力推荐,随着方便的计算方法的出现,也得到了实证工作者的青睐。例如古伯(Goodboy)和马丁(Martin)希望“通信学者应该提供信度本身的计算,即系数ω”以取代“学科对α作为信度估计的惯常依赖”[20]。泰勒(Taylor)提出了过度依赖于克隆巴赫α的担忧,鼓励研究人员更多地使用ω系数[21]。目前邓恩(Dunn)等人所希望的“研究人员应该从α转向ω[22]”的现象开始出现,越来越多的人已接受了ω,只报告α的数据可能是“过时研究”,低于标准,因此提供ω系数势在必行。

3.3 ω计算障碍的扫除

ω的计算必须使用验证性因子分析(CFA),计算复杂,没有专用的软件包可计算,在推广普及上不及α。为改变这种状态,许多学者在ω计算软件方面做了不少工作。例如,温忠麟和叶宝娟给出了单位测验计算ω的LISREL程序[23];古伯和马丁提供了如何利用MPLUS软件在可用数据集上计算ω的方法[20];麦克尼什给出了用R软件包求得ω的方法[24]等,这些工具大大方便了ω的计算。

4 取代还是共存——α和ω的将来

4.1 争论还在继续

α理论上受到严厉的批评,又被证明只是ω的特例,计算容易的优势正在消失,在应用领域“用ω取代α”的呼声渐高,α被ω取代看来只是时间的问题,然而实际上并非如此。在前述以“克隆巴赫α的再审视”为专题发表在2021年的“Psychometrika”刊物上的5篇专栏论文中,西茨玛的态度转变引起了人们的关注。西茨玛是Tilburg大学社会科学学院统计学教授,2009年西茨玛对“克隆巴赫α非常有限的有用性”[3]的评论在跨学科信度研究人员中产生了巨大影响,截至2021年3月,该文是Psychometrika上发表的被引用次数最多的文章,文中他严厉批评α,“α不是内部一致性的衡量标准,它也不是单位程度的度量”。建议用其他指标来替换α。12年后,他却为α的缺点做了诸多辩护,认为 “使用CTT还是FA因子分析取决于偏好;两者在科学上是一致的……系数α提供了一个下限,当测试通过近似测量一维或系数时,该下限很有用”[24]。西茨玛态度的变化,说明在学术界关于是否用ω取代α还存在不同的意见。

“挺α派”的一个重要理由是:ω与α实际相差不大。这个问题其实麦克唐纳已经觉察到了,他指出,α值远低于ω的实际例子“很难找到”[5]。在海斯(Hayes)和考茨(Coutts)的研究中,计算了17个量表的α和ω值(用CFA估计),当四舍五入到两位小数时有11个量表的α和ω没有差别,而其余6个的差异不过0.01而已[26]。经实验研究表明,α和ω似乎不太可能有意义的差异。彼得森(Peterson)和金(Kim)用元分析(Meta-analysis)方法研究了这个问题,从24种期刊327篇文章中获得了共2524对的α和ω值,得出结论:在相同研究条件下,在估计信度上,ω比α明确得更好,但一般说来,差异很小[27],α严重低估了真实信度的说法难以让人信服。

4.2 α与ω将长期共存

虽然α有许多缺点,但ω的计算要求更高,当样本数和总体信度较低时,ω可能显示出更多的估计失败,估计信度预期信度之间可能有更大距离,因此ω并不能完全取代α。此外,α还提供了所有条件下的一致低估,确保α提供内部一致性的下限估计,而ω在同一方向上没有始终如一的误差(即时高时低)。Cho指出,几乎没有经验证据表明ω信度比α更准确[28]。过去70年发展起来与α、ω相关的研究显示,α、ω与信度之间的关系相当复杂,无论如何,不应简单化地抛弃α或不愿前进固守α,而是应该对测量质量的评价通过多种渠道采用多种方法互相参照,体现为α与ω的共存。未来实际应用的论文应同时将α和ω的数据给出,使它们提供的信息互相补充,以示信度达到要求。ω与α将长期共存,互相补充。

参考文献

[1] Cronbach L J.Coefficient alpha and the internal structure of tests[J].Psychometrika,1951,16(3).

[2] 孟庆茂,刘红云.α系数在使用中存在的问题[J].心理学探新,2002,22(3).

[3] Sijtsma K.On the use,the misuse,and the very limited usefulness of Cronbach’s alpha[J].Psychometrika,2009,74(1).

[4] Peters G.The alpha and the omega of scale reliability and validity:Why and how to abandon Cronbach’s alpha and the route towards more comprehensive assessment of scale quality[J].European Health Psychologist,2014,16(2).

[5] McDonald R P.Test theory:A unified treatment[M].Mahwah,NJ:Lawrence Erlbaum,1999.

[6] 温忠麟.α系数:晃而不倒的信度标杆[N].中国社会科学报,2011-10-13(12).

[7] TenBerge J M F,Socan G.The greatest lower bound to the reliability of a test and the hypothesis of unidimensionality[J].Psychometrika,2004,69(4).

[8] Green S B,Yang Y.Commentary on coefficient alpha:A cautionary tale[J].Psychometrika,2009,74(1).

[9] Davenport E C,Davison M L,Liou P Y,et al.Reliability,Dimensionality,and Internal Consistency as Defined by Cronbach:Distinct Albeit Related Concepts[J].Educational Measurement:Issues and Practice,2015,34(4).

[10] Cortina J M.What is coefficient alpha? An examination of theory and applications[J].Journal of Applied Psychology,1993,78(1).

[11] Nunnally J C.Psychometric theory[M].New York,NY:McGraw-Hill,1978.

[12] Ventura-León J,Pea-Calero B N.The world should not revolve around Cronbach’s alpha≥70[J].Adicciones,2020,33(4).

[13] Raykov T.Reliability if deleted,not “alpha if deleted”:Evaluation of scale reliability following component deletion[J].British Journal of Mathematical and Statistical Psychology,2007,60(2).

[14] 陈希镇.如何正确使用信度估计公式[J].心理学报,1991(1).

[15] 谢小庆.信度估计得γ系数[J].心理学报,1998,30(2).

[16] 丁树良,周新莲.一种新的信度估计[J].江西师范大学学报(自然科学版),2002,26(3):222-224.

[17] Bentler P M,Woodward J A.Inequalities among lower bounds to reliability:With applications to test construction and factor analysis[J].Psychometrika,1980,45(2).

[18] Revelle W,Zinbarg R E.Coefficients alpha,beta,omega,and the glb:Comments on Sijtsma[J].Psychometrika,2009,74(1).

[19] McDonald R P.The theoretical foundations of principal factor analysis,canonical factor analysis,and alpha factor analysis[J].British Journal of Mathematical and Statistical Psychology,1970,23(1).

[20] Goodboy A K,Martin M M.Omega over alpha for reliability estimation of unidimensional communication measures[J].Annals of the International Communication Association,2020,44(4).

[21] Taylor J M.Coefficient Omega[J].Journal of Nursing Education,2021,60(8).

[22] Dunn T J,Baguley T,Brunsden V.From alpha to omega:A practical solution to the pervasive problem of internal consistency estimation[J].British Journal of Psychology,2014,105(3).

[23] 温忠麟,叶宝娟.测验信度估计:从 α 系数到内部一致性信度[J].心理学报,2011,43(7).

[24] McNeish D.Thanks coefficient alpha,we’ll take it from here[J].Psychological Methods,2018,23(3).

[25] Sijtsma K,Pfadt J M.Rejoinder:The Future of Reliability[J].Psychometrika,2021,86(4).

[26] Hayes A F,Coutts J J.Use Omega Rather than Cronbach’s Alpha for Estimating Reliability,But……[J].Communication Methods and Measures,2020,14(1).

[27] Peterson R A,Kim Y.On the relationship between coefficient alpha and composite reliability[J].The Journal of applied psychology,2013,98(1).

[28] Cho E.Neither Cronbach’s alpha nor McDonald’s omega:A commentary on Sijtsma and Pfadt[J].Psychometrika,2021,86(4).

Already have an account?
+86 027-59302486
Top