數據收集篇之十七: 我爲什麽反對在屬性數據MSA中用Kappa分析(上)

2019-7-30 18:03:10      來源:      

    這可能是(shì)一篇會引起很多争議(yì)的文章,在寫完初稿後擱置了大半年的時間,現(xiàn)在略作修改分兩次發完,希望能夠引起大家的讨論。
    熟悉我的人都知(zhī)道,在MSA中,我明确反對兩個東西。
    一個是(shì)ndc,因爲這隻是(shì)%P/Tv的另一個解釋,但(dàn)卻派生出獨立的判斷标準,使得兩個指标之間産生了矛盾,使人無所适從。在《六西格瑪管理統計指南》第3版(以下簡稱指南三)p.405-407有詳細闡述,在此不再贅述。
    另一個就是(shì)屬性數據MSA中的Kappa。
    一緻率、誤判率、漏判率這些簡單明了的指标足以讓我們對測量系統做出恰當的判斷,爲什麽還要畫蛇添足地加上一個Kappa呢?很多年來我從來不講Kappa,在藍皮書(shū)裏也隻是(shì)簡單提了一下,并沒有做詳細的闡述。但(dàn)這也沒有什麽用,Kappa分析仍大行其道,又(yòu)像ndc一樣,成爲了一種教條。
    雖然明确反對使用Kappa分析,但(dàn)說實話(huà),我自己也信心不足,畢竟對此沒有多深入的了解。爲此我做了一些功課,也有了一些心得。在此提出來與各位探讨,歡迎拍磚。
    我們先看看針對屬性數據的一緻性标準。


這樣的标準表述比較清晰,很容易理解,也比較容易得出結論。

    再看看Kappa的标準,大于0.9可接受,介于0.7~0.9可勉強接受,小于0.7不合格。但(dàn)0.70.9的實際意義是(shì)什麽,與一緻性有什麽關系,卻沒有說清楚。在實際應用中,當Kappa的結論與一緻性的結論矛盾時,往往讓人無所适從。如下面這個案例:



從分析結果上中,評估一緻性以及與标準的一緻性均隻有76%,但(dàn)Kappa值卻有0.75和0.87。根據上述标準判斷,一個是(shì)不合格,一個是(shì)可以讓步接受,那應該怎麽下結論呢?如果判定不合格,但(dàn)Kappa卻顯示可以用,尤其是(shì)後一個,都接近0.9了;如果判定可接受,但(dàn)明明一緻性不好啊。

    類似的不協調也出現(xiàn)在%P/Tv和ndc之間,這裏不再贅述。

    爲什麽會出現(xiàn)這種結果呢?本文試圖從Kappa分析的原理來做一探究。

    Kappa分析有兩種。

    一種是(shì)Cohen's Kappa,隻能用于分析對同一組對象兩次評價的一緻性,如一個人先後兩次評價的一緻性、一次評價與标準的一緻性、兩個人對同一組對象評價的一緻性等。具體原理參見(jiàn)拙作《列聯表篇之二:四格表的分析》。

    另一種就是(shì)大家熟悉的Fleiss' Kappa,可以用于對同一組對象的多次評價的一緻性分析,目前流行的屬性數據MSA就是(shì)采用這種分析。具體原理參見(jiàn)拙作《列聯表篇之十:屬性相(xiàng)同雙向有序表的Kappa分析》。

    首先用Cohen's Kappa做一個熱身。

    在四川大學王軍2006年的碩士論文《Kappa系數在一緻性評價中的應用研究》中,總結了三種反例。其中之一如下例:

這個案例中,一緻率達到了0.704,但(dàn)算出的Kappa值卻隻有0.006,這明顯不符合常理。更進一步看下一個例子:

這兩個案例的一緻率都是(shì)0.8,但(dàn)Kappa值卻相(xiàng)差很多。

    問題出在四格表中左上角a和右下角d取值不平衡上。可以想見(jiàn),ad相(xiàng)差越大,Kappa值越小。

    我們可以做一個模拟,來看看Kappa值是(shì)如果随ad的取值變化的。

    爲了方便使用Cohen'sKappa,假設在屬性一緻性分析時,選擇了50個樣品,由一個人重複測量2次。構建的四格表如下:

爲了分析方便,我們固定取b和c爲1,這樣可以計算出一緻率P0爲0.96,這應該是(shì)很高的一緻率了。a取值從24逐漸減到0,同時d從24逐漸加到48,我們可以看看Kappa值呈現(xiàn)怎樣的變化。

    可以看出,當a減少到13時,Kappa值降低到0.9以下,當a繼續減少時,Kappa值會快速下降,這時就會出現(xiàn)判據不一緻的問題。

    如果将一緻率降低到0.9,則Kappa的變化曲線(xiàn)是(shì)這樣的。

    此時Kappa最大隻有0.8,也就是(shì)說,即使一緻率達到了90%,因爲Kappa均在0.8以下,因此也不能得出測量系統合格的結論,又(yòu)産生了判斷不一緻的情況

    由上面的初步分析可以看出,Kappa值的大小依賴于樣本的結構。如果MSA樣本中合格與不合格品數量差異很大,則會得到小的Kappa值。如果你想得到比較Kappa值與一緻率大緻相(xiàng)當的結論,建議(yì)盡可能保持合格/不合格樣本量的平衡。

    在不了解樣本結構時直接根據Kappa下結論是(shì)危險的。即使Kappa值爲1,如果樣本全部是(shì)非常容易判斷的産品組成的,那麽這個結論也是(shì)值得懷疑的。反過來說,即使Kappa值不高,但(dàn)樣本構成中包含大量難判斷的産品,結論也不是(shì)不可接受,需要進一步分析檢驗員(yuán)判斷錯誤的實際情況後作出恰當的結論。

 更多課程可緻電咨詢

  • TEL:173 1580 8582