Расчет корреляции рангов кендалла. Коэффициент ранговой корреляции кендалла

Краткая теория

Коэффициент корреляции Кендалла используется в случае, когда переменные представлены двумя порядковыми шкалами при условии, что связанные ранги отсутствуют. Вычисление коэффициента Кендалла связано с подсчетом числа совпадений и инверсий.

Этот коэффициент изменяется в пределах и рассчитывается по формуле:

Для расчета все единицы ранжируются по признаку ; по ряду другого признака подсчитывается для каждого ранга число последующих рангов, превышающий данный (их обозначим через ), и число последующих рангов ниже данного (их обозначим через ).

Можно показать, что

и коэффициент ранговой корреляции Кендалла можно записать как

Для того, чтобы при уровне значимости , проверить нулевую гипотезу о равенстве нулю генерального коэффициента ранговой корреляции Кендалла при конкурирующей гипотезе , надо вычислить критическую точку:

где – объем выборки; – критическая точка двусторонней критической области, которую находят по таблице функции Лапласа по равенству

Если – нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между признаками незначимая.

Если – нулевую гипотезу отвергают. Между признаками существует значимая ранговая корреляционная связь.

Пример решения задачи

Условие задачи

При приеме на работу семи кандидатам на вакантные должности было предложено два теста. Результаты тестирования (в баллах) приведены в таблице:

Тест Кандидат 1 2 3 4 5 6 7 1 31 82 25 26 53 30 29 2 21 55 8 27 32 42 26

Вычислить ранговый коэффициент корреляции Кендалла между результатами тестирования по двум тестам и на уровне оценить его значимость.

Решение задачи

Вычислим коэффициент Кендалла

Ранги факторного признака располагаются строго в порядке возрастания и параллельно записываются соответствующие им ранги результативного признака . Для каждого ранга из числа следующих за ним рангов подсчитывается количество больших него по величине рангов (заносится в столбец ) и число рангов, меньших по значению (заносится в столбец ).

1 1 6 0 2 4 3 2 3 3 3 1 4 6 1 2 5 2 2 0 6 5 1 0 7 7 0 0 Сумма 16 5

Представление и предварительная обработка оценок экспертов

В практике используется несколько видов оценок:

- качественные (часто-редко, хуже-лучше, да-нет),

- шкальные оценки (интервалы значений 50-75, 76-90, 91-120 и т.п.),

Балльныеиз заданного интервала (от 2 до 5, 1 -10), взаимно независимые,

Ранговые (объекты располагаются экспертом в определенном порядке, и каждому приписывается порядковый номер – ранг),

Сравнительные, полученные одним из методов сравнения

метод последовательных сравнений

метод попарного сравнения факторов.

На следующем шаге обработки мнений экспертов необходимо оценить степень согласованности этих мнений.

Оценки, полученные от экспертов, могут рассматриваться как случайная переменная, распределение которой отражает мнения экспертов о вероятности того или иного выбора события (фактора). Поэтому для анализа разброса и согласованности оценок экспертов применяются обобщенные статистические характеристики – средние и меры разброса:

Средняя квадратичная ошибка,

Вариационный размах min – maх,

- коэффициент вариации V =ср.квадр.откл./ средняя арифм. (подходит для любого типа оценок)

V i = σ i / x i ср

Для оценки меры сходств а мнений каждой пары экспертов могут быть использованы самые разные методы:

коэффициенты ассоциации , с помощью которых учитывается число совпадающих и несовпадающих ответов,

коэффициенты противоречивости мнений экспертов,

Все эти меры можно использовать либо для сравнения мнений двух экспертов, либо для анализа связи между рядами оценок по двум признакам.

Коэффициент парной ранговой корреляции Спирмена:

где n – число экспертов,

c k – разность оценок i-го и j-го экспертов по всем T факторам

Коэффициент ранговой корреляции Кендалла (коэффициент конкордации) дает общую оценку согласованности мнений всех экспертов по всем факторам, но только для случаев, когда использовались ранговые оценки.

Доказано, что величина S, когда все эксперты дают одинаковые оценки всех факторов, имеет максимальное значение, равное

где n – число факторов,

m – количество экспертов.

Коэффициент конкордации равен отношению

причем если W близок к 1, то все эксперты дали достаточно согласованные оценки, иначе их мнения не согласованы.

Формула для расчета S приведена ниже:

где r ij - ранговые оценки i-го фактора j-ым экспертом,

r ср - средний ранг по всей матрице оценок и равен

И следовательно формула расчета S может принять вид:

В случае, если отдельные оценки у одного эксперта совпадают, и их при обработке сделали стандартизированными, то для вычисления коэффициента конкордации используется другая формула:



где Т j рассчитывается для каждого эксперта (в том случае, если его оценки повторялись для разных объектов) с учетом повторений по следующим правилам:

где t j - число групп равных рангов у j-го эксперта, а

h k - число равных рангов в k-ой группе связанных рангов j-го эксперта.

ПРИМЕР. Пусть 5 экспертов по шести факторам ответили при ранжировании так, как показано в таблице 3:

Таблица 3 – Ответы экспертов

Эксперты О1 О2 О3 О4 О5 О6 Сумма рангов по эксперту
Э1
Э2
Э3
Э4
Э5

В связи с тем, что получено не строгое ранжирование (оценки у экспертов повторяются, а суммы рангов не равны), произведем преобразование оценок и получим связанные ранги (таблица 4):

Таблица 4 – Связанные ранги оценок экспертов

Эксперты О1 О2 О3 О4 О5 О6 Сумма рангов по эксперту
Э1 2,5 2,5
Э2
Э3 1,5 1,5 4,5 4,5
Э4 2,5 2,5 4,5 4,5
Э5 5,5 5,5
Сумма рангов по объекту 7,5 9,5 23,5 29,5

Теперь определим степень согласованности мнений экспертов с помощью коэффициента конкордации. Так как ранги связанные, будем вычислять W по формуле (**).

Тогда r ср =7*5/2=17,5

S = 10 2 +8 2 +4.5 2 +4.5 2 +6 2 +12 2 = 384.5

Перейдем к расчетам W. Для этого вычислим отдельно значения T j . В примере специально так подобраны оценки, что у каждого эксперта есть повторяющиеся оценки: у 1-го их две, у второго - три, у третьего - две группы по две оценки, так же и у четвертого, у пятого - две одинаковые оценки. Отсюда:

Т 1 = 2 3 – 2 = 6 Т 5 = 6

Т 2 = 3 3 – 3 = 24

Т 3 = 2 3 –2+ 2 3 –2 = 12 Т 4 = 12

Мы видим, что согласованность мнений экспертов достаточно высокая и можно переходить к следующему этапу исследования – обоснованию и принятию рекомендованной экспертами альтернативы решения.

В противном случае необходимо вернуться к этапам 4-8.

Ранговый коэффициент корреляции характеризует общий характер нелинейной зависимости: возрастание или убывание результативного признака при возрастании факторного. Это показатель тесноты монотонной нелинейной связи.

Назначение сервиса . С помощью данного онлайн-калькулятора производится расчет коэффициента ранговой корреляции Кендэла по всем основным формулам, а также оценка его значимости.

Инструкция . Укажите количество данных (количество строк). Полученное решение сохраняется в файле Word .

Предложенный Кендэлом коэффициент строится на основе отношений типа «больше –меньше», справедливость которых установлена при построении шкал.
Выделим пару объектов и сравним их ранги по одному признаку и по другому. Если по данному признаку ранги образуют прямой порядок (т.е. порядок натурального ряда), то паре приписывается +1, если обратный, то –1. Для выделенной пары соответствующие плюс – минус единицы (по признаку X и по признаку Y) перемножаются. Результат, очевидно, равен +1; если ранги пары обоих признаков расположены в одинаковой последовательности, и –1 , если в обратной.
Если порядки рангов по обоим признакам у всех пар одинаковы, то сумма единиц, приписанных всем парам объектов, максимальна и равна числу пар. Если порядки рангов всех пар обратны, то –C 2 N . В общем случае C 2 N = P + Q, где P – число положительных, а Q – отрицательных единиц, приписанных парам при сопоставлении их рангов по обоим признакам.
Величина называется коэффициентом Кендалла.
Из формулы видно, что коэффициент τ представляет собой разность доли пар объектов, у которых совпадает порядок по обоим признакам (по отношению к числу всех пар) и доли пар объектов, у которых порядок не совпадает .
Например, значение коэффициента 0,60 означает, что у 80% пар порядок объектов совпадает, а у 20% не совпадает (80% + 20% = 100%; 0,80 – 0,20 = 0,60). Т.е. τ можно трактовать как разность вероятностей совпадения и не совпадения порядков по обоим признакам для наугад выбранной пары объектов.
В общем случае расчет τ (точнее Р или Q) даже для N порядка 10 оказывается громоздким.
Покажем, как упростить вычисления.


Пример . Зависимость между объемом промышленной продукции и инвестициями в основной капитал по 10 областям одного из федеральных округов РФ в 2003 году характеризуется следующими данными:


Вычислите ранговые коэффициенты корреляции Спирмена и Кендэла. Проверить их значимость при α=0,05. Сформулируйте вывод о зависимости между объемом промышленной продукции и инвестициями в основной капитал по рассматриваемым областям РФ.

Решение . Присвоим ранги признаку Y и фактору X.


Упорядочим данные по X.
В ряду Y справа от 3 расположено 7 рангов, превосходящих 3, следовательно, 3 породит в Р слагаемое 7.
Справа от 1 стоят 8 ранга, превосходящих 1 (это 2, 4, 6, 9, 5, 10, 7, 8), т.е. в Р войдет 8 и т.д. В итоге Р = 37 и с использованием формул имеем:

X Y ранг X, d x ранг Y, d y P Q
18.4 5.57 1 3 7 2
20.6 2.88 2 1 8 0
21.5 4.12 3 2 7 0
35.7 7.24 4 4 6 0
37.1 9.67 5 6 4 1
39.8 10.48 6 9 1 3
51.1 8.58 7 5 3 0
54.4 14.79 8 10 0 2
64.6 10.22 9 7 1 0
90.6 10.45 10 8 0 0
37 8


По упрощенным формулам:




где n - объем выборки; z kp - критическая точка двусторонней критической области, которую находят по таблице функции Лапласа по равенству Ф(z kp)=(1-α)/2.
Если |τ| < T kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима. Если |τ| > T kp - нулевую гипотезу отвергают. Между качественными признаками существует значимая ранговая корреляционная связь.
Найдем критическую точку z kp
Ф(z kp) = (1-α)/2 = (1 - 0.05)/2 = 0.475

Найдем критическую точку:

Так как τ > T kp - отвергаем нулевую гипотезу; ранговая корреляционная связь между оценками по двум тестам значимая.

Пример . По данным об объеме строительно-монтажных работ, выполненных собственными силами, и численности работающих в 10 строительных компаниях одного из городов РФ, определить зависимость между этими признаками с помощью коэффициента Кендела.

Решение находим с помощью калькулятора .
Присвоим ранги признаку Y и фактору X.
Расположим объекты так, чтобы их ранги по X представили натуральный ряд. Так как оценки, приписываемые каждой паре этого ряда, положительные, значения «+1», входящие в Р, будут порождаться только теми парами, ранги которых по Y образуют прямой порядок.
Их легко подсчитать, сопоставляя последовательно ранги каждого объекта в ряду Y с стальными.
Коэффициент Кендэла .

В общем случае расчет τ (точнее Р или Q) даже для N порядка 10 оказывается громоздким. Покажем, как упростить вычисления.

или

Решение .
Упорядочим данные по X.
В ряду Y справа от 2 расположено 8 рангов, превосходящих 2, следовательно, 2 породит в Р слагаемое 8.
Справа от 4 стоят 6 ранга, превосходящих 4 (это 7, 5, 6, 8, 9, 10), т.е. в Р войдет 6 и т.д. В итоге Р = 29 и с использованием формул имеем:

X Y ранг X, d x ранг Y, d y P Q
38 292 1 2 8 1
50 302 2 4 6 2
52 366 3 7 3 4
54 312 4 5 4 2
59 359 5 6 3 2
61 398 6 8 2 2
66 401 7 9 1 2
70 298 8 3 1 1
71 283 9 1 1 0
73 413 10 10 0 0
29 16


По упрощенным формулам:


Для того чтобы при уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального коэффициента ранговой корреляции Кендалла при конкурирующей гипотезе Н 1: τ ≠ 0,надо вычислить критическую точку:

где n - объем выборки; z kp - критическая точка двусторонней критической области, которую находят по таблице функции Лапласа по равенству Ф(z kp)=(1 - α)/2.
Если |τ| T kp - нулевую гипотезу отвергают. Между качественными признаками существует значимая ранговая корреляционная связь.
Найдем критическую точку z kp
Ф(z kp) = (1 - α)/2 = (1 - 0.05)/2 = 0.475
По таблице Лапласа находим z kp = 1.96
Найдем критическую точку:

Так как τ

КЕНДАЛЛА КОЭФФИЦИЕНТ РАНГОВОЙ КОРРЕЛЯЦИИ

Одна из выборочных мер зависимости двух случайных величин (признаков) Xи Y, основанная на ранжировании элементов выборки (X 1 , Y x ), .. ., ( Х п, Y n ). К. к. р. к. относится, таким образом, к ранговым статистикам и определяется формулой

где r i - У, принадлежащего той паре (X, Y ), для к-рой Xравен i, S = 2N -(п-1)/2, N-число элементов выборки, для к-рых одновременно j>i и r j >r i . Всегда В качестве выборочной меры зависимости К. к. р. к. широко использовался М. Кендаллом (М. Kendall, см. ).

К. к. р. к. применяется для проверки гипотезы независимости случайных величин. Если гипотеза независимости верна, то E t =0 и D t =2(2n+5)/9n(n-1). При небольшом объеме выборки проверка статистич. гипотезы независимости производится с помощью специальных таблиц (см. ). При n>10 пользуются нормальным приближением для распределения т: если

то гипотеза о независимости отвергается, в противном случае принимается. Здесь a. - уровень значимости, u a /2 есть процентная точка нормального распределения. К. к. р. к., как и любая , может использоваться для обнаружения зависимости двух качественных признаков, если только элементы выборки можно упорядочить относительно этих признаков. Если X, Y имеют совместное нормальное с коэффициентом корреляции р, то связь между К. к. р. к. и имеет вид:

См. также Спирмена ранговой корреляции, Ранговый критерий.

Лит. : Кендэл М., Ранговые корреляции, пер. с англ., М., 1975; Ван дер Варден Б. Л., Математичеcкая , пер. с нем., М., 1960; Большев Л. Н., Смирнов Н. В., Таблицы математической статистики, М., 1965.

А. В. Прохоров.


Математическая энциклопедия. - М.: Советская энциклопедия . И. М. Виноградов . 1977-1985 .

Смотреть что такое "КЕНДАЛЛА КОЭФФИЦИЕНТ РАНГОВОЙ КОРРЕЛЯЦИИ" в других словарях:

    Англ. со efficient, rank correlation Kendall; нем. Kendalls Rangkorrelationskoeffizient. Коэффициент корреляции, определяющий степень соответствия упорядочения всех пар объектов по двум переменным. Antinazi. Энциклопедия социологии, 2009 … Энциклопедия социологии

    КОЭФФИЦИЕНТ РАНГОВОЙ КОРРЕЛЯЦИИ КЕНДАЛЛА - англ. соefficient, rank correlation Kendall; нем. Kendalls Rangkorrelationskoeffizient. Коэффициент корреляции, определяющий степень соответствия упорядочения всех пар объектов по двум переменным … Толковый словарь по социологии

    Мера зависимости двух случайных величин (признаков) Xи Y, основанная на ранжировании независимых результатов наблюдений (X1, Y1), . . ., (Xn,Yn). Если ранги значений Xрасположены в естественном порядке i=1, . . ., п,a Ri ранг Y, соответствующий… … Математическая энциклопедия

    Коэффициент корреляции - (Correlation coefficient) Коэффициент корреляции это статистический показатель зависимости двух случайных величин Определение коэффициента корреляции, виды коэффициентов корреляции, свойства коэффициента корреляции, вычисление и применение… … Энциклопедия инвестора

    Зависимость между случайными величинами, не имеющая, вообще говоря, строго функционального характера. В отличие от функциональной зависимости К., как правило, рассматривается тогда, когда одна из величин зависит не только от данной другой, но и… … Математическая энциклопедия

    Корреляция (корреляционная зависимость) статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом изменения значений одной или… … Википедия

    Корреляция - (Correlation) Корреляция это статистическая взаимосвязь двух или нескольких случайных величин Понятие корреляции, виды корреляции, коэффициент корреляции, корреляционный анализ, корреляция цен, корреляция валютных пар на Форекс Содержание… … Энциклопедия инвестора

    Принято считать, что начало С. м. в. или, как ее часто называют, статистике «малых п», было положено в первом десятилетии XX века публикацией работы У. Госсета, в к рой он поместил t распределение, постулированное получившим чуть позже мировую… … Психологическая энциклопедия

    Морис Кендалл Sir Maurice George Kendall Дата рождения: 6 сентября 1907(1907 09 06) Место рождения: Кеттеринг, Великобритания Дата смерти … Википедия

    Прогноз - (Forecast) Определение прогноза, задачи и принципы прогнозирования Определение прогноза, задачи и принципы прогнозирования, методы прогнозирования Содержание Содержание Определение Основные понятия прогностики Задачи и принципы прогнозирования… … Энциклопедия инвестора

При ранжировании эксперт должен расположить оцениваемые элементы в порядке возрастания (убывания) их предпочтительности и приписать каждому из них ранги в виде натураль­ных чисел. При прямом ранжировании наиболее предпочтительный элемент имеет ранг 1 (иногда 0), а наименее предпочтительный - ранг m.

Если эксперт не может осуществить строгое ранжирование из-за того, что, по его мнению, некоторые элементы одинаковы по предпочтительности, то допускается присваивать таким элементам одинаковые ранги. Чтобы обеспечить равенство суммы рангов сумме мест ранжируемых элементов, применяют так называемые стандарти­зированные ранги. Стандартизированный ранг есть среднее арифмети­ческое номеров элементов в ранжиро­ванном ряду, являющихся одинако­выми по предпочтительности.

Пример 2.6. Эксперт упорядочил шесть элементов по предпочтению следующим образом:

Тогда стандартизированные ранги этих элементов будут

Таким образом, сумма рангов, приписанных элементам, будет равна сумме чисел натурального ряда.

Точность выражения предпочтения путем ранжирования элементов существенно зависит от мощности мно­жества предъявлений. Процедура ранжирования дает наиболее надежные результаты (по степени близости выявленного предпочтения и «истинного»), когда число оцениваемых элементов не более 10. Предельная мощность множества предъявления не должна превосходить 20.

Обработка и анализ ранжировок проводятся с целью построения группового отношения предпочтения на основе индивидуальных предпочтений. При этом могут ставиться следующие задачи: а) определение тесноты связи между ранжировками двух экспертов на элементах множества предъявлений; б) определение взаимосвязи между двумя элементами по индивидуальным мнениям членов группы относительно различных характеристик этих элементов; в) оценка согласованности мне­ний экспертов в группе, содержа­щей более двух экспертов.

В первых двух случаях в качестве меры тесноты связи используется коэффициент ранговой корреляции. В за­висимости от того, допускается ли только строгое или нестрогое ранжи­рование, используется коэффициент ранговой корреляции либо Кендалла, либо Спирмена.

Коэффициент ранговой корреляции Кендалла для задачи (a)

где m − число элементов; r 1 i – ранг,приписанный первым экспертом i −му элементу; r 2 i – то же, вторым экспертом.

Для задачи (б) компоненты (2.5) имеют следующий смысл: т - число характеристик двух оцениваемых эле­ментов; r 1 i (r 2 i) - ранг i-й характеристики в ранжировке первого (второго) элемента, выставленный группой экс­пертов.

При строгом ранжировании исполь­зуется коэффициент ранговой корреляции р Спирмена:


компоненты которого имеют тот же смысл, что и в (2.5).

Коэффициенты корреляции (2.5), (2.6) изменяются от -1 до +1. Если коэффициент корреляции равен +1, то это означает, что ранжировки одинаковы; если он равен -1, то − противоположны (ранжировки обратны друг другу). Равенство коэффициента корреляции нулю означает, что ран­жировки линейно независимы (некоррелированы).

Поскольку при таком подходе (эк­сперт − «измеритель» со случайной погрешностью) индивидуальные ран­жировки рассматриваются как случай­ные, то возникает задача статистиче­ской проверки гипотезы о значимости полученного коэффициента корреля­ции. В этом случае используют крите­рий Неймана-Пирсона: зада­ются уровнем значимости критерия α и, зная законы распределения коэффи­циента корреляции, определяют поро­говое значение c α , с которым сравни­вают полученное значение коэффици­ента корреляции. Критическая об­ласть − правосторонняя (в практике обычно сначала расчитывают значение критерия и определяют по нему уро­вень значимости, который сравнивают с пороговым уровнем α ).

Коэффициент ранговой корреляции τ Кендалла имеет при т > 10 распре­деление, близкое к нормальному с па­раметрами:

где M [τ] – математическое ожидание; D [τ] – дисперсия.

В этом случае используются таблицы функции стандартного нормального распределения:

а граница τ α критической области определяется как корень уравнения

Если вычисленное значение коэф­фициента τ ≥ τ α , то считается, что ранжировки, действительно хорошо согласуются. Обычно значение α вы­бирают в пределах 0,01-0,05. Для т ≤ 10 распределение т приведено в табл. 2.1.

Проверка значимости согласован­ности двух ранжировок с использованием коэффициента ρСпирмена осу­ществляется в том же порядке с ис­пользованием таблиц распределения Стьюдента при т > 10.

В этом случае величина

имеет распределение, хорошо аппроксимируемое распределением Стьюдента с m – 2 степенями свободы. При m > 30 распределение величины ρ хорошо согласуется с нормальным, имеющим M [ρ] = 0 и D [ρ] = .

Для т ≤ 10 проверку значимости ρ осуществляют с помощью табл. 2.2.

Если ранжировки нестрогие, то коэффициент Спирмена

где ρ – вычисляют по (2.6);

где k 1 , k 2 − число различных групп нестрогих рангов в первой и второй ранжировках соответственно; l i − число одинаковых рангов в i -й группе. При практическом использовании ко­эффициентов ранговой корреляции ρ Спирмена и τ Кендалла следует иметь в виду, что коэффициент ρ обеспечивает более точный результат в смысле ми­нимума дисперсии.

Таблица 2.1. Распределение коэффициента ранговой корреляции Кендалла

В продолжение темы:
Компоненты

И так, для изготовления Пропеллер часов нам понадобятся следующие детали: Для часов: * Драйвер LED MBI5170CD(SOP16, 8 bit) - 4 штуки. * Часы реального времени...

Новые статьи
/
Популярные