<<
>>

4.3. Проверка наличия взаимосвязи между двумя качественными переменными (критерий «хи-квадрат» независимости)

Возможны ситуации, когда имеются две качественные переменные, т.е. набор экспериментальных данных представляет собой двумерные качественные данные. После изучения каждой из них отдельно с помощью анализа частот (или процентов) может возникнуть вопрос о наличии связи между ними.

Считается, что две качественные переменные являются независимыми, если знание значения одной переменной не помогает предсказать значение другой.

Представим себе, что ваша фирма разработала технологию гальванического покрытия никелем стальных деталей автомобильного кузова. В среднем процент брака, связанного с отслаиванием покрытия, составляет 3,1 %. Однако когда работает технолог г-н Пупкин, размер брака достигает 11,2 %.

В этом случае знание значения одной переменной (имя конкретного технолога) помогает спрогнозировать значение другой переменной (объем брака определенного типа), поскольку 3,1 % и 11,2 % различаются между собой. Появление брака более вероятно во время работы г-на Пупкина и менее вероятно, когда работает кто-то другой. Следовательно, эти две переменные не являются независимыми.

Использование критерия «хи-квадрат» позволяет решить вопрос о том, являются ли рассматриваемые качественные совокупности зависимыми или же независимыми друг от друга. В этом случае применяется так называемый критерий «хи-квадрат» независимости, который устанавливает на-личие (или отсутствие) связи между двумя качественными переменными. Для такого анализа используется таблица частот, которые можно было бы ожидать в том случае, если переменные оказались бы независимыми.

В общем случае критерий «хи-квадрат» независимости принято представлять следующим образом:

Имеются исходные данные в форме табличного списка частот всех комбинаций категорий двух качественных переменных. Обсуждаются следующие гипотезы:

а) две переменные не зависят одна от другой;

б) две переменные связаны, они не являются независимыми друг от

друга.

Составляется таблица ожидаемых (теоретических) частот. Для их расчета частоту одной категории (результат эксперимента) следует умножить на частоту другой категории (также экспериментальный показатель) и полученное произведение поделить на общий объем выборки n:

I Частота категории /Э1 I х | Частота категории /Э21 |для одной переменной | | для другой переменной |

Ожидаемая частота/Ож(Т) = ,

Общий объем выборки n

/- - 1 f - /э1 х /э 2

или более компактно, в символьной форме: УОЖ(Т) _ n •

При этом считается, что а) набор данных представляет собой случайную выборку из рассматриваемой генеральной совокупности и б) для каждой комбинации категорий ожидаемая частота, по крайней мере, не меньше пяти.

3. Далее проводится анализ «хи-квадрат», расчет выполняется с использованием знакомого выражения:

х2 = ? (/Э - Л )2

fj

Степень свободы вычисляется следующим образом:/ = (k1 - 1) х (k2 - 1),

где k1 и k2 - число категорий соответственно для первой и второй переменной.

4. Результат теста «хи-квадрат2 трактуется так: наличие значимой

связи проявляется тогда, когда расчетное значение «хи-квадрат» больше

22

критического (т.е. х расч > х крит), в противном случае значимой связи нет.

Давайте познакомимся с этим видом статистического анализа, для чего рассмотрим следующий пример.

Кот Матроскин, занявшись молочным бизнесом, решил провести маркетинговое исследование, чтобы уяснить, какой вид молочной продукции предпочитают те или иные покупатели. Для каждой покупки фиксировались две качественные переменные - вид продукции и тип покупателя. В качестве продаваемой молочной продукции фигурировали молоко, сметана и творог. Покупателей Матроскин условно разделил на две категории - практичные и импульсивные. К первым он отнес тех покупателей, которые идут на рынок уже с четко сформулированным намерением относительно того, что купить и сколько именно. Вторую же категорию составили покупатели, ко-торые решение принимают на месте, непосредственно перед покупкой.

Полученные данные статистического опроса аккуратный кот Матроскин представил в табличной форме (табл.13), в которой для каждого ви- да молочной продукции указал количество совершаемых покупок тем или иным покупателем, т.е. привел фактическую частоту.

Необходимо дать заключение по итогам статистической проверки по критерию «хи-квадрат», т.е. сформулировать вывод и пояснить результат с практической точки зрения - определить какую рыночную стратегию должен избрать кот Матроскин и, следовательно, на какого покупателя и на какой вид молочной продукции ему надлежит ориентироваться

Решение этой задачи вновь проделаем в двух вариантах - традиционным способом («вручную») и компьютерным.

Таблица 13

Результаты опроса о перспективах молочного бизнеса Вид молочной продукции Частота предпочтений Практичный покупатель Импульсивный покупатель Молоко 38 15 Сметана 24 31 Творог 18 27 Для этого дополним таблицу с исходными данными итоговой строкой и дополнительным «суммирующим» столбцом, заполним их, выполнив несложные расчеты (табл.14).

Таблица 14

Дополненные данные по результатам опроса о перспективах молочного бизнеса Вид Частота п редпочтений молочной продукции Практичный Импульсивный Итого покупатель покупатель Молоко 38 15 53 Сметана 24 31 55 Творог 18 27 45 Итого: 80 73 153

Чисто визуально трудно ответить, есть ли взаимосвязь между этими признаками: разными категориями покупателей и видами молочной продукции. Поэтому необходимо дать анализ распределения частот в таблице по строкам и графам.

Будем исходить из следующего положения. Если признак, положенный в основу группировки по строкам (вид молочной продукции), не зависит от признака, положенного в основу группировки по столбцам (тип покупателя), то в каждой строке (столбце) распределение частот должно быть пропорционально распределению их в итоговой строке (столбце). Такое распределение можно рассматривать как теоретическое (ожидаемое), частоты ко-торого рассчитаны в предположении отсутствия связи между изучаемыми совокупностями.

Рассчитаем ожидаемые частоты внутри таблицы пропорционально распределению частот в итоговой строке.

Так, молоко как один из видов молочной продукции в зависимости от поведения посетителей рынка по частоте попадания в категории «Практичный покупатель» и «Импульсивный покупатель» имеет следующие показате-

53х 80 _„ „ 53х73

ли: / = = 27,7; f = 53X73 = 25,3

11 153 ' Jn 153 '

Для второй строки, т.е. для категории сметана, эти показатели имеют уже такие значения:

/а = 55X80=28,8. /22 =55XZ3=26,2

21 153 ' 153

Для третьей строки (категория творог):

/31 = 45X80 = 23,5; /32 = ^ = 21,5 153 ' 32 153 '

Полученные результаты (вычисленные значения частот) поместим в табл.15.

Таблица 15

Данные о перспективах молочного бизнеса с учетом ожидаемых частот Вид молочной Ожидаемая частота предпочтений продукции Практичный Импульсивный Итого покупатель покупатель Молоко 27,7 25,3 53 Сметана 28,8 26,2 55 Творог 23,5 21,5 45 Итого: 80 73 153 Расчетное значение критерия хи-квадрат определим по формуле:

k k2 ( f _ f )2 у 2 =уу1/ ij Jij)

/V r*

i=1 j=1 fij

где .fij и /* - соответственно фактические и теоретические (ожидаемые)

частоты в i-й строке и j-го столбца; k1 и k2 - соответственно число категорий в строках и столбцах таблицы. Выполним соответствующие расчеты:

(38 - 27,7)2 (15 - 25,3)" (24 - 28,8)" (31 - 26,2)^

2 (38 - 2/,/

у2 = L— + — + — + — +

Храсч 27,7 25,3 28,8 26,2

+ (18 - 23,5)2 + (27 - 21,5)2 = 12 4 23,5 21,5

Далее полагается сравнить расчетное значение х2расч с табличным показателем (обычно для уровня значимости 0,05 или 0,01). В рассматриваемом

* -.—ж-

примере число степеней свободы равно двум, т.е. / = (3 - 1) (2 - 1) = 2 . При

2

а = 0,05 табличное значение х табл при/ = 2 составляет 5,991 (прил.5), а для а

2 2

= 0,01 соответственно 9,210. Поскольку х расч > X табл, то с уверенностью на 95 % (даже на 99 %) можно утверждать, что влияние психологического типа покупателя очевидным образом сказывается на результатах коммерческой деятельности кота Матроскина.

Ему, как видно, есть над чем поразмышлять.

Теперь посмотрим, что нам покажет расторопный Excel.

Прежде всего, перенесем данные табл.13 и 14 в рабочий лист Excel (рис.22). При этом в ячейке А22 запишем «ХИ2крит», а соседние ячейки В22 и С22 зарезервируем за численными значениями х2крит. Считать будем для двух значений уровня значимости - 0,05 и 0,01. После этого приступим собственно к работе в компьютерном варианте.

Для определения показателя х крит применим функцию ХИ2ОБР. Воспользуемся Мастером функций, а затем командами Статистические/ Хи2обр.

При заполнении диалогового окна укажем следующие параметры: для а = 0,05 и 0,01, а для степени свободы - 2.

После исполнения всех манипуляций и необходимых округлений в ячейках В22 и С22 будут содержаться следующие результаты: 5,991 и 9,210.

Затем произведем необходимые подсчеты ожидаемых частот. Используем уже знакомое выражение:

j _ /э\ х /э2

J ОЖ (Т) _ .

n

Здесь поступим следующим образом. Вычисленные значения будем помещать в диапазоне ячеек B11:C13. Запишем формулу вычисления ожи-даемых частот, которую затем скопируем для заполнения всей таблицы. Будем использовать знак $ для задания «абсолютного адреса». Так, для расчета первого ожидаемого значения частоты используем выражение = B$9*$D6/$D$9 и получим 27,7124183 (с округлением 27,7).

Чтобы получить остальные значения ожидаемых частот, проделаем следующее. Выделим ячейку В11, в которой сидит наш первый вычисленный показатель, поднесем курсор к нижнему правому углу и, как только появится маленький черный крестик, протянем вниз, захватывая ячейки В12 и В13. Тот же час в ячейках окажутся рассчитанные значения частот. Если теперь эти ячейки последовательно выделять и протягивать вправо, то в диапазоне С11:С13 появятся остальные показатели.

А теперь посмотрим на эти результаты и на скопированную нами табл.14 с ожидаемыми частотами. Что-то очень знакомое! С учетом необходимых округлений они почти полные копии друг друга.

Теперь мы наглядно представляем, насколько легко Excel справляется с расчетами, над которыми нам перед этим (вспомним ручной счет) пришлось изрядно потрудиться.

Анализ хи-квадрат выполним с помощью функции ХИ2ТЕСТ. Действием уже привычным образом, используя следующие команды: Мастер функций/ Статистические / Хи2тест.

Ячейку В32 выделим для ХИ2ТЕСТ.

При заполнении диалогового окна в текстовом поле фактического интервала укажем адрес ячеек В6:С8, в которых находятся экспериментальные данные по частотам (табл.13). Соответственно в текстовом поле ожидаемого интервала укажем диапазон В16:С18, содержимое которого отражает теоретические значения частот (табл.14).

Рис.22. Лист Excel с результатами расчета критерия хи-квадрат

В окончательном виде в ячейке В32 будет находиться следующий показатель, а именно: 0,002.

Как же следует трактовать полученный результат? Тезис о независимости обсуждаемых параметров (вид молочной продукции и психологиче-ский тип покупателя) можно было бы принять, если бы уровень значимости а был бы меньше 0,002. Но для 95 %-ной вероятности (даже 99-процентной) установленные значения а (0,05 и 0,01) превышают 0,002. Это говорит о высокой степени значимости, следовательно, указанные качественные переменные являются зависимыми друг от друга.

И еще. Вспомним, что вывод о значимости связи между сопоставляемыми переменными можно сделать также на основе сравнения значений х2расч и х2табл. Табличные значения у нас уже есть, это 7,815 и 11,345 (для

2

уровней значимости 0,05 и 0,01). Теперь рассчитаем х расч, для этого по формуле X _ (/Э /) для каждой комбинации наблюдаемых (эксперимен-

J Т

тальных) /Э и ожидаемых (теоретических) частот /Т вычислим текущие значения х, а затем их просуммируем. Результат приведен в виде списка на рис.22 (диапазон ячеек В24:В29) он, как и в случае ручного счета, равен 12,4 (ячейка В30). Дальше знакомые процедуры - сопоставление значений х расч (12,4), с одной стороны, и х табл (7,815 и 11,345), с другой, указывает на то, что анализируемые качественные переменные не являются независимыми (мы это утверждаем с риском ошибиться на 5 и даже 1 %). И ручной, и компьютерный расчеты приводят нас к одному и тому же статистическому выводу - значимая связь между двумя рассматриваемыми качественными совокупностями имеет место быть.

Таким образом, коту Матроскину, как мы и полагали по итогам ручного счета, надлежит внимательно продумать свою дальнейшую коммерческую стратегию - продаваемая продукция существенного зависит от того, кто ее покупает. Причем наиболее заметно это проявляется в торговле молоком. Очевидно, что свежее молоко предпочитают главным образом покупатели основательные, хорошо обдумывающие свой поход на рынок. В тоже время импульсивные визитеры эту продукцию заметно игнорируют, предпочитая сметану. Такого рода соображения можно высказать на основании выполненного анализа.

<< | >>
Источник: Бараз В.Р.. Корреляционно-регрессионный анализ связи показателей коммерческой деятельности с использованием программы Excel. 2005

Еще по теме 4.3. Проверка наличия взаимосвязи между двумя качественными переменными (критерий «хи-квадрат» независимости):

  1. 4.3. Проверка наличия взаимосвязи между двумя качественными переменными (критерий «хи-квадрат» независимости)
  2. 30.1. Регион как форма взаимосвязи между микро-и макроэкономикой
  3. 3.6. взаимосвязь между объемов производства и безработицей: закон оукена
  4. ВЗАИМОСВЯЗЬ МЕЖДУ СЧЕТОМ ТЕКУЩИХ ОПЕРАЦИЙ И СЧЕТОМ ДВИЖЕНИЯ КАПИТАЛА
  5. Проверка наличия государственной регистрации и лицензирования отдельных видов деятельности
  6. Проверка наличия, правильности оценки, амортизации, учета движения основных средств и нематериальных активов
  7. Тема 28. Между двумя мировыми войнами
  8. Тема 30. Между двумя мировыми войнами
  9. Статья 315. Обеспечение уплаты таможенных платежей Статья 316. Неприменение требований по идентификации товаров, перемещаемых трубопроводным транспортом и по линиям электропередачи Статья 317. Перемещение российских товаров между двумя пунктами, расположенными на таможенной территории Российской Федерации, через территорию иностранного государства
  10. § 4. Распорядок дня и проверки наличия осужденных к лишению свободы
  11. § 2. Статистические методы выявления наличия и измерения тесноты связи между двумя признаками социально-правовых явлений
  12. Взаимосвязь между премиями