2.2.5. Описание данных, оценивание и проверка гипотез
Основные понятия, используемые при описании данных.
Описание данных - предварительный этап статистической обработки. Используемые при описании данных величины применяются при дальнейших этапах статистического анализа - оценивании и проверке гипотез, а также при решении иных задач, возникающих при применении вероятностно-статистических методов принятия решений, например, при статистическом контроле качества продукции и статистическом регулировании технологических процессов.
Статистические данные - это результаты наблюдений (измерений, испытаний, опытов, анализов). Функции результатов наблюдений, используемые, в частности, для оценки параметров распределений и (или) для проверки статистических гипотез, называют «статистиками». (Для математиков надо добавить, что речь идет об измеримых функциях.) Если в вероятностной модели результаты наблюдений рассматриваются как случайные величины (или случайные элементы), то статистики, как функции случайных величин (элементов), сами являются случайными величинами (элементами). Статистики, являющиеся выборочными аналогами характеристик случайных величин (математического ожидания, медианы, дисперсии, моментов и др.) и используемые для оценивания этих характеристик, называют статистическими характеристиками.
Основополагающее понятие в вероятностно-статистических методах принятия решений - выборка. Как уже говорилось, выборка - это 1) набор наблюдаемых значений или 2) множество объектов, отобранные из изучаемой совокупности. Например, единицы продукции, отобранные из контролируемой партии или потока продукции для контроля и принятия решений.
Наблюдаемые значения обозначим х, х2,..., хп, где п - объем выборки, т.е. число наблюдаемых значений, составляющих выборку. О втором виде выборок уже шла речь при рассмотрении гипергеометрического распределения, когда под выборкой понимался набор единиц продукции, отобранных из партии. Там же обсуждалась вероятностная модель случайной выборки.В вероятностной модели выборки первого вида наблюдаемые значения обычно рассматривают как реализацию независимых одинаково распределенных случайных величин
Xl(® XX2(w Х-,Xn(® X® е 0 . При этом считают, что полученные при наблюдениях конкретные значения х, х2,..., хп соответствуют
определенному элементарному событию ® = ® 0, т.е.
х1 = X1(® 0), х2 = X 2 (® 0Х..., хп = X (® 0).® 0 е 0 .
При повторных наблюдениях будут получены иные наблюдаемые
значения, соответствующие другому элементарному событию ® = ® 1 . Цель обработки статистических данных состоит в том, чтобы по результатам наблюдений, соответствующим элементарному событию
® = ®0, сделать выводы о вероятностной мере Р и результатах
наблюдений при различных возможных ® = ® 1 .
Применяют и другие, более сложные вероятностные модели выборок. Например, цензурированные выборки соответствуют испытаниям, проводящимся в течение определенного промежутка времени. При этом для части изделий удается замерить время наработки на отказ, а для остальных лишь констатируется, что наработки на отказ для них больше времени испытания. Для выборок второго вида отбор объектов может проводиться в несколько этапов. Например, для входного контроля сигарет могут сначала отбираться коробки, в отобранных коробках - блоки, в выбранных блоках - пачки, а в пачках - сигареты. Четыре ступени отбора.
Ясно, что выборка будет обладать иными свойствами, чем простая случайная выборка из совокупности сигарет.Из приведенного выше определения математической статистики следует, что описание статистических данных дается с помощью частот. Частота - это отношение числа Х наблюдаемых единиц, которые принимают заданное значение или лежат в заданном интервале, к общему числу наблюдений п, т.е. частота - это Х/п. (В более старой литературе иногда Х/п называется относительной частотой, а под частотой имеется в виду Х. В старой терминологии можно сказать, что относительная частота - это отношение частоты к общему числу наблюдений.)
Отметим, что обсуждаемое определение приспособлено к нуждам одномерной статистики. В случае многомерного статистического анализа, статистики случайных процессов и временных рядов, статистики объектов нечисловой природы нужны несколько иные определения понятия «статистические данные». Не считая нужным давать такие определения, отметим, что в подавляющем большинстве практических постановок исходные статистические данные - это выборка или несколько выборок. А выборка - это конечная совокупность соответствующих математических объектов (чисел, векторов, функций, объектов нечисловой природы).
Число Х имеет биномиальное распределение, задаваемое вероятностью р того, что случайная величина, с помощью которой моделируются результаты наблюдений, принимает заданное значение или лежит в заданном интервале, и общим числом наблюдений п. Из закона больших чисел (теорема Бернулли) следует, что
X
— ® Р п
при п^-да (сходимость по вероятности), т.е. частота сходится к вероятности. Теорема Муавра-Лапласа позволяет уточнить скорость сходимости в этом предельном соотношении.
Чтобы от отдельных событий перейти к одновременному рассмотрению многих событий, используют накопленную частоту. Так называется отношение числа единиц, для которых результаты наблюдения меньше заданного значения, к общему числу наблюдений. (Это понятие используется, если результаты наблюдения - действительные числа, а не вектора, функции или объекты нечисловой природы.) Функция, которая выражает зависимость между значениями количественного признака и накопленной частотой, называется эмпирической функцией распределения.
Итак, эмпирической функцией распределения Fn(x) называется доля элементов выборки, меньших х. Эмпирическая функция распределения содержит всю информацию о результатах наблюдений.Чтобы записать выражение для эмпирической функции распределения в виде формулы, введем функцию с(х, у) двух переменных:
Ч х < у,
с( х, у):
1, х > у.
Случайные величины, моделирующие результаты наблюдений,
обозначим Х!(® Х2® Хп(® )о е 0 . Тогда эмпирическая функция распределения Fn(x) имеет вид
^ (х) _ ^ (х,® ) _ - I с(х, Хг (о )).
п 1< а п
Из закона больших чисел следует, что для каждого действительного числа х эмпирическая функция распределения Fn(x) сходится к функции распределения F(x) результатов наблюдений, т.е.
Fn(x) ^ F(x) (1)
при п ^ да. Советский математик В.И. Гливенко (1897-1940) доказал в 1933 г. более сильное утверждение: сходимость в (1) равномерна по х, т.е.
sup | Fn (x) - F(x) |® 0
n x
при n ^ да (сходимость по вероятности).
В (2) использовано обозначение sup (читается как «супремум»).
suP g(x)
Для функции g(x) под x понимают наименьшее из чисел a таких, что g(x) e} = о.
П® ¥
Пример 3. Из закона больших чисел следует, что 0n = х является состоятельной оценкой 0 = М(Х) (в приведенной выше теореме Чебышёва предполагалось существование дисперсии D(X); однако, как доказал А.Я. Хинчин [6], достаточно выполнения более слабого условия - существования математического ожидания М(Х)).
Пример 4. Все указанные выше оценки параметров нормального распределения являются состоятельными.
Вообще, все (за редчайшими исключениями) оценки параметров, используемые в вероятностно-статистических методах принятия решений, являются состоятельными.
Пример 5. Так, согласно теореме В.И.
Гливенко, эмпирическая функция распределения Fn(x) является состоятельной оценкой функции распределения результатов наблюдений F(x).При разработке новых методов оценивания следует в первую очередь проверять состоятельность предлагаемых методов.
Второе важное свойство оценок - несмещенность. Несмещенная оценка 0п - это оценка параметра 0, математическое ожидание которой равно значению оцениваемого параметра: М(0п) = 0.
Пример 6. Из приведенных выше результатов следует, что х и
v 2
0 являются несмещенными оценками параметров m и а2 нормального распределения. Поскольку М(х) = M(m**) = m, то выборочная
медиана х и полусумма крайних членов вариационного ряда т** - также несмещенные оценки математического ожидания т нормального распределения. Однако
М^2)2, М[(а 2)**]2,
поэтому оценки s2 и (а2)** не являются состоятельными оценками дисперсии а2 нормального распределения.
Оценки, для которых соотношение М(0п) = 0 неверно, называются смещенными. При этом разность между математическим ожиданием оценки 0п и оцениваемым параметром 0, т.е. М(0п) - 0, называется смещением оценки.
Пример 7. Для оценки s2, как следует из сказанного выше, смещение равно
М^2) - а2 = - а2/п. Смещение оценки s2 стремится к 0 при п ^ да.
Оценка, для которой смещение стремится к 0, когда объем выборки стремится к бесконечности, называется асимптотически несмещенной. В примере 7 показано, что оценка s2 является асимптотически несмещенной.
Практически все оценки параметров, используемые в вероятностно-статистических методах принятия решений, являются либо несмещенными, либо асимптотически несмещенными. Для несмещенных оценок показателем точности оценки служит дисперсия - чем дисперсия меньше, тем оценка лучше.
Для смещенных оценок показателем точности служит математическое ожидание квадрата оценки М(0п - 0)2. Как следует из основных свойств математического ожидания и дисперсии,dn(8 п) _ М[(8 п -8 )2] _ D(q п) + (М(8 я)- 9 )2, (3)
т.е. математическое ожидание квадрата ошибки складывается из дисперсии оценки и квадрата ее смещения.
Для подавляющего большинства оценок параметров, используемых в вероятностно-статистических методах принятия решений, дисперсия имеет порядок 1/п, а смещение - не более чем 1/п, где п - объем выборки. Для таких оценок при больших п второе слагаемое в правой части (3) пренебрежимо мало по сравнению с первым, и для них справедливо приближенное равенство
dn (0 п) = т п-в )2] » D(0 п) » -, с = с(0 п ,0 ),
n (4)
где с - число, определяемое методом вычисления оценок 0n и истинным значением оцениваемого параметра 0.
С дисперсией оценки связано третье важное свойство метода оценивания - эффективность. Эффективная оценка - это несмещенная оценка, имеющая наименьшую дисперсию из всех
возможных несмещенных оценок данного параметра.
_ 2
Доказано [11], что х и s° являются эффективными оценками параметров m и а2 нормального распределения. В то же время для
выборочной медианы х справедливо предельное соотношение
limDp = 1 » 0,637. n®¥ D(x ) p
Другими словами, эффективность выборочной медианы, т.е. отношение дисперсии эффективной оценки х параметра m к дисперсии несмещенной оценки х этого параметра при больших n близка к 0,637. Именно из-за сравнительно низкой эффективности выборочной медианы в качестве оценки математического ожидания нормального распределения обычно используют выборочное среднее арифметическое.
Понятие эффективности вводится для несмещенных оценок, для которых М(0п) = 0 для всех возможных значений параметра 0. Если не требовать несмещенности, то можно указать оценки, при некоторых 0 имеющие меньшую дисперсию и средний квадрат ошибки, чем
эффективные.
Пример 8. Рассмотрим «оценку» математического ожидания т1 = 0. Тогда 0(т1) = 0, т.е. всегда меньше дисперсии 0(х) эффективной оценки х. Математическое ожидание среднего квадрата ошибки
йп(т) = т2, т.е. при 1 т | п-1/4, п = 10,5х, | х |< п-1/4.
Нт Мп (Тп ) ■ |
Ясно, что Тп - состоятельная, асимптотически несмещенная оценка математического ожидания т, при этом, как нетрудно вычислить,
о , т ф 0,
О 2
—, т = 0. 4
Последняя формула показывает, что при т Ф 0 оценка Тп не хуже х (при сравнении по среднему квадрату ошибки dn), а при т = 0 - в четыре раза лучше.
Подавляющее большинство оценок 0п, используемых в вероятностно-статистических методах принятия решений, являются асимптотически нормальными, т.е. для них справедливы предельные соотношения:
Нт Р п® ¥ |
Г0 п - М(9 п)
= Ф (х)
для любого х, где Ф(х) - функция стандартного нормального распределения с математическим ожиданием 0 и дисперсией 1. Это означает, что для больших объемов выборок (практически - несколько
десятков или сотен наблюдений) распределения оценок полностью описываются их математическими ожиданиями и дисперсиями, а качество оценок - значениями средних квадратов ошибок dn(0n)■
Наилучшими асимптотически нормальными оценками, сокращенно НАН-оценками, называются те, для которых средний квадрат ошибки dn(0n) принимает при больших объемах выборки наименьшее возможное значение, т.е. величина с = с(0п,0) в формуле (4) минимальна. Ряд видов оценок - так называемые одношаговые оценки и оценки максимального правдоподобия - являются НАН- оценками, именно они обычно используются в вероятностно- статистических методах принятия решений.
Какова точность оценки параметра? В каких границах он может лежать? В нормативно-технической и инструктивно-методической документации, в таблицах и программных продуктах наряду с алгоритмами расчетов точечных оценок даются правила нахождения доверительных границ. Они и указывают точность точечной оценки. При этом используются такие термины, как доверительная вероятность, доверительный интервал. Если речь идет об оценивании нескольких числовых параметров, или же функции, упорядочения и т.п., то говорят об оценивании с помощью доверительной области.
Доверительная область - это область в пространстве параметров, в которую с заданной вероятностью входит неизвестное значение оцениваемого параметра распределения. «Заданная вероятность» называется доверительной вероятностью и обычно обозначается у. Пусть © - пространство параметров. Рассмотрим статистику ©1 = ©1(х7, ) - функцию от результатов наблюдений
х, х2,..., хп, значениями которой являются подмножества пространства параметров ©. Так как результаты наблюдений - случайные величины, то ©1 - также случайная величина, значения которой - подмножества множества ©, т.е. ©1 - случайное множество.
Напомним, что множество - один из видов объектов нечисловой природы, случайные множества изучают в теории вероятностей и статистике объектов нечисловой природы.
В ряде литературных источников, к настоящему времени во многом устаревших, под случайными величинами понимают только те из них, которые в качестве значений принимают действительные числа. Согласно справочнику академика РАН Ю.В.Прохорова и проф. Ю.А.Розанова [12] случайные величины могут принимать значения из любого множества. Так, случайные вектора, случайные функции, случайные множества, случайные ранжировки (упорядочения) - это отдельные виды случайных величин. Используется и иная терминология: термин «случайная величина» сохраняется только за числовыми функциями, определенными на пространстве элементарных событий, а в случае иных областей значений используется термин «случайный элемент». (Замечание для математиков: все рассматриваемые функции, определенные на пространстве элементарных событий, предполагаются измеримыми.)
Статистика ©1 называется доверительной областью, соответствующей доверительной вероятности у, если
р{ 6 0 1(х1, х2хп)} = 1. (5)
Ясно, что этому условию удовлетворяет, как правило, не одна, а много доверительных областей. Из них выбирают для практического применения какую-либо одну, исходя из дополнительных соображений, например, из соображений симметрии или минимизируя объем доверительной области, т.е. меру множества ©1.
При оценке одного числового параметра в качестве доверительных областей обычно применяют доверительные интервалы (в том числе лучи), а не иные типа подмножеств прямой. Более того, для многих двухпараметрических и трехпараметрических распределений (нормальных, логарифмически нормальных, Вейбулла-
Гнеденко, гамма-распределений и др.) обычно используют точечные оценки и построенные на их основе доверительные границы для каждого из двух или трех параметров отдельно. Это делают для удобства пользования результатами расчетов: доверительные интервалы легче применять, чем фигуры на плоскости или тела в трехмерном пространстве.
Как следует из сказанного выше, доверительный интервал - это интервал, который с заданной вероятностью накроет неизвестное значение оцениваемого параметра распределения. Границы доверительного интервала называют доверительными границами. Доверительная вероятность у - вероятность того, что доверительный интервал накроет действительное значение параметра, оцениваемого по выборочным данным. Оцениванием с помощью доверительного интервала называют способ оценки, при котором с заданной доверительной вероятностью устанавливают границы доверительного интервала.
Для числового параметра 0 рассматривают верхнюю доверительную границу 0В, нижнюю доверительную границу 0Н и двусторонние доверительные границы - верхнюю 01В и нижнюю 01Н. Все четыре доверительные границы - функции от результатов наблюдений х, х2,'.., хп и доверительной вероятности у.
Верхняя доверительная граница 0В - случайная величина 0В = 0В(х7, х2,'.., хп; у), для которой Р(0 У > tl-71(п- 1),
то
Р[0Ш < т < 01В} = 71 + У2 _ 1, (в предположении, что у1 > 0,5; у2 > 0,5). Следовательно, если у = у1 + у2 - 1, то 01Н и 01В - двусторонние доверительные границы для т, соответствующие доверительной вероятности у. Обычно полагают у1 = у2, т.е. в качестве двусторонних доверительных границ 01Н и 01В, соответствующих доверительной вероятности у, используют односторонние доверительные границы 0Н и 0В, соответствующие доверительной вероятности (1+у)/2.
Другой вид правил построения доверительных границ для параметра 0 основан на асимптотической нормальности некоторой точечной оценки 0П этого параметра. В вероятностно-статистических
методах принятия решений используют, как уже отмечалось, несмещенные или асимптотически несмещенные оценки 0П, для которых смещение либо равно 0, либо при больших объемах выборки пренебрежимо мало по сравнению со средним квадратическим отклонением оценки 0П. Для таких оценок при всех X
д п-д |
Ііт Р П® ¥ |
< X |
= Ф (X)
7
где Ф(х) - функция нормального распределения Аг(0;1). Пусть и -
квантиль порядка у распределения Аг(0;1). Тогда
Ііт Р П® ¥ |
=. |
д■ < и.
(8)
Поскольку неравенство
< и. |
д п-д
равносильно неравенству
9 п - Щ^Щ^) 0Н} и {0 у. Аналогичным образом поступают для других доверительных границ и других распределений. Необходимо иметь в виду, что при небольших п и р истинная доверительная вероятность Р{р < К(У, п)} может существенно отличаться от номинальной у, как это подробно продемонстрировано в работе [13]. Поэтому наряду с величинами типа К(У, п) (т.е. доверительных границ) при разработке таблиц и компьютерных программ необходимо предусматривать возможность получения и величин типа Р{р < К(У, п)} (т.е. достигаемых доверительных вероятностей).
Основные понятия, используемые при проверке гипотез. Статистическая гипотеза - любое предположение, касающееся неизвестного распределения случайных величин (элементов). Приведем формулировки нескольких статистических гипотез:
Р(У = у | р,И): |
1. Результаты наблюдений имеют нормальное распределение с
нулевым математическим ожиданием.
2. Результаты наблюдений имеют функцию распределения N(0,1).
3. Результаты наблюдений имеют нормальное распределение.
4. Результаты наблюдений в двух независимых выборках имеют одно и то же нормальное распределение.
5. Результаты наблюдений в двух независимых выборках имеют одно и то же распределение.
Различают нулевую и альтернативную гипотезы. Нулевая гипотеза - гипотеза, подлежащая проверке. Альтернативная гипотеза - каждая допустимая гипотеза, отличная от нулевой. Нулевую гипотезу обозначают Н0, альтернативную - Н1 (от Hypothesis - «гипотеза» (англ.)).
Выбор тех или иных нулевых или альтернативных гипотез определяется стоящими перед менеджером, экономистом, инженером, исследователем прикладными задачами. Рассмотрим примеры.
Пример 11. Пусть нулевая гипотеза - гипотеза 2 из приведенного выше списка, а альтернативная - гипотеза 1. Сказанное означает, то реальная ситуация описывается вероятностной моделью, согласно которой результаты наблюдений рассматриваются как реализации независимых одинаково распределенных случайных величин с функцией распределения N(0,o), где параметр о неизвестен статистику. В рамках этой модели нулевую гипотезу записывают так:
Но: о = 1,
а альтернативную так:
Н,: о ф 1.
Пример 12. Пусть нулевая гипотеза - по-прежнему гипотеза 2 из приведенного выше списка, а альтернативная - гипотеза 3 из того же списка. Тогда в вероятностной модели управленческой, экономической или производственной ситуации предполагается, что
результаты наблюдений образуют выборку из нормального распределения Ы(т, о) при некоторых значениях т и о. Гипотезы записываются так:
Н0: т = 0, о = 1 (оба параметра принимают фиксированные значения);
Н1: т Ф 0 и/или о Ф 1
(т.е. либо т Ф 0, либо о Ф 1, либо и т Ф 0, и о Ф 1).
Пример 13. Пусть Н0 - гипотеза 1 из приведенного выше списка,
а Н1 - гипотеза 3 из того же списка. Тогда вероятностная модель - та
же, что в примере 12,
Н0: т = 0, о произвольно; Н1: т Ф 0, о произвольно. Пример 14. Пусть Н0 - гипотеза 2 из приведенного выше списка, а согласно Н1 результаты наблюдений имеют функцию распределения F(x), не совпадающую с функцией стандартного нормального распределения Ф(х). Тогда
Н0: F(х) = Ф(х) при всех х (записывается как F(х) = Ф(х));
Н1: F(х0) Ф Ф(х0) при некотором х0 (т.е. неверно, что F(х) = Ф(х)).
Примечание. Здесь = - знак тождественного совпадения функций (т.е. совпадения при всех возможных значениях аргумента х).
Пример 15. Пусть Н0 - гипотеза 3 из приведенного выше списка, а согласно Н1 результаты наблюдений имеют функцию распределения
F(x), не являющуюся нормальной. Тогда
/ \ х - т
х0 - т |
° 0 при некоторых т, о;
Р(Х0)* Ф
Н1: для любых т, о найдется х0 = х0(т, о) такое, что
Н 0 : Р (х) ° Ф |
Пример 16. Пусть Н0 - гипотеза 4 из приведенного выше списка,
согласно вероятностной модели две выборки извлечены из совокупностей с функциями распределения Г(х) и G(x), являющихся нормальными с параметрами т1, о1 и т2, о2 соответственно, а Н1 - отрицание Н0. Тогда
Н0: т1 = т2, о1 = о2, причем т1и о1 произвольны; Н1: т1 Ф т2 и/или о1 Ф о2.
Пример 17. Пусть в условиях примера 16 дополнительно известно, что о1 = о2. Тогда
Н0: т1 = т2, о > 0, причем т1и о произвольны; Н1: т1 Ф т2, о > 0.
Пример 18. Пусть Н0 - гипотеза 5 из приведенного выше списка, согласно вероятностной модели две выборки извлечены из совокупностей с функциями распределения Г(х) и G(x) соответственно, а Н1 - отрицание Н0. Тогда
Н0: Г(х) = G(x), где Г(х) - произвольная функция распределения; Н1: Г(х) и G(x) - произвольные функции распределения, причем
Г(х) Ф G(x) при некоторых х.
Пример 19. Пусть в условиях примера 17 дополнительно предполагается, что функции распределения Г(х) и G(x) отличаются только сдвигом, т.е. G(x) = Г(х - а) при некотором а. Тогда
Н0: Г(х) = G(x), где Г(х) - произвольная функция распределения;
Н1: G(x) = ¥(х - а), а Ф 0, где Г(х) - произвольная функция
распределения.
Пример 20. Пусть в условиях примера 14 дополнительно известно, что согласно вероятностной модели ситуации Г(х) - функция нормального распределения с единичной дисперсией, т.е. имеет вид Щт, 1). Тогда
Н0: т = 0 (т.е. Г(х) = Ф(х) при всех х );(записывается как Г(х) = Ф(х));
Н1: т Ф 0 (т.е. неверно, что ¥(х) = Ф(х)).
Пример 21. При статистическом регулировании технологических, экономических, управленческих или иных процессов [2] рассматривают выборку, извлеченную из совокупности с нормальным распределением и известной дисперсией, и гипотезы
Н>: m = m0, Н1: m = mj,
где значение параметра m = m0 соответствует налаженному ходу процесса, а переход к m = свидетельствует о разладке.
Пример 22. При статистическом приемочном контроле [2] число дефектных единиц продукции в выборке подчиняется гипергеометрическому распределению, неизвестным параметром является p = D/N - уровень дефектности, где N - объем партии продукции, D - общее число дефектных единиц продукции в партии. Используемые в нормативно-технической и коммерческой документации (стандартах, договорах на поставку и др.) планы контроля часто нацелены на проверку гипотезы
Но: p < AQL против альтернативной гипотезы
Н{: p >LQ,
где AQL - приемочный уровень дефектности, LQ - браковочный уровень дефектности (очевидно, что AQL < LQ).
Пример 23. В качестве показателей стабильности технологического, экономического, управленческого или иного процесса используют ряд характеристик распределений контролируемых показателей, в частности, коэффициент вариации v = g/M(X). Требуется проверить нулевую гипотезу
Но: v < v0
при альтернативной гипотезе
Н1: v > ^ где - некоторое заранее заданное граничное значение.
Пример 24. Пусть вероятностная модель двух выборок - та же, что в примере 18, математические ожидания результатов наблюдений в первой и второй выборках обозначим М(Х) и М(У) соответственно. В ряде ситуаций проверяют нулевую гипотезу
Н0: М(Х) = М(У)
против альтернативной гипотезы
Н1: М(Х) ф М(У).
Пример 25. Выше отмечалось большое значение в математической статистике функций распределения, симметричных относительно 0, При проверке симметричности
Н0: F(-x) = 1 - F(x) при всех х, в остальном F произвольна;
Н1: F(-x0) Ф 1 - F(x0) при некотором х0, в остальном F произвольна.
В вероятностно-статистических методах принятия решений используются и многие другие постановки задач проверки статистических гипотез. Некоторые из них рассматриваются ниже.
Конкретная задача проверки статистической гипотезы полностью описана, если заданы нулевая и альтернативная гипотезы. Выбор метода проверки статистической гипотезы, свойства и характеристики методов определяются как нулевой, так и альтернативной гипотезами. Для проверки одной и той же нулевой гипотезы при различных альтернативных гипотезах следует использовать, вообще говоря, различные методы. Так, в примерах 14 и 20 нулевая гипотеза одна и та же, а альтернативные - различны. Поэтому в условиях примера 14 следует применять методы, основанные на критериях согласия с параметрическим семейством (типа Колмогорова или типа омега-квадрат), а в условиях примера 20 - методы на основе критерия Стьюдента или критерия Крамера-Уэлча [2,11]. Если в условиях примера 14 использовать критерий Стьюдента, то он не будет решать поставленных задач. Если в условиях примера 20 использовать критерий согласия типа Колмогорова, то он, напротив, будет решать поставленные задачи, хотя, возможно, и хуже, чем специально приспособленный для этого случая критерий Стьюдента.
При обработке реальных данных большое значение имеет правильный выбор гипотез Н0 и Н1. Принимаемые предположения, например, нормальность распределения, должны быть тщательно обоснованы, в частности, статистическими методами. Отметим, что в подавляющем большинстве конкретных прикладных постановок распределение результатов наблюдений отлично от нормального [2].
Часто возникает ситуация, когда вид нулевой гипотезы вытекает из постановки прикладной задачи, а вид альтернативной гипотезы не ясен. В таких случаях следует рассматривать альтернативную гипотезу наиболее общего вида и использовать методы, решающие поставленную задачу при всех возможных Н1. В частности при проверке гипотезы 2 (из приведенного выше списка) как нулевой следует в качестве альтернативной гипотезы использовать Н1 из примера 14, а не из примера 20, если нет специальных обоснований нормальности распределения результатов наблюдений при альтернативной гипотезе.
Статистические гипотезы бывают параметрические и непараметрические. Предположение, которое касается неизвестного значения параметра распределения, входящего в некоторое параметрическое семейство распределений, называется параметрической гипотезой (напомним, что параметр может быть и многомерным). Предположение, при котором вид распределения неизвестен (т.е. не предполагается, что оно входит в некоторое параметрическое семейство распределений), называется непараметрической гипотезой. Таким образом, если распределение F(x) результатов наблюдений в выборке согласно принятой вероятностной модели входит в некоторое параметрическое семейство {К(х;0), 0е ©}, т.е. F(x) = К(х;00) при некотором 00^ ©, то рассматриваемая гипотеза - параметрическая, в противном случае - непараметрическая.
Если и Н0 и Н1 - параметрические гипотезы, то задача проверки статистической гипотезы - параметрическая. Если хотя бы одна из гипотез Н0 и Н1 - непараметрическая, то задача проверки статистической гипотезы - непараметрическая. Другими словами, если вероятностная модель ситуации - параметрическая, т.е. полностью описывается в терминах того или иного параметрического семейства распределений вероятностей, то и задача проверки статистической гипотезы - параметрическая. Если же вероятностная модель ситуации - непараметрическая, т.е. ее нельзя полностью описать в терминах какого-либо параметрического семейства распределений вероятностей, то и задача проверки статистической гипотезы - непараметрическая. В примерах 11-13, 16, 17, 20-22 даны постановки параметрических задач проверки гипотез, а в примерах 14, 15, 18, 19, 23-25 - непараметрических. Непараметрические задачи делятся на два класса: в одном из них речь идет о проверке утверждений, касающихся функций распределения (примеры 14, 15, 18, 19, 25), во втором - о проверке утверждений, касающихся характеристик распределений (примеры 23, 24).
Статистическая гипотеза называется простой, если она однозначно задает распределение результатов наблюдений, вошедших в выборку. В противном случае статистическая гипотеза называется сложной. Гипотеза 2 из приведенного выше списка, нулевые гипотезы в примерах 11, 12, 14, 20, нулевая и альтернативная гипотезы в примере 21 - простые, все остальные упомянутые выше гипотезы - сложные.
Однозначно определенный способ проверки статистических гипотез называется статистическим критерием. Статистический критерий строится с помощью статистики и(х1,
Х2, ' •хп ) - функции от
результатов наблюдений Хр Х2, ''хп. В пространстве значений статистики и выделяют критическую область ¥, т.е. область со следующим свойством: если значения применяемой статистики принадлежат данной области, то отклоняют (иногда говорят -отвергают) нулевую гипотезу, в противном случае - не отвергают (т.е. принимают).
Статистику и, используемую при построении определенного статистического критерия, называют статистикой этого критерия. Например, в задаче проверки статистической гипотезы, приведенной в примере 14, применяют критерий Колмогорова, основанный на статистике
Dn = ШР1 ^ (х) - ^(х)|
х
При этом Dn называют статистикой критерия Колмогорова.
Частным случаем статистики и является векторзначная функция результатов наблюдений и0(х1, х2, .., хп) = (х, х2, '.., хп), значения которой - набор результатов наблюдений. Если хг - числа, то ио - набор п чисел, т.е. точка п-мерного пространства. Ясно, что статистика критерия и является функцией от и0, т.е. и = Хи0). Поэтому можно считать, что ¥ - область в том же п-мерном пространстве, нулевая гипотеза отвергается, если (х, х2, '.., хп)е ¥, и принимается в противном случае.
В вероятностно-статистических методах принятия решений, статистические критерии, как правило, основаны на статистиках и, принимающих числовые значения, и критические области имеют вид
¥ = {и(х, %2, хп) > С}, (9) где С - некоторые числа.
Статистические критерии делятся на параметрические и непараметрические. Параметрические критерии используются в параметрических задачах проверки статистических гипотез, а непараметрические - в непараметрических задачах.
При проверке статистической гипотезы возможны ошибки. Есть два рода ошибок. Ошибка первого рода заключается в том, что отвергают нулевую гипотезу, в то время как в действительности эта гипотеза верна. Ошибка второго рода состоит в том, что принимают нулевую гипотезу, в то время как в действительности эта гипотеза неверна.
Вероятность ошибки первого рода называется уровнем значимости и обозначается а. Таким образом, а = P{U ¥ | H0}, т.е. уровень значимости а - это вероятность события {U ¥}, вычисленная в предположении, что верна нулевая гипотеза Н0.
Уровень значимости однозначно определен, если Н0 - простая гипотеза. Если же Н0 - сложная гипотеза, то уровень значимости, вообще говоря, зависит от функции распределения результатов наблюдений, удовлетворяющей Н0. Статистику критерия U обычно строят так, чтобы вероятность события {U ¥} не зависела от того, какое именно распределение (из удовлетворяющих нулевой гипотезе Н0) имеют результаты наблюдений. Для статистик критерия U общего вида под уровнем значимости понимают максимально возможную ошибку первого рода. Максимум (точнее, супремум) берется по всем возможным распределениям, удовлетворяющим нулевой гипотезе Н0, т.е. а = sup P{U ¥ | H0}.
Если критическая область имеет вид, указанный в формуле (9),
то
P{U> C | H0} = а. (10) Если С задано, то из последнего соотношения определяют а. Часто
поступают по иному - задавая а (обычно а = 0,05, иногда а = 0,01 или а = 0,1, другие значения а используются гораздо реже), определяют С из уравнения (10), обозначая его Са, и используют критическую область ¥ = {и > Са} с заданным уровнем значимости а.
Вероятность ошибки второго рода есть Р{и ¥ | Н1}. Обычно используют не эту вероятность, а ее дополнение до 1, т.е. Р{и ¥ | Н1} = 1 - Р{и ¥ | Н1}. Эта величина носит название мощности критерия. Итак, мощность критерия - это вероятность того, что нулевая гипотеза будет отвергнута, когда альтернативная гипотеза верна.
Понятия уровня значимости и мощности критерия объединяются в понятии функции мощности критерия - функции, определяющей вероятность того, что нулевая гипотеза будет отвергнута. Функция мощности зависит от критической области ¥ и действительного распределения результатов наблюдений. В параметрической задаче проверки гипотез распределение результатов наблюдений задается параметром 0. В этом случае функция мощности обозначается М(¥,0) и зависит от критической области ¥ и действительного значения исследуемого параметра 0. Если
Н0: 0 = ^ Н1: 0 = 01,
то
М(¥,00) = а, М(¥Д) = 1 - в,
где а - вероятность ошибки первого рода, в - вероятность ошибки второго рода. В статистическом приемочном контроле а - риск изготовителя, в - риск потребителя. При статистическом регулировании технологического процесса а - риск излишней наладки, в - риск незамеченной разладки.
Функция мощности М(¥,0) в случае одномерного параметра 0
обычно достигает минимума, равного а, при 0 = 0О, монотонно возрастает при удалении от 0О и приближается к 1 при | 0 - 0О | ^ да.
В ряде вероятностно-статистических методов принятия решений используется оперативная характеристика L(¥,0) - вероятность принятия нулевой гипотезы в зависимости от критической области ¥ и действительного значения исследуемого параметра 0. Ясно, что
Д¥,0) = 1 - М(¥,0).
Основной характеристикой статистического критерия является функция мощности. Для многих задач проверки статистических гипотез разработан не один статистический критерий, а целый ряд. Чтобы выбрать из них определенный критерий для использования в конкретной практической ситуации, проводят сравнение критериев по различным показателям качества [2, приложение 3], прежде всего с помощью их функций мощности. В качестве примера рассмотрим лишь два показателя качества критерия проверки статистической гипотезы - состоятельность и несмещенность.
Пусть объем выборки n растет, а Un и ¥n - статистики критерия и критические области соответственно. Критерий называется состоятельным, если
lim P{Un g Y n | Hi} = 1,
n® ¥
т.е. вероятность отвергнуть нулевую гипотезу стремится к 1, если верна альтернативная гипотеза.
Статистический критерий называется несмещенным, если для любого 0О, удовлетворяющего Н0, и любого 01 , удовлетворяющего Н1, справедливо неравенство
P{Ug ¥ | 0о} < P{Ug ¥ | 01}, т.е. при справедливости НО вероятность отвергнуть НО меньше, чем при справедливости Н1.
При наличии нескольких статистических критериев в одной и той же задаче проверки статистических гипотез следует использовать состоятельные и несмещенные критерии.
2.2.6. Современное состояние прикладной статистики (типовые практические задачи и методы их решения)
Статистические данные и прикладная статистика. Под
прикладной статистикой понимают часть математической статистики, посвященную методам обработки реальных статистических данных, а также соответствующее математическое и программное обеспечение. Таким образом, чисто математические задачи не включают в прикладную статистику.
Под статистическими данными понимают числовые или нечисловые значения контролируемых параметров (признаков) исследуемых объектов, которые получены в результате наблюдений (измерений, анализов, испытаний, опытов и т.д.) определенного числа признаков, у каждой единицы, вошедшей в исследование. Способы получения статистических данных и объемы выборок устанавливают, исходя из постановок конкретной прикладной задачи на основе методов математической теории планирования эксперимента.
Результат наблюдения х1 исследуемого признака Х (или совокупности исследуемых признаков Х) у / - ой единицы выборки отражает количественные и/или качественные свойства обследованной единицы с номером / (здесь / = 1, 2, ... , п, где п - объем выборки). Деление прикладной статистики на направления соответственно виду обрабатываемых результатов наблюдений (т.е. на статистику случайных величин, многомерный статистический анализ, статистику временных рядов и статистику объектов нечисловой природы) обсуждалось выше.
Результаты наблюдений х, х2,'.., хп, где хг - результат наблюдения I - ой единицы выборки, или результаты наблюдений для нескольких выборок, обрабатывают с помощью методов прикладной статистики, соответствующих поставленной задаче. Используют, как правило, аналитические методы, т.е. методы, основанные на численных расчетах (объекты нечисловой природы при этом описывают с помощью чисел). В отдельных случаях допустимо применение графических методов (визуального анализа).
Количество разработанных к настоящему времени методов обработки данных весьма велико. Они описаны в сотнях тысяч книг и статей, а также в стандартах и других нормативно-технических и инструктивно-методических документах.
Многие методы прикладной статистики требуют проведения трудоемких расчетов, поэтому для их реализации необходимо использовать компьютеры. Программы расчетов на ЭВМ должны соответствовать современному научному уровню. Однако для единичных расчетов при отсутствии соответствующего программного обеспечения успешно используют микрокалькуляторы.
Задачи статистического анализа точности и стабильности технологических процессов и качества продукции. Статистические методы используют, в частности, для анализа точности и стабильности технологических процессов и качества продукции. Цель - подготовка решений, обеспечивающих эффективное функционирование технологических единиц и повышение качества и конкурентоспособности выпускаемой продукции. Статистические методы следует применять во всех случаях, когда по результатам ограниченного числа наблюдений требуется установить причины улучшения или ухудшения точности и стабильности технологического оборудования. Под точностью технологического процесса понимают свойство технологического процесса, обусловливающее близость действительных и номинальных значений параметров производимой продукции. Под стабильностью технологического процесса понимают свойство технологического процесса, обусловливающее постоянство распределений вероятностей для его параметров в течение некоторого интервала времени без вмешательства извне.
Целями применения статистических методов анализа точности и стабильности технологических процессов и качества продукции на стадиях разработки, производства и эксплуатации (потребления) продукции являются, в частности:
• определение фактических показателей точности и стабильности технологического процесса, оборудования или качества продукции;
• установление соответствия качества продукции требованиям нормативно-технической документации;
• проверка соблюдения технологической дисциплины;
• изучение случайных и систематических факторов, способных привести к появлению дефектов;
• выявление резервов производства и технологии;
• обоснование технических норм и допусков на продукцию;
• оценка результатов испытаний опытных образцов при обосновании требований к продукции и нормативов на нее;
• обоснование выбора технологического оборудования и средств измерений и испытаний;
• сравнение различных образцов продукции;
• обоснование замены сплошного контроля статистическим;
• выявление возможности внедрения статистических методов управления качеством продукции, и т.д.
Для достижения перечисленных выше целей применяют различные методы описания данных, оценивания и проверки гипотез. Приведем примеры постановок задач.
Задачи одномерной статистики (статистики случайных величин). Сравнение математических ожиданий проводят в тех случаях, когда необходимо установить соответствие показателей качества изготовленной продукции и эталонного образца. Это - задача проверки гипотезы:
Н: М(Х) = т0,
где т0 - значение соответствующее эталонному образцу; Х - случайная величина, моделирующая результаты наблюдений. В зависимости от формулировки вероятностной модели ситуации и альтернативной гипотезы сравнение математических ожиданий проводят либо параметрическими, либо непараметрическими методами.
Сравнение дисперсий проводят тогда, когда требуется установить отличие рассеивания показателя качества от номинального. Для этого проверяют гипотезу:
Н0:D(X) =0
Ряд иных постановок задач одномерной статистики приведен ниже. Не меньшее значение, чем задачи проверки гипотез, имеют задачи оценивания параметров. Они, как и задачи проверки гипотез, в зависимости от используемой вероятностной модели ситуации делятся на параметрические и непараметрические.
В параметрических задачах оценивания принимают вероятностную модель, согласно которой результаты наблюдений х1, х2,..., хп рассматривают как реализации п независимых случайных величин с функцией распределения ^(х;0). Здесь 0 - неизвестный параметр, лежащий в пространстве параметров © заданном используемой вероятностной моделью. Задача оценивания состоит в определении точечной оценок и доверительных границ (либо доверительной области) для параметра 0.
Параметр 0 - либо число, либо вектор фиксированной конечной размерности. Так, для нормального распределения 0 = (т, о2) - двумерный вектор, для биномиального 0 = р - число, для гамма- распределения 0 = (а, Ь, с) - трехмерный вектор, и т.д.
В современной математической статистике разработан ряд общих методов определения оценок и доверительных границ - метод моментов, метод максимального правдоподобия, метод одношаговых оценок, метод устойчивых (робастных) оценок, метод несмещенных оценок и др. Кратко рассмотрим первые три из них. Теоретические основы различных методов оценивания и полученные с их помощью конкретные правила определения оценок и доверительных границ для тех или иных параметрических семейств распределений рассмотрены в специальной литературе, включены в нормативно-техническую и инструктивно-методическую документацию.
Метод моментов основан на использовании выражений для моментов рассматриваемых случайных величин через параметры их функций распределения. Оценки метода моментов получают, подставляя выборочные моменты вместо теоретических в функции, выражающие параметры через моменты.
В методе максимального правдоподобия, разработанном в основном Р.А.Фишером, в качестве оценки параметра 0 берут значение 0*, для которого максимальна так называемая функция правдоподобия
М, 0)Дх2, 0) ... Дхп, 0), где х, х2,..., хп - результаты наблюдений; Дх, 0) - их плотность распределения, зависящая от параметра 0, который необходимо оценить.
Оценки максимального правдоподобия, как правило, эффективны (или асимптотически эффективны) и имеют меньшую дисперсию, чем оценки метода моментов. В отдельных случаях формулы для них выписываются явно (нормальное распределение, экспоненциальное распределение без сдвига). Однако чаще для их
нахождения необходимо численно решать систему трансцендентных уравнений (распределения Вейбулла-Гнеденко, гамма). В подобных случаях целесообразно использовать не оценки максимального правдоподобия, а другие виды оценок, прежде всего одношаговые оценки. В литературе их иногда не вполне точно называют «приближенные оценки максимального правдоподобия». При достаточно больших объемах выборок они имеют столь же хорошие свойства, как и оценки максимального правдоподобия. Поэтому их следует рассматривать не как «приближенные», а как оценки, полученные по другому методу, не менее обоснованному и эффективному, чем метод максимального правдоподобия. Одношаговые оценки вычисляют по явным формулам [14].
В непараметрических задачах оценивания принимают вероятностную модель, в которой результаты наблюдений рассматривают как реализации п независимых случайных величин с функцией распределения F(x) общего вида. От F(x) требуют лишь выполнения некоторых условий типа непрерывности, существования математического ожидания и дисперсии и т.п. Подобные условия не являются столь жесткими, как условие принадлежности к определенному параметрическому семейству.
В непараметрической постановке оценивают либо характеристики случайной величины (математическое ожидание, дисперсию, коэффициент вариации), либо ее функцию распределения, плотность и т.п. Так, в силу закона больших чисел выборочное среднее арифметическое х является состоятельной оценкой математического ожидания М(Х) (при любой функции распределения F(x) результатов наблюдений, для которой математическое ожидание существует). С помощью центральной предельной теоремы определяют асимптотические доверительные границы
1 + 7 |
1 + 7 |
5 |
5 _
х - и |
х + и
(м(х)н = 1 2 ^ , (м(Х))В = 1 2 №
1 + g
u
где у - доверительная вероятность,
- квантиль порядка 2 стандартного нормального распределения N(0;!) с нулевым математическим ожиданием и единичной дисперсией, х - выборочное среднее арифметическое, я - выборочное среднее квадратическое отклонение. Термин «асимптотические доверительные границы» означает, что вероятности
Р{(М(Х))Н < М(Х)}, Р{(М(Х))В > М(Х)},
Р{(М(Х))Н < М(Х) < (М(Х))в}
1 + 7 1
стремятся к 2 , 2 и Y соответственно при п ^ да, но, вообще говоря, не равны этим значениям при конечных п. Практически асимптотические доверительные границы дают достаточную точность при п порядка 10.
Второй пример непараметрического оценивания - оценивание функции распределения. По теореме Гливенко эмпирическая функция распределения Fn(x) является состоятельной оценкой функции распределения F(x). Если F(x) - непрерывная функция, то на основе теоремы Колмогорова доверительные границы для функции распределения F(x) задают в виде
10, ^ (х) - «И ! 1, ^ (х) + к(,п) 1
(F(x))H = max I vn J , (F(x))B = min I ^ 1 ,
где k(y,n) - квантиль порядка y распределения статистики Колмогорова при объеме выборки n (напомним, что распределение этой статистики не зависит от F(x)).
1 + g |
Правила определения оценок и доверительных границ в параметрическом случае строятся на основе параметрического семейства распределений F(x;0). При обработке реальных данных возникает вопрос - соответствуют ли эти данные принятой вероятностной модели? Т.е. статистической гипотезе о том, что результаты наблюдений имеют функцию распределения из семейства
^(х;0), 0е ©} при некотором 0 = 00? Такие гипотезы называют гипотезами согласия, а критерии их проверки - критериями согласия. Если истинное значение параметра 0 = 00 известно, функция
распределения F(x;0o) непрерывна, то для проверки гипотезы согласия часто применяют критерий Колмогорова, основанный на статистике
Dn = 4п ^ ^ (х) - F(х,в 0
х
где Fn(x) - эмпирическая функция распределения.
Если истинное значение параметра 00 неизвестно, например, при проверке гипотезы о нормальности распределения результатов наблюдения (т.е. при проверке принадлежности этого распределения к семейству нормальных распределений), то иногда используют статистику
Dn (8 *) = 4П sup| ^ (х) - F(х,8 *)|.
х
Она отличается от статистики Колмогорова Dn тем, что вместо истинного значения параметра 00 подставлена его оценка 0*.
Распределение статистики Dn(0*) сильно отличается от распределения статистики Dn• В качестве примера рассмотрим проверку нормальности, когда 0 = (т, о2), а 0* = (х, я2). Для этого случая квантили распределений статистик Dn и Dn(0*) приведены в табл.1 (см., например, [15]). Таким образом, квантили отличаются примерно в 1,5 раза.
Таблица 1.
Квантили статистик Dn и Dn(0*) при проверке нормальности
р 0,85 0,90 0,95 0,975 0,99
Квантили порядка р для 1,138 1,224 1,358 1,480 1,626
Квантили порядка р для 0,775 0,819 0,895 0,955 1,035
А«(е*)
При первичной обработке статистических данных важной задачей является исключение результатов наблюдений, полученных в результате грубых погрешностей и промахов. Например, при просмотре данных о весе (в килограммах) новорожденных детей наряду с числами 3,500, 2,750, 4,200 может встретиться число 35,00. Ясно, что это промах, и получено ошибочное число при ошибочной записи - запятая сдвинута на один знак, в результате результат наблюдения ошибочно увеличен в 10 раз.
Статистические методы исключения резко выделяющихся результатов наблюдений основаны на предположении, что подобные результаты наблюдений имеют распределения, резко отличающиеся от изучаемых, а потому их следует исключить из выборки.
Простейшая вероятностная модель такова. При нулевой гипотезе результаты наблюдений рассматриваются как реализации независимых одинаково распределенных случайных величин X, Х2 , , Хп с функцией распределения F(x). При альтернативной гипотезе X, Х2 , , Хп_1 - такие же, как и при нулевой гипотезе, а Хп соответствует грубой погрешности и имеет функцию распределения G(x) = F(x - с), где с велико. Тогда с вероятностью, близкой к 1 (точнее, стремящейся к 1 при росте объема выборки),
Хп = тах { X,, Х2 , , Хп} = Х_ , т.е. при описании данных в качестве возможной грубой ошибки следует рассматривать Хтах . Критическая область имеет вид
¥ = {х: х > .
Критическое значение d = d(а,n) выбирают в зависимости от уровня значимости а и объема выборки п из условия
Р{Хтах > d | И,} = а . (1) Условие (1) эквивалентно при больших п и малых а следующему:
F ш) = пл-а»1 -а.
п (2)
Если функция распределения результатов наблюдений Д(х) известна, то критическое значение d находят из соотношения (2). Если Д(х) известна с точностью до параметров, например, известно, что Д(х) - нормальная функция распределения, то также разработаны правила проверки рассматриваемой гипотезы [8].
Однако часто вид функции распределения результатов наблюдений известен не абсолютно точно и не с точностью до параметров, а лишь с некоторой погрешностью. Тогда соотношение (2) становится практически бесполезным, поскольку малая погрешность в определении Д(х), как можно показать, приводит к большой погрешности при определении критического значения d из условия (2), а при фиксированном d уровень значимости критерия может существенно отличаться от номинального [2].
Поэтому в ситуации, когда о Д(х) нет полной информации, однако известны математическое ожидание М(Х) и дисперсия о2 = D(X) результатов наблюдений X, Х2 , , Хп, можно использовать непараметрические правила отбраковки, основанные на неравенстве Чебышёва. С помощью этого неравенства найдем критическое значение d = d(a,n) такое, что
р{тах| X, - М(X) |> d}< а .
11< ^ п '
Так как
р{тах | X,. - М(X) |< d}= [Р{| X- М(X) |< d}]п,
1< ,< п
то соотношение (3) будет выполнено, если
Р{| X - М ^)|> d} < 1 - пЛ-7 .
п (4)
По неравенству Чебышёва
- 2
Р{^ - М(X)|> ^ < , (5)
поэтому для того, чтобы (4) было выполнено, достаточно приравнять правые части формул (4) и (5), т.е. определить d из условия
о 2 _ а _ о 4п d2 п 4а (6)
Правило отбраковки, основанное на критическом значении d, вычисленном по формуле (6), использует минимальную информацию о функции распределения F(x) и поэтому исключает лишь результаты наблюдений, весьма далеко отстоящие от основной массы. Другими словами, значение d1, заданное соотношением (1), обычно много меньше, чем значение d2, заданное соотношением (6).
Многомерный статистический анализ. Перейдем к многомерному статистическому анализу. Его применяют при решении следующих задач:
• исследование зависимости между признаками;
• классификация объектов или признаков, заданных векторами;
• снижение размерности пространства признаков.
При этом результат наблюдений - вектор значений фиксированного числа количественных и иногда качественных признаков, измеренных у объекта. Напомним, что количественный признак - признак наблюдаемой единицы, который можно непосредственно выразить числом и единицей измерения. Количественный признак противопоставляется качественному - признаку наблюдаемой единицы, определяемому отнесением к одной из двух или более условных категорий (если имеется ровно две категории, то признак называется альтернативным). Статистический анализ качественных признаков - часть статистики объектов нечисловой природы. Количественные признаки делятся на признаки, измеренные в шкалах интервалов, отношений, разностей, абсолютной. А качественные - на признаки, измеренные в шкале наименований и порядковой шкале. Методы обработки данных должны быть
согласованы со шкалами, в которых измерены рассматриваемые признаки (см. раздел 2.1 о теории измерений).
Целями исследования зависимости между признаками являются доказательство наличия связи между признаками и изучение этой связи. Для доказательства наличия связи между двумя случайными величинами Х и У применяют корреляционный анализ. Если совместное распределение Х и У является нормальным, то статистические выводы основывают на выборочном коэффициенте линейной корреляции, в остальных случаях используют коэффициенты ранговой корреляции Кендалла и Спирмена, а для качественных признаков - критерий хи-квадрат.
Регрессионный анализ применяют для изучения функциональной зависимости количественного признака У от количественных признаков х(1), х(2), ... , х(&). Эту зависимость называют регрессионной или, кратко, регрессией. Простейшая вероятностная модель регрессионного анализа (в случае k = 1) использует в качестве исходной информации набор пар результатов наблюдений (х, у), I = 1, 2, ... , п, и имеет вид
уг = ахг + Ь + 8р / = 1, 2, ... , п, где 8; - ошибки наблюдений. Иногда предполагают, что 8; - независимые случайные величины с одним и тем же нормальным распределением N(0, о2). Поскольку распределение ошибок наблюдения обычно отлично от нормального, то целесообразно рассматривать регрессионную модель в непараметрической постановке [2], т.е. при произвольном распределении 8;.
Основная задача регрессионного анализа состоит в оценке неизвестных параметров а и Ь, задающих линейную зависимость у от х. Для решения этой задачи применяют разработанный еще К.Гауссом в 1794 г. метод наименьших квадратов, т.е. находят оценки неизвестных параметров моделиа и Ь из условия минимизации суммы квадратов
£ (у. - ах - Ъ)2
1£ . £ п
по переменным а и Ъ.
Теория регрессионного анализа описана и расчетные формулы даны в специальной литературе [2, 16, 17]. В этой теории разработаны методы точечного и интервального оценивания параметров, задающих функциональную зависимость, а также непараметрические методы оценивания этой зависимости, методы проверки различных гипотез, связанных с регрессионными зависимостями. Выбор планов эксперимента, т.е. точек хг., в которых будут проводиться эксперименты по наблюдению у1 - предмет теории планирования эксперимента [18].
Дисперсионный анализ применяют для изучения влияния качественных признаков на количественную переменную. Например, пусть имеются к выборок результатов измерений количественного показателя качества единиц продукции, выпущенных на к станках, т.е. набор чисел (х1(/), х2(/'), ... , хп(/)), где j - номер станка, j = 1, 2, ..., к, а п - объем выборки. В распространенной постановке дисперсионного анализа предполагают, что результаты измерений независимы и в каждой выборке имеют нормальное распределение Ы(т(]), о2) с одной и той же дисперсией. Хорошо разработаны и непараметрические постановки [19].
Проверка однородности качества продукции, т.е. отсутствия влияния номера станка на качество продукции, сводится к проверке гипотезы
И0: т(1) = т(2) = ... = т(к).
В дисперсионном анализе разработаны методы проверки подобных гипотез. Теория дисперсионного анализа и расчетные формулы рассмотрены в специальной литературе [20].
Гипотезу Н0 проверяют против альтернативной гипотезы Н15 согласно которой хотя бы одно из указанных равенств не выполнено. Проверка этой гипотезы основана на следующем «разложении
дисперсий», указанном Р.А.Фишером:
к
(кп^2 = пі s 2(j) + (ки)£2,
і
^ (7)
где s2 - выборочная дисперсия в объединенной выборке, т.е.
1 n k 1 n k
- = knI I 2- x = in,j
Ml i = 1 j = 1 Ml i= 1 j= 1
Далее, s2(j) - выборочная дисперсия в j-ой группе,
nn
S 2(j) = -1 (Xi (j) - *(j))\ x(j) = -1 x (j), j = 1,2,..., k. nt 1 nt 1
Таким образом, первое слагаемое в правой части формулы (7)
отражает внутригрупповую дисперсию. Наконец, s - межгрупповая дисперсия,
1k
S2 = 11 (X(j)- X)2.
kj= 1
Область прикладной статистики, связанную с разложениями дисперсии типа формулы (7), называют дисперсионным анализом. В качестве примера задачи дисперсионного анализа рассмотрим проверку приведенной выше гипотезы Н0 в предположении, что результаты измерений независимы и в каждой выборке имеют нормальное распределение N(m(j), о2) с одной и той же дисперсией. При справедливости Н0 первое слагаемое в правой части формулы (7), деленное на о2, имеет распределение хи-квадрат с k(n-1) степенями свободы, а второе слагаемое, деленное на о2, также имеет распределение хи-квадрат, но с (k-1) степенями свободы, причем первое и второе слагаемые независимы как случайные величины. Поэтому случайная величина
к (п - 1) (кп^2
к - 1
п\ s ) (к - 1)£ s2(/)
к2 (п - 1>2 |
Д = |
1= 1 1 = 1
имеет распределение Фишера с (к-1) степенями свободы числителя и к(п-1) степенями свободы знаменателя. Гипотеза Н0 принимается, если Д < Д1-а, и отвергается в противном случае, где Д1-а - квантиль порядка 1-а распределения Фишера с указанными числами степеней свободы. Такой выбор критической области определяется тем, что при Н1 величина Д безгранично увеличивается при росте объема выборок п. Значения Д1-а берут из соответствующих таблиц [8].
Разработаны непараметрические методы решения классических задач дисперсионного анализа [19], в частности, проверки гипотезы Но.
Следующий тип задач многомерного статистического анализа - задачи классификации. Они согласно [2, 20] делятся на три принципиально различных вида - дискриминантный анализ, кластер- анализ, задачи группировки.
Задача дискриминантного анализа состоит в нахождении правила отнесения наблюдаемого объекта к одному из ранее описанных классов. При этом объекты описывают в математической модели с помощью векторов, координаты которых - результаты наблюдения ряда признаков у каждого объекта. Классы описывают либо непосредственно в математических терминах, либо с помощью обучающих выборок. Обучающая выборка - это выборка, для каждого элемента которой указано, к какому классу он относится.
Рассмотрим пример применения дискриминантного анализа для принятия решений в технической диагностике. Пусть по результатам измерения ряда параметров продукции необходимо установить наличие или отсутствие дефектов. В этом случае для элементов обучающей выборки указаны дефекты, обнаруженные в ходе
дополнительного исследования, например, проведенного после определенного периода эксплуатации. Дискриминантный анализ позволяет сократить объем контроля, а также предсказать будущее поведение продукции. Дискриминантный анализ сходен с регрессионным - первый позволяет предсказывать значение качественного признака, а второй - количественного. В статистике объектов нечисловой природы разработана математическая схема, частными случаями которой являются регрессионный и дискриминантный анализы [21].
Кластерный анализ применяют, когда по статистическим данным необходимо разделить элементы выборки на группы. Причем два элемента группы из одной и той же группы должны быть «близкими» по совокупности значений измеренных у них признаков, а два элемента из разных групп должны быть «далекими» в том же смысле. В отличие от дискриминантного анализа в кластер-анализе классы не заданы, а формируются в процессе обработки статистических данных. Например, кластер-анализ может быть применен для разбиения совокупности марок стали (или марок холодильников) на группы сходных между собой.
Другой вид кластер-анализа - разбиение признаков на группы близких между собой. Показателем близости признаков может служить выборочный коэффициент корреляции. Цель кластер-анализа признаков может состоять в уменьшении числа контролируемых параметров, что позволяет существенно сократить затраты на контроль. Для этого из группы тесно связанных между собой признаков (у которых коэффициент корреляции близок к 1 - своему максимальному значению) измеряют значение одного, а значения остальных рассчитывают с помощью регрессионного анализа.
Задачи группировки решают тогда, когда классы заранее не заданы и не обязаны быть «далекими» друг от друга. Примером является группировка студентов по учебным группам. В технике решением задачи группировки часто является параметрический ряд - возможные типоразмеры группируются согласно элементам параметрического ряда. В литературе, нормативно-технических и инструктивно-методических документах по прикладной статистике также иногда используется группировка результатов наблюдений (например, при построении гистограмм).
Задачи классификации решают не только в многомерном статистическом анализе, но и тогда, когда результатами наблюдений являются числа, функции или объекты нечисловой природы. Так, многие алгоритмы кластер-анализа используют только расстояния между объектами. Поэтому их можно применять и для классификации объектов нечисловой природы, лишь бы были заданы расстояния между ними. Простейшая задача классификации такова: даны две независимые выборки, требуется определить, представляют они два класса или один. В одномерной статистике эта задача сводится к проверке гипотезы однородности [2].
Третий раздел многомерного статистического анализа - задачи снижения размерности (сжатия информации). Цель их решения состоит в определении набора производных показателей, полученных преобразованием исходных признаков, такого, что число производных показателей значительно меньше числа исходных признаков, но они содержат возможно большую часть информации, имеющейся в исходных статистических данных. Задачи снижения размерности решают с помощью методов многомерного шкалирования, главных компонент, факторного анализа и др. Например, в простейшей модели многомерного шкалирования исходные данные - попарные
расстояния г.''' = 1'2' -'к'.ф ' между к объектами, а цель расчетов состоит в представлении объектов точками на плоскости. Это дает возможность в буквальном смысле слова увидеть, как объекты соотносятся между собой. Для достижения этой цели необходимо каждому объекту поставить в соответствие точку на плоскости так, чтобы попарные расстояния ^ между точками, соответствующими объектам с номерами I и _/, возможно точнее воспроизводили расстояния рг7 между этими объектами. Согласно основной идее метода наименьших квадратов находят точки на плоскости так, чтобы величина
k к
I I -Ру )2
г~- 1 ]= 1
достигала своего наименьшего значения. Есть и многие другие постановки задач снижения размерности и визуализации данных.
Статистика случайных процессов и временных рядов.
Методы статистики случайных процессов и временных рядов применяют для постановки и решения, в частности, следующих задач:
• предсказание будущего развития случайного процесса или временного ряда;
• управление случайным процессом (временным рядом) с целью достижения поставленных целей, например, заданных значений контролируемых параметров;
• построение вероятностной модели реального процесса, обычно длящегося во времени, и изучение свойств этой модели.
Пример 1. При внедрении статистического регулирования технологического процесса необходимо проверить, что в налаженном состоянии математическое ожидание контролируемого параметра не меняется со временем. Если подобное изменение будет обнаружено, то необходимо установить подналадочное устройство.
Пример 2. Следящие системы, например, входящие в состав автоматизированной системы управления технологическим процессом, должны выделять полезный сигнал на фоне шумов. Это - задача оценивания (полезного сигнала), в то время как в примере 1 речь шла о задаче проверки гипотезы.
Методы статистики случайных процессов и временных рядов описаны в литературе [2,20].
Статистика объектов нечисловой природы. Методы статистики объектов нечисловой природы применяют всегда, когда результаты наблюдений являются объектами нечисловой природы. Например, сообщениями о годности или дефектности единиц продукции. Информацией о сортности единиц продукции. Разбиениями единиц продукции на группы соответственно значения контролируемых параметров. Упорядочениями единиц продукции по качеству или инвестиционных проектов по предпочтительности. Фотографиями поверхности изделия, пораженной коррозией, и т.д. Итак, объекты нечисловой природы - это измерения по качественному признаку, множества, бинарные отношения (разбиения, упорядочения и др.) и многие другие математические объекты [2]. Они используются в различных вероятностно- статистических методах принятия решений. В частности, в задачах управления качеством продукции, а также, например, в медицине и социологии, как для описания результатов приборных измерений, так и для анализа экспертных оценок.
Для описания данных, являющихся объектами нечисловой природы, применяют, в частности, таблицы сопряженности, а в качестве средних величин - решения оптимизационных задач [2]. В качестве выборочных средних для измерений в порядковой шкале используют медиану и моду, а в шкале наименований - только моду. О методах классификации нечисловых данных говорилось выше.
Для решения параметрических задач оценивания используют оптимизационный подход, метод одношаговых оценок, метод максимального правдоподобия, метод устойчивых оценок. Для решения непараметрических задач оценивания наряду с оптимизационными подходами к оцениванию характеристик используют непараметрические оценки распределения случайного
элемента, плотности распределения, функции, выражающей зависимость [2].
В качестве примера методов проверки статистических гипотез для объектов нечисловой природы рассмотрим критерий «хи-квадрат» (обозначают х2), разработанный К.Пирсоном для проверки гипотезы однородности (другими словами, совпадения) распределений, соответствующих двум независимым выборкам.
Рассматриваются две выборки объемов п1 и п2, состоящие из результатов наблюдений качественного признака, имеющего к градаций. Пусть т1/ и т2^ - количества элементов первой и второй выборок соответственно, для которых наблюдается /'-я градация, а р1/ и р2/ - вероятности того, что эта градация будет принята, для элементов первой и второй выборок, / = 1, 2, ..., к.
Для проверки гипотезы однородности распределений, соответствующих двум независимым выборкам,
2 Щ/ _ т 2/ 12 |
И0: Р/ = P2/,' = 1 2, к применяют критерий х2 (хи-квадрат) со статистикой
к 1
Х 2 = п1п2 £ —-
= 1 т1 / + т2 /
Установлено [9, 11], что статистика Х2 при больших объемах выборок п1 и п2 имеет асимптотическое распределение хи-квадрат с (к - 1) степенью свободы.
Таблица 1
Распределения плавок стали по процентному содержанию серы Содержание серы, Число плавок в %
Завод А Завод Б
0,00 ч 0,02 82 63
0,02 ч 0,04 535 429
Пример 3. В табл.1 приведены данные о содержании серы в углеродистой стали, выплавляемой двумя металлургическими заводами. Проверим, можно ли считать распределения примеси серы в плавках стали этих двух заводов одинаковыми.
Расчет по данным табл.1 дает Х2 = 3,39. Квантиль порядка 0,95 распределения хи-квадрат с к - 1 = 3 степенями свободы равен
10 95 (3) - 7А а потому гипотезу о совпадении функций распределения содержания серы в плавках двух заводов нельзя отклонить, т.е. ее следует принять (на уровне значимости а = 0,05).
Методы статистики объектов нечисловой природы рассмотрены
в [2].
Выше дано краткое описание содержания прикладной статистики на современном этапе. Подробное изложение конкретных методов содержится в специальной литературе.
Некоторые постановки задач прикладной статистики, используемые в вероятностно-статистических методах принятия решений. Чтобы дать представление о богатом содержании теории рассматриваемых методов, приведем краткий перечень основных типов постановок задач в соответствии с описанной выше классификацией областей прикладной статистики.
1. Одномерная статистика. 1.1. Описание материала
1.1.1.Расчет выборочных характеристик распределения.
1.1.2.Построение гистограмм и полигонов часто.
0,04 ч 0,06 0,06 ч 0,08 |
1173 1714 |
995 1307 |
1.1.3. Приближение эмпирических распределений с помощью
распределений из системы Пирсона и других систем.
1.2. Оценивание.
1.2.1.Параметрическое оценивание.
1.2.1.1. Правила определения оценок и доверительных границ для параметров устойчивого распределения.
1.2.1.2. Правила определения оценок и доверительных границ для параметров логистического распределения.
1.2.1.3. Правила определения оценок и доверительных границ для параметров экспоненциального распределения и смеси экспоненциальных распределений... (и так далее для различных семейств распределений).
1.2.2.Непараметрическое оценивание.
1.2.2.1. Непараметрическое точечное и доверительное оценивание основных характеристик распределения - математического ожидания, дисперсии, среднего квадратического отклонения, коэффициента вариации, квантилей, прежде всего медианы.
1.2.2.2. Непараметрические оценки плотности и функции распределения.
1.2.2.3. Непараметрическое оценивание параметра сдвига.
1.3. Проверка гипотез.
1.3.1. Параметрические задачи проверки гипотез.
1.3.1.1. Проверка равенства математических ожиданий для двух нормальных совокупностей.
1.3.1.2. Проверка равенства дисперсий для двух нормальных совокупностей.
1.3.1.3. Проверка равенства коэффициентов вариации для двух нормальных совокупностей.
1.3.1.4. Проверка равенства математических ожиданий и дисперсий для двух нормальных совокупностей.
1.3.1.5. Проверка равенства математического ожидания нормального распределения определенному значению.
1.3.1.6. Проверка равенства дисперсии нормального распределения определенному значению...
1.3.1.7. Проверка равенства параметров двух экспоненциальных совокупностей. (и так далее - проверка утверждений о параметрах для различных семейств распределений).
1.3.2. Непараметрические задачи проверки гипотез.
1.3.2.1. Непараметрическая проверка равенства математических ожиданий для двух совокупностей.
1.3.2.2. Непараметрическая проверка равенства дисперсий для двух совокупностей.
1.3.2.3. Непараметрическая проверка равенства коэффициентов вариации для двух совокупностей.
1.3.2.4. Непараметрическая проверка равенства математических ожиданий и дисперсий для двух совокупностей.
1.3.2.5. Непараметрическая проверка равенства математического ожидания определенному значению.
1.3.2.6. Непараметрическая проверка равенства дисперсии определенному значению...
1.3.2.7. Проверка гипотезы согласия с равномерным распределением по критерию Колмогорова.
1.3.2.8. Проверка гипотезы согласия с равномерным распределением по критерию омега-квадрат (Крамера-Мизеса-Смирнова).
1.3.2.9. Проверка гипотезы согласия с равномерным распределением по критерию Смирнова.
1.3.2.10. Проверка гипотезы согласия с нормальным семейством распределений по критерию типа Колмогорова при известной дисперсии.
1.3.2.11. Проверка гипотезы согласия с нормальным семейством распределений по критерию типа Колмогорова при известном математическом ожидании.
1.3.2.12. Проверка гипотезы согласия с нормальным семейством распределений по критерию типа Колмогорова (оба параметра неизвестны).
1.3.2.13. Проверка гипотезы согласия с нормальным семейством распределений по критерию типа омега-квадрат при известной дисперсии.
1.3.2.14. Проверка гипотезы согласия с нормальным семейством распределений по критерию типа омега-квадрат при известном математическом ожидании.
1.3.2.15. Проверка гипотезы согласия с нормальным семейством распределений по критерию типа омега-квадрат (оба параметра неизвестны).
1.3.2.16. Проверка гипотезы согласия с экспоненциальным семейством распределений по критерию типа омега-квадрат. ( и так далее для различных семейств распределений, тех или иных предположениях о параметрах, всевозможных критериев).
1.3.2.17. Проверка гипотезы однородности двух выборок методом Смирнова.
1.3.2.18. Проверка гипотезы однородности двух выборок методом омега-квадрат.
1.3.2.19. Проверка гипотезы однородности двух выборок с помощью критерия Вилкоксона.
1.3.2.20. Проверка гипотезы однородности двух выборок по критерию Ван-дер-Вардена.
1.3.2.21. Проверка гипотезы симметрии функции распределения относительно 0 методом Смирнова.
1.3.2.22. Проверка гипотезы симметрии функции распределения относительно 0 с помощью критерия типа омега-квадрат (Орлова).
1.3.2.23. Проверка гипотезы независимости элементов выборки.
1.3.2.24. Проверка гипотезы одинаковой распределенности элементов выборки...(и т.д.).
2. Многомерный статистический анализ. 2.1. Описание материала.
2.1.1. Расчет выборочных характеристик (вектора средних, ковариационной и корреляционной матриц и др.).
2.1.2. Таблицы сопряженности.
2.1.3. Детерминированные методы приближения функциональной зависимости.
2.1.3.1.Метод наименьших квадратов.
2.1.3.2.Метод наименьших модулей
2.1.3.3. Сплайны и др.
2.1.4. Методы снижения размерности.
2.1.4.1.Алгоритмы факторного анализа.
2.1.4.2.Алгоритмы метода главных компонент
2.1.4.3.Алгоритмы многомерного метрического шкалирования.
2.1.4.4.Алгоритмы многомерного неметрического шкалирования.
2.1.4.5.Методы оптимального проецирования и др.
2.1.5. Методы классификации.
2.1.5.1.Методы кластер-анализа - иерархические процедуры.
2.1.5.2.Методы кластер-анализа - оптимизационный подход.
2.1.5.3.Методы кластер-анализа - итерационные процедуры.
2.1.5.4.Методы группировки...
2.2. Оценивание.
2.2.1. Параметрическое оценивание.
2.2.1.1. Оценивание параметров многомерного нормального распределения.
2.2.1.2. Оценивание параметров в нормальной модели линейной регрессии.
2.2.1.3.Методы расщепления смесей.
2.2.1.4. Оценивание компонент дисперсии в дисперсионном анализе (в нормальной модели).
2.2.1.5. Оценивание размерности и структуры модели в регрессионном анализе (в нормальной модели).
2.2.1.6. Оценивание в дискриминантном анализе (в нормальной модели).
2.2.1.7. Оценивание в методах снижения размерности (в нормальной модели).
2.2.1.8.Нелинейная регрессия.
2.2.1.9.Методы планирования эксперимента.
2.2.2. Непараметрическое оценивание.
2.2.2.1.Непараметрические оценки многомерной плотности.
2.2.2.2. Непараметрическая регрессия (с погрешностями наблюдений произвольного вида).
2.2.2.3. Непараметрическая регрессия (на основе непараметрических оценок многомерной плотности).
2.2.2.4.Монотонная регрессия.
2.2.2.5.Непараметрический дискриминантный анализ.
2.2.2.6.Непараметрический дисперсионный анализ.
2.3. Проверка гипотез.
2.3.1. Параметрические задачи проверки гипотез. 2.3.1.1. Корреляционный анализ (нормальная модель).
2.3.1.2. Проверка гипотез об отличии коэффициентов при предикторах от 0 в линейной регрессии при справедливости нормальной модели.
2.3.1.3. Проверка гипотезы о равенстве математических ожиданий нормальных совокупностей (дисперсионный анализ).
2.3.1.4. Проверка гипотезы о совпадении двух линий регрессии (нормальная модель) .(и т.д.)
2.3.2. Непараметрические задачи проверки гипотез.
2.3.2.1. Непараметрический корреляционный анализ.
2.3.2.2. Проверка гипотез об отличии коэффициентов при предикторах от 0 в линейной регрессии (непараметрическая постановка).
2.3.2.3. Проверка гипотез в непараметрическом дисперсионном анализе.
2.3.2.4. Проверка гипотезы о совпадении двух линий регрессии (непараметрическая постановка) .(и т.д.)
Здесь остановимся, поскольку продолжение предполагало бы знакомство со многими достаточно сложными методами, о которых нет упоминаний в этой книге. Приведенный выше перечень ряда основных типов постановок задач, используемых в вероятностно- статистических методах принятия решений, дает первоначальное представление об объеме арсенала разработанных к настоящему времени интеллектуальных инструментов в рассматриваемой области.
Еще по теме 2.2.5. Описание данных, оценивание и проверка гипотез:
- 5. Проверка гипотезы
- Глава 15. Вариационный ряд, таблицы сопряженности признаков и проверка гипотез
- ВВЕДЕНИЕ В ТЕОРИЮ ПРОВЕРКИ ГИПОТЕЗ
- ОБЩАЯ СХЕМА ПРОВЕРКИ ГИПОТЕЗЫ
- ПРОВЕРКА ГИПОТЕЗ О РАЗЛИЧИЯХ
- НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ ПРОВЕРКИ ГИПОТЕЗ
- Предисловие
- 2.2. Вероятностно-статистические методы описания неопределенностей в теории принятия решений 2.2.1. Теория вероятностей и математическая статистика в принятии решений
- 2.2.3. Суть вероятностно-статистических методов принятия решений
- 2.2.5. Описание данных, оценивание и проверка гипотез
- 2.3.3. Интервальные данные в задачах оценивания характеристик распределения
- 2.3.4. Интервальные данные в задачах оценивания параметров (на примере гамма-распределения)
- 2.3.6. Интервальные данные в задачах проверки гіпотез.
- Литература
- Контрольные вопросы и задачи