Ремонт Стены Уход

Достоинства маломощных критериев. P-значение Выбор уровня статистический значимости зависит от

Уровень значимости в статистике является важным показателем, отражающим степень уверенности в точности, истинности полученных (прогнозируемых) данных. Понятие широко применяется в различных сферах: от проведения социологических исследований, до статистического тестирования научных гипотез.

Определение

Уровень статистической значимости (или статистически значимый результат) показывает, какова вероятность случайного возникновения исследуемых показателей. Общая статистическая значимость явления выражается коэффициентом р-value (p-уровень). В любом эксперименте или наблюдении существует вероятность, что полученные данные возникли из-за ошибок выборки. Особенно это актуально для социологии.

То есть статистически значимой является величина, чья вероятность случайного возникновения крайне мала либо стремится к крайности. Крайностью в этом контексте считают степень отклонения статистики от нуль-гипотезы (гипотезы, которую проверяют на согласованность с полученными выборочными данными). В научной практике уровень значимости выбирается перед сбором данных и, как правило, его коэффициент составляет 0,05 (5 %). Для систем, где крайне важны точные значения, этот показатель может составлять 0,01 (1 %) и менее.

История вопроса

Понятие уровня значимости было введено британским статистиком и генетиком Рональдом Фишером в 1925 году, когда он разрабатывал методику проверки статистических гипотез. При анализе какого-либо процесса существует определенная вероятность тех либо иных явлений. Трудности возникают при работе с небольшими (либо не очевидными) процентами вероятностей, подпадающими под понятие «погрешность измерений».

При работе со статистическими данными, недостаточно конкретными, чтобы их проверить, ученые сталкивались с проблемой нулевой гипотезы, которая «мешает» оперировать малыми величинами. Фишер предложил для таких систем определить вероятность событий в 5 % (0,05) в качестве удобного выборочного среза, позволяющего отклонить нуль-гипотезу при расчетах.

Введение фиксированного коэффициента

В 1933 году ученые Ежи Нейман и Эгон Пирсон в своих работах рекомендовали заранее (до сбора данных) устанавливать определенный уровень значимости. Примеры использования этих правил хорошо видны во время проведения выборов. Предположим, есть два кандидата, один из которых очень популярен, а второй – малоизвестен. Очевидно, что первый кандидат выборы выиграет, а шансы второго стремятся к нулю. Стремятся – но не равны: всегда есть вероятность форс-мажорных обстоятельств, сенсационной информации, неожиданных решений, которые могут изменить прогнозируемые результаты выборов.

Нейман и Пирсон согласились, что предложенный Фишером уровень значимости 0,05 (обозначаемый символом α) наиболее удобен. Однако сам Фишер в 1956 году выступил против фиксации этого значения. Он считал, что уровень α должен устанавливаться в соответствии с конкретными обстоятельствами. Например, в физике частиц он составляет 0,01.

Значение p-уровня

Термин р-value впервые использован в работах Браунли в 1960 году. P-уровень (p-значение) является показателем, находящимся в обратной зависимости от истинности результатов. Наивысший коэффициент р-value соответствует наименьшему уровню доверия к произведенной выборке зависимости между переменными.

Данное значение отражает вероятность ошибок, связанных с интерпретацией результатов. Предположим, p-уровень = 0,05 (1/20). Он показывает пятипроцентную вероятность того, что найденная в выборке связь между переменными – всего лишь случайная особенность проведенной выборки. То есть, если эта зависимость отсутствует, то при многократных подобных экспериментах в среднем в каждом двадцатом исследовании можно ожидать такую ​​же либо большую зависимость между переменными. Часто p-уровень рассматривается в качестве «допустимой границы» уровня ошибок.

Кстати, р-value может не отражать реальную зависимость между переменными, а лишь показывает некое среднее значение в пределах допущений. В частности, окончательный анализ данных будет также зависеть от выбранных значений данного коэффициента. При p-уровне = 0,05 будут одни результаты, а при коэффициенте, равном 0,01, другие.

Проверка статистических гипотез

Уровень статистической значимости особенно важен при проверке выдвигаемых гипотез. Например, при расчетах двустороннего теста область отторжения разделяют поровну на обоих концах выборочного распределения (относительно нулевой координаты) и высчитывают истинность полученных данных.

Предположим, при мониторинге некоего процесса (явления) выяснилось, что новая статистическая информация свидетельствует о небольших изменениях относительно предыдущих значений. При этом расхождения в результатах малы, не очевидны, но важны для исследования. Перед специалистом встает дилемма: изменения реально происходят или это ошибки выборки (неточность измерений)?

В этом случае применяют либо отвергают нулевую гипотезу (списывают все на погрешность, или признают изменение системы как свершившийся факт). Процесс решения задачи базируется на соотношении общей статистической значимости (р-value) и уровня значимости (α). Если р-уровень < α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

Используемые значения

Уровень значимости зависит от анализируемого материала. На практике используют следующие фиксированные значения:

  • α = 0,1 (или 10 %);
  • α = 0,05 (или 5 %);
  • α = 0,01 (или 1 %);
  • α = 0,001 (или 0,1 %).

Чем более точными требуются расчеты, тем меньший коэффициент α используется. Естественно, что статистические прогнозы в физике, химии, фармацевтике, генетике требуют большей точности, чем в политологии, социологии.

Пороги значимости в конкретных областях

В высокоточных областях, таких как физика частиц и производственная деятельность, статистическая значимость часто выражается как соотношение среднеквадратического отклонения (обозначается коэффициентом сигма – σ) относительно нормального распределения вероятностей (распределение Гаусса). σ – это статистический показатель, определяющий рассеивание значений некой величины относительно математических ожиданий. Используется для составления графиков вероятности событий.

В зависимости от области знаний, коэффициент σ сильно разнится. Например, при прогнозировании существования бозона Хиггса параметр σ равен пяти (σ=5), что соответствует значению р-value=1/3,5 млн. При исследованиях геномов уровень значимости может составлять 5×10 -8 , что не являются редкостью для этой области.

Эффективность

Необходимо учитывать, что коэффициенты α и р-value не являются точными характеристиками. Каким бы ни был уровень значимости в статистике исследуемого явления, он не является безусловным основанием для принятия гипотезы. Например, чем меньше значение α, тем больше шанс, что устанавливаемая гипотеза значима. Однако существует риск ошибиться, что уменьшает статистическую мощность (значимость) исследования.

Исследователи, которые зацикливаются исключительно на статистически значимых результатах, могут получить ошибочные выводы. При этом перепроверить их работу затруднительно, так как ими применяются допущения (коими фактически и являются значения α и р-value). Поэтому рекомендуется всегда, наряду с вычислением статистической значимости, определять другой показатель – величину статистического эффекта. Величина эффекта – это количественная мера силы эффекта.

Выборочные параметры распределения, определяемые по серии измерений, являются случайными величинами, следовательно, и их отклонения от генеральных параметров также будут случайными. Оценка этих отклонений носит вероятностный характер - при статистическом анализе можно лишь указать вероятность той или иной погрешности.

Пусть для генерального параметра а получена из опыта несмещенная оценка а * . Назначим достаточно большую вероятность b (такую, что событие с вероятностью b можно считать практически достоверным) и найдем такое значение e b = f (b), для которого

Диапазон практически возможных значений ошибки, возникающей при замене а на а * , будет ±e b . Большие по абсолютной величине ошибки будут появляться только с малой вероятностью

называемой уровнем значимости . Иначе выражение (4.1) можно интерпретировать как вероятность того, что истинное значение параметра а лежит в пределах

. (4.3)

Вероятность b называется доверительной вероятностью и характеризует надежность полученной оценки. Интервал I b = a * ± e b называется доверительным интервалом . Границы интервала a ¢ = a * - e b и a ¢¢ = a * + e b называются доверительными границами . Доверительный интервал при данной доверительной вероятности определяет точность оценки. Величина доверительного интервала зависит от доверительной вероятности, с которой гарантируется нахождение параметра а внутри доверительного интервала: чем больше величина b, тем больше интервал I b (и величина e b). Увеличение числа опытов проявляется в сокращении доверительного интервала при постоянной доверительной вероятности или в повышении доверительной вероятности при сохранении доверительного интервала.

На практике обычно фиксируют значение доверительной вероятности (0,9; 0,95 или 0,99) и затем определяют доверительный интервал результата I b . При построении доверительного интервала решается задача об абсолютном отклонении:

Таким образом, если бы был известен закон распределения оценки а * , задача определения доверительного интервала решалась бы просто. Рассмотрим построение доверительного интервала для математического ожидания нормально распределенной случайной величины Х с известным генеральным стандартом s по выборке объемом n . Наилучшей оценкой для математического ожидания m является среднее выборки со стандартным отклонением среднего

.

Используя функцию Лапласа, получаем

. (4.5)

Задавшись доверительной вероятностью b, определим по таблице функции Лапласа (приложение 1) величину . Тогда доверительный интервал для математического ожидания принимает вид

. (4.7)

Из (4.7) видно, что уменьшение доверительного интервала обратно пропорционально корню квадратному из числа опытов.

Знание генеральной дисперсии позволяет оценивать математическое ожидание даже по одному наблюдению. Если для нормально распределенной случайной величины Х в результате эксперимента получено значение х 1 , то доверительный интервал для математического ожидания при выбранной b имеет вид

где U 1-p /2 - квантиль стандартного нормального распределения (приложение 2).

Закон распределения оценки а * зависит от закона распределения величины Х и, в частности, от самого параметра а . Чтобы обойти это затруднение, в математической статистике применяют два метода:

1) приближенный - при n ³ 50 заменяют в выражении для e b неизвестные параметры их оценками, например:

2) от случайной величины а * переходят к другой случайной величине Q * , закон распределения которой не зависит от оцениваемого параметра а , а зависит только от объема выборки n и от вида закона распределения величины Х . Такого рода величины наиболее подробно изучены для нормального распределения случайных величин. В качестве доверительных границ Q¢ и Q¢¢ обычно используются симметричные квантили

, (4.9)

или с учетом (4.2)

. (4.10)

4.2. Проверка статистических гипотез, критерии значимости,

ошибки первого и второго рода.

Под статистическими гипотезами понимаются некоторые предположения относительно распределений генеральной совокупности той или иной случайной величины. Под проверкой гипотезы понимают сопоставление некоторых статистических показателей, критериев проверки (критериев значимости ), вычисляемых по выборке, с их значениями, определенными в предположении, что данная гипотеза верна. При проверке гипотез обычно подвергается испытанию некоторая гипотеза Н 0 в сравнении с альтернативной гипотезой Н 1 .

Чтобы решить вопрос о принятии или непринятии гипотезы, задаются уровнем значимости р . Наиболее часто используются уровни значимости, равные 0.10, 0.05 и 0.01. По этой вероятности, используя гипотезу о распределении оценки Q * (критерия значимости), находят квантильные доверительные границы, как правило, симметричные Q p /2 и Q 1-p /2 . Числа Q p /2 и Q 1-p /2 называются критическими значениями гипотезы ; значения Q * < Q p /2 и Q * > Q 1-p /2 образуют критическую


область гипотезы (или область непринятия гипотезы) (рис. 12).

Рис. 12. Критическая область Рис. 13. Проверка статистических

гипотезы. гипотез.

Если найденное по выборке Q 0 попадает между Q p /2 и Q 1-p /2 , то гипотеза допускает такое значение в качестве случайного и поэтому нет оснований ее отвергать. Если же значение Q 0 попадает в критическую область, то по данной гипотезе оно является практически невозможным. Но поскольку оно появилось, то отвергается сама гипотеза.

При проверке гипотез можно совершить ошибки двух типов. Ошибка первого рода состоит в том, что отвергается гипотеза, которая на самом деле верна . Вероятность такой ошибки не больше принятого уровня значимости. Ошибка второго рода состоит в том, что гипотеза принимается, а на самом деле она неверна . Вероятность этой ошибки тем меньше, чем выше уровень значимости, так как при этом увеличивается число отвергаемых гипотез. Если вероятность ошибки второго рода равна a, то величину (1 - a) называют мощностью критерия .

На рис. 13 приведены две кривые плотности распределения случайной величины Q, соответствующие двум гипотезам Н 0 и Н 1 . Если из опыта получается значение Q > Q p , то отвергается гипотеза Н 0 и принимается гипотеза Н 1 , и наоборот, если Q < Q p .

Площадь под кривой плотности вероятности, соответствующей справедливости гипотезы Н 0 вправо от значения Q p , равна уровню значимости р , т. е. вероятности ошибки первого рода. Площадь под кривой плотности вероятности, соответствующей справедливости гипотезы Н 1 влево от Q p , равна вероятности ошибки второго рода a, а вправо от Q p - мощности критерия (1 - a). Таким образом, чем больше р , тем больше (1 - a). При проверке гипотезы стремятся из всех возможных критериев выбрать тот, у которого при заданном уровне значимости меньше вероятность ошибки второго рода .

Обычно в качестве оптимального уровня значимости при проверке гипотез используют p = 0,05, так как если проверяемая гипотеза принимается с данным уровнем значимости, то гипотезу, безусловно, следует признать согласующейся с экспериментальными данными; с другой стороны, использование данного уровня значимости не дает оснований для отбрасывания гипотезы.

Например, найдены два значения и некоторого выборочного параметра, которые можно рассматривать как оценки генеральных параметров а 1 и а 2 . Высказывается гипотеза, что различие между и случайное и что генеральные параметры а 1 и а 2 равны между собой, т. е. а 1 = а 2 . Такая гипотеза называется нулевой , или нуль-гипотезой . Для ее проверки нужно выяснить, значимо ли расхождение между и в условиях нулевой гипотезы. Для этого обычно исследуют случайную величину D = – и проверяют, значимо ли ее отличие от нуля. Иногда удобнее рассматривать величину / , сравнивая ее с единицей.

Отвергая нулевую гипотезу, тем самым принимают альтернативную, которая распадается на две: > и < . Если одно из этих равенств заведомо невозможно, то альтернативная гипотеза называется односторонней , и для ее проверки применяют односторонние критерии значимости (в отличие от обычных, двусторонних ). При этом необходимо рассматривать лишь одну из половин критической области (рис. 12).

Например, р = 0,05 при двустороннем критерии соответствуют критические значения Q 0.025 и Q 0.975 , т. е. значимыми (неслучайными) считаются Q * , принявшие значения Q * < Q 0.025 и Q * > Q 0.975 . При одностороннем критерии одно из этих неравенств заведомо невозможно (например, Q * < Q 0.025) и значимыми будут лишь Q * > Q 0.975 . Вероятность последнего неравенства равна 0,025, и, следовательно, уровень значимости будет равен 0,025. Таким образом, если при одностороннем критерии значимости использовать те же критические числа, что и при двустороннем, этим значениям будет соответствовать вдвое меньший уровень значимости.

Обычно для одностороннего критерия берут тот же уровень значимости, что и для двустороннего, так как при этих условиях оба критерия обеспечивают одинаковую ошибку первого рода. Для этого односторонний критерий надо выводить из двустороннего, соответствующего вдвое большему уровню значимости, чем тот, что принят . Чтобы сохранить для одностороннего критерия уровень значимости р = 0,05, для двустороннего необходимо взять р = 0,10, что дает критические значения Q 0.05 и Q 0.95 . Из них для одностороннего критерия останется какое-нибудь одно, например, Q 0.95 . Уровень значимости для одностороннего критерия равен при этом 0.05. Этому же уровню значимости для двустороннего критерия соответствует критическое значение Q 0.975 . Но Q 0.95 < Q 0.975 , значит, при одностороннем критерии большее число гипотез будет отвергнуто и, следовательно, меньше будет ошибка второго рода.

Уровни значимости

1. 1-й уровень значимости: р ≤ 0,05.

Это 5%-ный уровень значимости. До 5% составляет вероятность того, что мы ошибочно сделали вывод о том, что различия достоверны, в то время как они недостоверны на самом деле. Можно сказать и по-другому: мы лишь на 95% уверены в том, что различия действительно достоверны. В данном случае можно написать и так: P>0,95. Общий смысл критерия останется тем же.

2. 2-й уровень значимости: р ≤ 0,01.

Это 1%-ный уровень значимости. Вероятность ошибочного вывода о том, что различия достоверны, составляет не более 1%. Можно сказать и по-другому: мы на 99% уверены в том, что различия действительно достоверны. В данном случае можно написать и так: P>0,99. Смысл останется тем же.

3. 3-й уровень значимости: р ≤ 0,001.

Это 0,1%-ный уровень значимости. Всего 0,1% составляет вероятность того, что мы сделали ошибочный вывод о том, что различия достоверны. Это - самый надёжный вариант вывода о достоверности различий. Можно сказать и по-другому: мы на 99,9% уверены в том, что различия действительно достоверны. В данном случае можно написать и так:P>0,999. Смысл опять-таки останется тем же.

Уровень значимости – это вероятность ошибочного отклонения (отвержения) гипотезы, в то время как она на самом деле верна. Речь идёт об отклонении нулевой гипотезы Н о .

Уровень значимости – это допустимая ошибка в нашем утверждении, в нашем выводе.

Ошибки

Возможны ошибки двух родов: первого рода (α) и второго рода (β ).

Ошибка I рода – мы отклонили нулевую гипотезу, в то время как она верна.

α – ошибка I рода.

р 0,05, уровень ошибки α ≤ 0,05

Вероятность того, что принято правильное решение: 1 – α = 0,95, или 95%.

Уровни значимости для ошибок I рода

1. α 0,05 – низший уровень

Низший уровень значимости – позволяет отклонять нулевую гипотезу, но еще не разрешает принять альтернативную.

2. α 0,01 – достаточный уровень

Достаточный уровень – позволяет отклонять нулевую гипотезу и принимать альтернативную.



Исключение:

G – критерий знаков

T – критерий Вилкоксона

U – критерий Манна – Уитни.

Для них обратное соотношение.

3. α 0,001 – высший уровень значимости .

На практике различия считают достоверными при р 0,05.

Для ненаправленной статистической гипотезы используется двусторонний критерий значимости. Он более строгий, так как проверяет различия в обе стороны: в сторону нулевой гипотезы и в сторону альтернативной. Поэтому для него используется критерий значимости 0,01.

Мощность критерия – его способность выявлять даже мелкие различия если они есть. Чем мощнее критерий, тем лучше он отвергает нулевую гипотезу и подтверждает альтернативную.

Здесь появляется понятие: ошибка II рода.

Ошибка II рода – это принятие нулевой гипотезы, хотя она не верна.

Мощность критерия: 1 – β

Чем мощнее критерий, тем он привлекательнее для исследователя. Он лучше отвергает нулевую гипотезу.

Чем привлекательны маломощные критерии?

Достоинства маломощных критериев

  • Простота
  • Широкий диапазон, по отношению к самым разным данным
  • Применимость к неравным по объему выборкам.
  • Большая информативность результатов.

Самый популярный статистический критерий в России - Т-критерий Стьюдента. Но всего в 30% статей его используют правильно, а в 70% - неправильно, т.к. не проверяют предварительно выборку на нормальность распределения.

Второй по популярности - критерий хи-квадрат, χ 2

За рубежом:

Т-критерий Вилкоксона

U-критерий Манна – Уитни

χ 2 - хи-квадрат.

Т-критерий Стьюдента – это частный случай дисперсионного анализа для более маленькой по объёму выборки.

Правило отклонения H 0 И принятия H 1

Если эмпирическое значение критерия равняется критическому значению, соответствующему р< 0,05 или превышает его, то H 0 отклоняется, но мы еще не можем определенно принять H 1 . Если эмпирическое значение критерия равняется критическому значению, соответствующему р< 0,01 или превышает его, то H 0 отклоняется и принимается H 1 .

Исключения: критерий знаков G, критерий-Т Вилкоксона и критерий-U Манна-Уитни. Для них устанавливаются обратные соотношения.

Для облегчения процесса принятия решения можно всякий раз вычерчивать "ось значимости".

Критические значения критерия обозначены как Q 0,05 и Q 0,01 , эмпирическое значение критерия как Q эмп. Оно заключено в эллипс.

Вправо от критического значения Q 0,01 простирается "зона значимости" - сюда попадают эмпирические значения, превышающие Q 0,01 и, следовательно, безусловно значимые.

Влево от критического значения Q 0,05 простирается "зона незначимости" , - сюда попадают эмпирические значения Q, которые ниже Q 0,05 , и, следовательно, безусловно незначимы.

Мы видим, что Q 0,05 =6; Q 0,01 =9; Q эмп =8

Эмпирическое значение критерия попадает в область между Q 0,05 и Q 0,01 - Это зона "неопределенности" : мы уже можем отклонить гипотезу о недостоверности различий (H 0), но еще не можем принять гипотезы об их достоверности (H 1).

Практически, однако, исследователь может считать достоверными уже те различия, которые не попадают в зону незначимости, заявив, что они достоверны при р< 0,05, или указав точный уровень значимости полученного эмпирического значения критерия, например: р= 0,02. С помощью таблиц Приложения 1 это можно сделать по отношению к критериям Н-Крускала-Уоллиса, χ 2 , Фридмана, L-Пейджа, φ* Фишера, А, Колмогорова.

Уровень статистической значимости или критические значения критериев определяются поразному при проверке направленных и ненаправленных статистических гипотез.

При направленной статистической гипотезе используется односторонний критерий, при ненаправленной гипотезе - двусторонний критерий . Двусторонний критерий более строг, поскольку он проверяет различия в обе стороны, и поэтому то эмпирическое значение критерия, которое ранее соответствовало уровню значимости р< 0,05, теперь соответствует лишь уровню р< 0,10.

В данном руководстве исследователю не придется всякий раз самостоятельно решать, использует ли он односторонний или двухсторонний критерий. Таблицы критических значений критериев подобраны таким образом, что направленным гипотезам соответствует односторонний, а ненаправленным - двусторонний критерий, и приведенные значения удовлетворяют тем требованиям, которые предъявляются к каждому из них. Исследователю необходимо лишь следить за тем, чтобы его гипотезы совпадали по смыслу и по форме с гипотезами, предлагаемыми в описании каждого из критериев.

  1. Критерий Вилкоксона (общая характеристика, графическая интерпретация, ограничения, примеры использования).

Т-критерий Вилкоксона - непараметрический статистический тест (критерий), используемый для проверки различий между двумя выборками парных измерений. Впервые предложен Фрэнком Уилкоксоном . Другие названия - W-критерий Вилкоксона , критерий знаковых рангов Вилкоксона , критерий Уилкоксона для связных выборок.

Критерий предназначен для сопоставления показателей, измеренных в двух разных условиях на одной и той же выборке испытуемых. Он позволяет установить не только направленность изменений, но и их выраженность, то есть способен определить, является ли сдвиг показателей в одном направлении более интенсивным, чем в другом.

ритерий применим в тех случаях, когда признаки измерены, по крайней мере, в порядковой шкале. Целесообразно применять данный критерий, когда величина самих сдвигов варьирует в некотором диапазоне (10-15 % от их величины). Это объясняется тем, что разброс значений сдвигов должен быть таким, чтобы появлялась возможность их ранжирования. В случае если сдвиги незначительно различаются между собой и принимают какие-то конечные значения (например. +1, -1 и 0), формальных препятствий к применению критерия нет, но, ввиду большого числа одинаковых рангов, ранжирование утрачивает смысл, и те же результаты проще было бы получить с помощью критерия знаков.

Суть метода состоит в том, что сопоставляются абсолютные величины выраженности сдвигов в том или ином направлении. Для этого сначала все абсолютные величины сдвигов ранжируются, а потом суммируются ранги. Если сдвиги в ту или иную сторону происходят случайно, то и суммы их рангов окажутся примерно равны. Если же интенсивность сдвигов в одну сторону больше, то сумма рангов абсолютных значений сдвигов в противоположную сторону будет значительно ниже, чем это могло бы быть при случайных изменениях.

Минимальное значение величины: {\displaystyle W=n(n+1)/2} , где n - объём второй выборки. Максимальное значение величины {\displaystyle W=n(n+1)/2+mn} , где n - объём второй выборки, m - объём первой выборки.

Ограничения критерия

Объем выборки - от 5 до 50 элементов [источник не указан 1895 дней ] .

Нулевые сдвиги исключаются из рассмотрения. (Это требование можно обойти, переформулировав вид гипотезы. Например: сдвиг в сторону увеличения значений превышает сдвиг в сторону их уменьшения и тенденцию к сохранению на прежнем уровне.)

Сдвиг в более часто встречающемся направлении принято считать «типичным», и наоборот.

Есть также урезанный вариант для сравнения одной выборки с известным значением медианы.

Алгоритм

  1. Составить список испытуемых в любом порядке, например, алфавитном.
  2. Вычислить разность между индивидуальными значениями во втором и первом замерах. Определить, что будет считаться типичным сдвигом.
  3. Согласно алгоритму ранжирования, проранжировать абсолютные величины разностей, начисляя меньшему значению меньший ранг, и проверить совпадение полученной суммы рангов с расчетной.
  4. Отметить каким-либо способом ранги, соответствующие сдвигам в нетипичном направлении. Подсчитать их сумму Т.
  5. Определить критические значения Т для данного объема выборки. Если Т-эмп. меньше или равен Т-кр. – сдвиг в «типичную» сторону достоверно преобладает.

Фактически оцениваются знаки значений, полученных вычитанием ряда значений одного измерения из другого. Если в результате количество снизившихся значений примерно равно количеству увеличившихся, то гипотеза о нулевой медиане подтверждается.

Уровень значимости – вероятность ошибочного отклонения (отвержения) гипотезы, в то время как она на самом деле верна. Речь идет об отклонении нулевой гипотезы.

1. 1-й уровень значимости: α ≤ 0,05.

Это 5%-ный уровень значимости. До 5% составляет вероятность того, что мы ошибочно сделали вывод о том, что различия достоверны, в то время как они недостоверны на самом деле. Можно сказать и по-другому: мы лишь на 95% уверены в том, что различия действительно достоверны.

2. 2-й уровень значимости: α ≤ 0,01.

Это 1%-ный уровень значимости. Вероятность ошибочного вывода о том, что различия достоверны, составляет не более 1%. Можно сказать и по-другому: мы на 99% уверены в том, что различия действительно достоверны.

3. 3-й уровень значимости: α ≤ 0,001.

Это 0,1%-ный уровень значимости. Всего 0,1% составляет вероятность того, что мы сделали ошибочный вывод о том, что различия достоверны. Это - самый надёжный вариант вывода о достоверности различий. Можно сказать и по-другому: мы на 99,9% уверены в том, что различия действительно достоверны.

В области ФК и спорта достаточен уровень значимости α = 0,05, более серьезные выводы рекомендуется давать, используя уровень значимости α = 0,01 или α = 0,001.

7.2. F- критерий Фишера

Оценка генеральных параметров с помощью выборочных данных производится с помощью F - критерия Фишера. Данный критерий указывает о наличии или отсутствии достоверного различия в двух дисперсиях. Критерий Фишера - показатель достоверности влияния изучаемых факторов на полученный результат.

Пример 4. В экспериментальной группе школьников средний прирост результатов в прыжках в длину с разбега, после применения новой методики обучения, составил 10 см ( 10 см). В контрольной группе, где применялось традиционная методика, 4 см ( 4 см). Исходные данные:

Экспериментальная группа (x i): 17; 11; 3; 8; 9; 12; 10; 13; 10; 7.

Контрольная группа (y i): 8; 1; 6; 2; 3; 0; 4; 7; 5; 4.

Можно ли утверждать, что нововведения эффективнее повлияли на процесс формирования изучаемого двигательного действия по сравнению с традиционной методикой?

Для ответа на поставленный вопрос воспользуемся F - критерием Фишера:

1) Задаемся уровнем значимости α = 0,05.

2) Вычисляем исправленные выборочные дисперсии из нашего примера по формуле:

3) Вычисляем значение F - критерия по формуле, причем, в числитель ставится большая дисперсия, в знаменатель – меньшая:

4) Из таблицы 3 приложения при α =0,05; df 1 = n 1 – 1 = 9; df 2 = n 2 – 1 = 9; находим F 0,05 = 3,18

5) Сравниваем между собой значения F и F 0,05 .

Вывод. Поскольку F < F 0.05 (2,1 < 3,18), то на уровне значимости α = 0,05 различие дисперсий статистически недостоверно, т.е. можно сказать, что школьники при обеих системах подготовки не отличаются по признаку вариативности результатов.

7.3. t - критерий Стьюдента

Общее название для класса методов статистической проверки гипотез (статистических критериев), основанных на распределении Стьюдента. Наиболее частые случаи применения t-критерия связаны с проверкой равенства средних значений в двух выборках. t -статистика строится обычно по следующему общему принципу: в числителе случайная величина с нулевым математическим ожиданием (при выполнении нулевой гипотезы), а в знаменателе - выборочное стандартное отклонение этой случайной величины, получаемое как квадратный корень из несмещенной оценки дисперсии.

Устанавливает доказательство достоверного различия или, наоборот, отсутствие различия в двух выборочных средних значениях для независимых выборок. Рассмотрим последовательность вычислений, используя пример 4 :

1) Принимаем предположение о нормальности распределения генеральных совокупностей, из которых получены данные. Формулируем гипотезы:

Нулевая гипотеза H o: = .

Альтернативная гипотеза: H 1: ≠ .

Задаемся уровнем значимости α = 0,05.

2) В результате предварительной проверки при использовании критерия Фишера установлено, что различие дисперсий статистически недостоверно: D(x) = D(y).

3) Так как генеральные дисперсии D(x) и D(y) одинаковы, а n 1 и n 2 – объёмы малых независимых выборок, то наблюдаемое значение критерия равно:

Вычисляем число степеней свободы по формуле

Нулевая гипотеза отвергается, если │ │ ˃ , Из таблицы 1 приложения находим критическое значение t – критерия при α = 0,05; =18: = 2,101

Вывод: поскольку > (4,18 ˃ 2,101), то на уровне значимости 0,05 мы отвергаем гипотезу Н 0 и принимаем альтернативную гипотезу Н 1 .

Таким образом, нововведения успешнее решают задачу обучения школьников прыжкам в длину с разбега, чем традиционная методика.

Условия применения – разность связанных пар результатов измерения. Делается предположение о нормальном распределении этих разностей в генеральной совокупности с параметрами .

Пример 5 . Группа 10 школьников в течение летних каникул находилась в летнем оздоровительном лагере. До и после сезона у них измеряли жизненную емкость легких (ЖЕЛ). По результатам измерений нужно определить, достоверно ли изменился этот показатель под влиянием физических упражнений на свежем воздухе.

Исходные данные до эксперимента (x i ; мл) 3400; 3600; 3000; 3500; 2900; 3100; 3200; 3400; 3200; 3400, т.е. объем выборки n = 10.

После эксперимента (y i ; мл): 3800; 3700; 3300; 3600; 3100; 3200; 3200; 3300; 3500; 3600.

Порядок вычислений:

1) Находим разность связанных пар результатов измерения d i :

;

2) Формулируем гипотезы:

Нулевая гипотеза H o: =

Альтернативная гипотеза: H 1: ≠ 0.

3) Задаемся уровнем значимости α = 0,05

4) Вычисляем - (среднее арифметическое), s d - (стандартное отклонение). = 160(мл); s d = 150,6 (мл)

5) Значение t- критерия определяем по формуле для связанных пар:

Из таблицы 1 приложения находим критическое значение t – критерия при α = 0,05; = n – 1 = 9: = 2,262

Вывод: Поскольку t > t кр (3,36 > 2,262)наблюдаемое различие по показателю ЖЕЛ является статистически достоверным на уровне значимости α=0,05.

1. Афанасьев В.В. Основы отбора, за и контроля в спорте / В.В. Афанасьев, А.В. Муравьев, И.А. Осетров. – Ярославль: Изд-во ЯГПУ, 2008. − 278 с.

2. Биленко, А.Г. Основы спортивной метрологии: Учебное пособие /А.Г. Биленко, Л.П. Говорков; СПб ГУФК им. П.Ф. Лесгафта. – СПб., 2005. – 138 с.

3. Губа В.П. Измерения и вычисления в спортивно- педагогической практике: учебное пособие для студентов высших учебных заведений/ В.П. Губа, М.П.Шестаков, Н.Б. Бубнов, М.П. Борисенков. – М.: ФиС, 2006. – 220 с.

4. Гмурман В.Е. Руководство к решению задач по теории вероятностей и математической статистике. - М: Высшая школа, 2004. – 404 с.

5. Коренберг, В.Б. Спортивная метрология: учебник / В.Б. Коренберг – М.: Физическая культура, 2008. – 368 с.

6. Начинская, С. В. Спортивная метрология. Учебное пособие для студ. высш. учеб. заведений / С. В. Начинская.– М.: Издательский центр «Академия», 2005. – 240 с.

7. Начинская С.В. Применение статистических методов в сфере физической культуры / Начинская С.В – СПб., 2000. – 260 с.

8. Смирнов, Ю. И. Спортивная метрология: учеб. для студ. пед. вузов / Ю. И Смирнов, М. М. Полевщиков. – М.: Издат. центр «Академия», 2000. – 232 с.

ПРИЛОЖЕНИЕ

В таблицах результатов статистических расчётов в курсовых, дипломных и магистерских работах по психологии всегда присутствует показатель «р».

Например, в соответствии с задачами исследования были рассчитаны различия уровня осмысленности жизни у мальчиков и девочек подросткового возраста.

Среднее значение

U-критерий Манна-Уитни

Уровень статистической значимости (p)

Мальчики (20 чел.)

Девочки

(5 чел.)

Цели

28,9

35,2

17,5

0,027*

Процесс

30,1

32,0

38,5

0,435

Результат

25,2

29,0

29,5

0,164

Локус контроля - «Я»

20,3

23,6

0,067

Локус контроля - «Жизнь»

30,4

33,8

27,5

0,126

Осмысленность жизни

98,9

111,2

0,103

* - различия статистически достоверны (р 0,05)

В правом столбце указано значение «р» и именно по его величине можно определить значимы различия осмысленности жизни в будущем у мальчиков и девочек или не значимы. Правило простое:

  • Если уровень статистической значимости «р» меньше либо равен 0,05, то делаем вывод, что различия значимы. В приведенной таблице различия между мальчиками и девочками значимы в отношении показателя «Цели» - осмысленность жизни в будущем. У девочек этот показатель статистически значимо выше, чем у мальчиков.
  • Если уровень статистической значимости «р» больше 0,05, то делается заключение, что различия не значимы. В приведенной таблице различия между мальчиками и девочками не значимы по всем остальным показателям, за исключением первого.

Откуда берется уровень статистической значимости «р»

Уровень статистической значимости вычисляется статистической программой вместе с расчётом статистического критерия. В этих программах можно также задать критическую границу уровня статистической значимости и соответствующие показатели будут выделяться программой.

Например, в программе STATISTICA при расчете корреляций можно установить границу «р», например, 0,05 и все статистически значимые взаимосвязи будут выделены красным цветом.

Если расчёт статистического критерия проводится вручную, то уровень значимости «р» выявляется путем сравнения значения полученного критерия с критическим значением.

Что показывает уровень статистической значимости «р»

Все статистические расчеты носят приблизительный характер. Уровень этой приблизительности и определяет «р». Уровень значимости записывается в виде десятичных дробей, например, 0,023 или 0,965. Если умножить такое число на 100, то получим показатель р в процентах: 2,3% и 96,5%. Эти проценты отражают вероятность ошибочности нашего предположения о взаимосвязи, например, между агрессивностью и тревожностью.

То есть, коэффициент корреляции 0,58 между агрессивностью и тревожностью получен при уровне статистической значимости 0,05 или вероятности ошибки 5%. Что это конкретно означает?

Выявленная нами корреляция означает, что в нашей выборке наблюдается такая закономерность: чем выше агрессивность, тем выше тревожность. То есть, если мы возьмем двух подростков, и у одного тревожность будет выше, чем у другого, то, зная о положительной корреляции, мы можем утверждать, что у этого подростка и агрессивность будет выше. Но так как в статистике все приблизительно, то, утверждая это, мы допускаем, что можем ошибиться, причем вероятность ошибки 5%. То есть, сделав 20 таких сравнений в этой группе подростков, мы можем 1 раз ошибиться с прогнозом об уровне агрессивности, зная тревожность.

Какой уровень статистической значимости лучше: 0,01 или 0,05

Уровень статистической значимости отражает вероятность ошибки. Следовательно, результат при р=0,01 более точный, чем при р=0,05.

В психологических исследованиях приняты два допустимых уровня статистической значимости результатов:

р=0,01 - высокая достоверность результата сравнительного анализа или анализа взаимосвязей;

р=0,05 - достаточная точность.

Надеюсь, эта статья поможет вам написать работу по психологии самостоятельно. Если понадобится помощь, обращайтесь (все виды работ по психологии; статистические расчеты).