Курсовая работа: Математическая статистика
Так или примерно так рассуждали первые статистики–профессионалы. И у кого–то из них возникла простая идея: сжать информацию о результатах наблюдений до одного, единственного показателя!
Как правило, простые идеи оказываются предельно эффективными, поэтому способ оценки итогов наблюдений по одному, желательно “главному”, “центральному” показателю пережил все века становления прикладной статистики и по ходу дела обрастал как теоретическими обоснованиями, так и практическими приемами использования.
Вернемся к гистограмме рис. 2–1 и обратим внимание на два, бросающихся в глаза факта:
· “наиболее вероятными” являются значения суммы S=1 и S=2 и эти же значения лежат “посредине” картинки;
· вероятность того, что сумма окажется равной 0 или 1, точно такая же, как и вероятность 2 или 3, причем это значение вероятности составляет точно 50 %.
Напрашивается простой вопрос – если СВ может принимать значения 0, 1, 2 или 3, то сколько в среднем составляет ее значение или, иначе – что мы ожидаем, наблюдая за этой величиной?
Ответ на такой вопрос на языке математической статистики состоит в следующем. Если нам известен закон распределения, то, просуммировав произведения значений суммы S на соответствующие каждому значению вероятности, мы найдем математическое ожидание этой суммы как дискретной случайной величины –
M(S) = S S i ·P(S i ). {2–3}
В рассматриваемом нами ранее примере биномиального распределения, при значении p=0.5, математическое ожидание составит
M(S) = 0·0.125+1·0.375+2·0.375+3·0.125= 1.5 .
Обратим внимание на то, что математическое ожидание дискретной величины типа Int или Rel совсем не обязательно принадлежит к множеству допустимых ее значений. Что касается СВ типа Nom или Ord, то для них понятие математического ожидания (по закону распределения), конечно же, не имеет смысла. Но так как с номинальной, так и с порядковой шкалой дискретных СВ приходится иметь дело довольно часто, то в этих случаях прикладная статистика предлагает особые, непараметрические методы.
Продолжим исследование свойств математического ожидания и попробуем в условиях нашего примера вместо S рассматривать U= S – M(S). Такая замена СВ (ее часто называют центрированием) вполне корректна: по величине U всегда можно однозначно определить S и наоборот.
Если теперь попробовать найти математическое ожидание новой (не обязательно дискретной) величины M(U) , то оно окажется равным нулю, независимо от того считаем ли мы конкретный пример или рассматриваем такую замену в общем виде.
Мы обнаружили самое важное свойство математического ожидания – оно является “центром” распределения. Правда, речь идет вовсе не о делении оси допустимых значений самой СВ на две равные части. Поистине – первый показатель закона распределения “самый главный” или, на языке статистики, – центральный.
Итак, для СВ с числовым описанием математическое ожидание имеет достаточно простой смысл и легко вычисляется по законам распределения. Заметим также, что математическое ожидание – просто числовая величина (в общем случае не дискретная, а непрерывная) и никак нельзя считать ее случайной.
Другое дело, что эта величина зависит от внутренних параметров распределения (например, – значения вероятности р числа испытаний n биномиальном законе).
Так для приведенных выше примеров дискретных распределений математическое ожидание составляет:
Тип распределения | Математическое ожидание |
Биномиальное | n·p |
Распределение Паскаля | k ·q / p |
Геометрическое распределение | q / p |
Распределение Пуассона | l |
Возникает вопрос – так что же еще надо? Ответ на этот вопрос можно получить как из теории, так и из практики.
Один из разделов кибернетики – теория информации (курс “Основы теории информационных систем” у нас впереди) в качестве основного положения утверждает, что всякая свертка информации приводит к ее потере. Уже это обстоятельство не позволяет допустить использование только одного показателя распределения СВ – ее математического ожидания.
Практика подтверждает это. Пусть мы построили (или использовали готовые) законы распределения двух случайных величин X и Y и получили следующие результаты:
Таблица 2–2
Значения | 1 | 2 | 3 | 4 |
P(X) % | 12 | 38 | 38 | 12 |
P(Y) % | 30 | 20 | 20 | 30 |
|
|
|
|
Рис. 2–2
Простое рассмотрение табл.2–2 или соответствующих гистограмм рис.2–2 приводит к выводу о равенстве M(X) = M(Y) = 0.5 , но вместе с тем столь же очевидно, что величина X является заметно “менее случайной”, чем Y.
Приходится признать, что математическое ожидание является удобным, легко вычислимым, но весьма неполным способом описания закона распределения. И поэтому требуется еще как–то использовать полную информацию о случайной величине, свернуть эту информацию каким–то иным способом.
Обратим внимание, что большие отклонения от M(X) у величины X маловероятны, а у величины Y – наоборот. Но при вычислении математического ожидания мы, по сути дела “усредняем” именно отклонения от среднего, с учетом их знаков. Стоит только “погасить” компенсацию отклонений разных знаков и сразу же первая СВ действительно будет иметь показатель разброса данных меньше, чем у второй. Именно такую компенсацию мы получим, усредняя не сами отклонения от среднего, а квадраты этих отклонений.
Соответствующую величину
D(X) = S (X i – M(X))2 · P(X i ); {2–4} принято называть дисперсией распределения дискретной СВ.
Ясно, что для величин, имеющих единицу измерения, размерность математического ожидания и дисперсии оказываются разными. Поэтому намного удобнее оценивать отклонения СВ от центра распределения не дисперсией, а квадратным корнем из нее – так называемым среднеквадратичным отклонением s, т.е. полагать
s2 = D(X). {2–5}