Теория статистики (Станкин)

Дата: 15.05.2014

		

Тема 1. Статистическая сводка. Группировка

Статистическая сводка является вторым этапом статистического
исследования после наблюдения. Она состоит в том, что первичные материалы,
полученные в результате наблюдения, обрабатываются, сводятся вместе и
характеризуются итоговыми обобщающими показателями.
Составными элементами сводки являются: 1) программа сводки; 2) подсчет
групповых итогов; 3) оформление конечных результатов сводки в виде таблиц и
графиков.
Программа статистической сводки содержит перечень групп, на которые
расчленена изучаемая совокупность по определенным признакам, а также
перечень показателей, необходимых для характеристики каждой группы.
Программа сводки имеет, как правило, вид свободных статистических таблиц,
которые следует заполнить расчетными данными.
В сводке статистического материала важное звено занимают группировки,
так как простой подсчет итогов без распределения единиц совокупности на
группы по тем или иным признакам не дает полной характеристики объекта
изучения.
К статистическим группировкам прибегают при решении следующих задач:
а) анализ структуры исследуемой совокупности;
б) выявление связей и взаимозависимостей между экономическими явлениями.
Для решения первой задачи строят структурные группировки.
Для решения второй задачи строят аналитические группировки.
Группировки бывают простые и комбинационные. Простая группировка
образуется по одному признаку, комбинационная — по двум и более признакам.
Можно осуществлять группировки как по количественному признаку, так и по
атрибутивному. В количественной группировке группировочный признак
выражается вариантами чисел. В атрибутивной группировке группировочный
признак количественного выражения не имеет, так как характеризует качество
изучаемого явления.
В экономико-статистическом анализе делаются группировки как с равными,
так и с неравными интервалами. При построении группировки с равными
интервалами величину интервала групп определяют по следующей формуле:
[pic],
где Xmax — максимальное значение признака в изучаемой совокупности; Xmin
— минимальное значение признака в изучаемой совокупности; n — число групп.
При выборе числа групп необходимо учитывать следующее: 1) в каждую
группу может попасть по возможности достаточно большое число единиц; 2)
число единиц в группах не должно резко отличаться друг от друга, т.е.
должно быть примерно одного порядка; 3) групп должно быть не более 6-7.
Группировки с неравными интервалами целесообразно применять в тех
случаях, когда исходные статистические данные разнятся на весьма
значительную величину, т.е. когда слишком велик размах вариации в исходной
совокупности.
Рассмотрим пример на построение аналитической группировки.

Таблица 1.1
Данные о стоимости основных фондов и товарной продукции предприятий

|198 — 237,6 |6 |2381,7 |396,9 |
|237,6 — 277,2 |2 |1049,4 |524,2 |
|277,2 — 316,8 |6 |3433,6 |572,3 |
|316,8 — 356,4 |4 |2499,8 |624,7 |
|356,4 — 396,0 |2 |1844,6 |922,7 |

На основе построенной группировки видна четкая зависимость объема
товарной продукции от средней годовой стоимости основных производственных
фондов предприятия.
Используя условие данной задачи, построим структурную группировку.
Для построения структурной группировки необходимо сформировать группы по
второму признаку — величине товарной продукции. Возьмем число групп n = 5;
границы интервалов групп определяем по формуле величины интервала
группировки h, где
[pic]126,52 млн. руб.
Группы предприятий, образованные по объему товарной продукции,
следующие: 315,0 — 441,52; 441,52 — 568,04; 568,04 — 694,56; 694,56 —
821,08; 821,08 — 947,6.
В дальнейшем, осуществляя распределение предприятий в группах по средней
годовой стоимости основных производственных фондов на подгруппы по объему
товарной продукции, сформируем структурную группировку (табл. 1.3).
На основе структурной группировки отчетливо видно распределение
предприятий по объему товарной продукции в зависимости от той или иной
средней годовой стоимости производственных фондов.

Таблица 1.3
Структурная группировка предприятий по двум показателям
|Группа |Число |в том числе с объемом товарной продукции,|
|предприятий по |предприяти|млн. руб. |
|средней годовой |й | |
|стоимости ОПФ, | | |
|млн. руб. | | |
| |человек |в процентах|
| | |к итогу |
|1 |3 |1,5 |
|2 |12 |6,1 |
|3 |63 |32,0 |
|4 |68 |34,5 |
|5 |34 |17,3 |
|6 |17 |8,6 |
|Итого: |197 |100,0 |

Для характеристики структуры рабочих по тарифным разрядам (в процентах)
определяют удельный вес численности рабочих по соответствующим разрядам в
общей численности рабочих. Так, удельный вес численности рабочих 1 разряда
составляет (3 : 197) ( 100 = 1,5% и т.д. (см. табл. 4.2).
При вычислении относительных величин координации за базу сравнения
принимается какая-либо одна часть изучаемого явления, а остальные части
соотносятся с ней.
Для примера воспользуемся данными табл. 4.2. Если взять за базу
сравнения численность рабочих 2 разряда, тогда относительные величины
координации составят: [pic] = 0,25; [pic] = 5,3; [pic] = 5,7; [pic] = 2,8;
[pic] = 1,4, т.е. на каждого рабочего 2 разряда приходится в 4 раза меньше
рабочих 1 разряда, 5 рабочих 3 разряда; 6 рабочих 4 разряда и т.д.
При вычислении относительных величин интенсивности необходимо помнить,
что они являются именованными показателями: так, коэффициент фондоотдачи
показывает, какой объем продукции приходится на единицу стоимости основных
производственных фондов; показатель производительности труда характеризует
величину объема продукции в расчете на единицу трудовых затрат и т.д.
При вычислении относительных величин сравнения нужно запомнить, что
сравнению между собой подвергаются одноименные величины, относящиеся к
разным объектам, взятые, как правило, за один и тот же период времени.
Например, соотношение выпуска продукции на двух предприятиях в отчетном
периоде составило 102%.

Тема 5. Средние величины

Средние величины в статистике выполняют роль обобщающих показателей,
характеризующих изучаемую совокупность единиц по какому-либо признаку.
В статистике используют различные виды средних величин: средняя
арифметическая простая, средняя арифметическая взвешенная; средняя
гармоническая, средняя геометрическая; структурные средние — мода и
медиана.
При изучении данной темы особое внимание следует обратить на то, что
каждый вид средней величины определяется в зависимости от конкретного
экономического условия и от поставленной задачи. В противном случае средняя
величина даст ошибочный результат и будет являться искаженной
характеристикой изучаемой статистической совокупности.
Средняя величина рассчитывается по качественно однородной совокупности,
значения которой примерно одного порядка.
Это — основное условие применения средней.
Нельзя забывать о том, что средние величины в статистике являются
величинами именованными и выражаются в тех же единицах, в которых выражен
признак.
Необходимо также уяснить значение средних моды и медианы, с помощью
которых изучают структуру исследуемой совокупности.
Проиллюстрируем на конкретных примерах порядок расчета каждого вида
средних величин.
1. Распределение рабочих-наладчиков участка одного из цехов
промышленного предприятия по стажу работы и квалификационным разрядам
характеризуется следующими данными:

Таблица 5.1
Данные о составе рабочих
|Стаж |Число рабочих, чел. |
|работы,| |
|лет | |
| |Всего |в том числе имеющих |
| | |разряд |
| | |4 |5 |6 |
|До 10 |9 |2 |4 |3 |
|10-20 |7 |– |2 |5 |
|20-30 |3 |– |1 |2 |
|30-40 |2 |– |– |2 |

Определить: а) средний разряд рабочих каждой возрастной группы; б)
средний стаж рабочих участка.
Решение:
а) Для нахождения среднего разряда рабочих каждой возрастной группы
следует применить среднюю арифметическую взвешенную:
[pic];
в качестве веса (m) выступает конкретный разряд рабочих. Так, для рабочих
со стажем работы до 10 лет средний тарифный разряд составит:
[pic] = [pic] = [pic] = 5 разряд.
И так далее по другим возрастным группам.
б) Для нахождения среднего стажа рабочих на участке применяют ту же
среднюю арифметическую взвешенную, но уже для интервального ряда
распределения.
Причем, в качестве «x» будут срединные значения признака в группах, а в
качестве веса (m) принимают численность рабочих соответствующей группы:
[pic] = [pic] = [pic] = 14 лет.
2. По следующим данным распределения рабочих цеха по проценту выполнения
месячного задания определить моду и медиану.

Таблица 5.2
Данные о выполнении производственного задания
|Выполнение месячного|Число рабочих,|Накопленные |
|задания, процент |чел. |частоты от начала |
| | |ряд |
|95-100 |3 |3 |
|100-105 |20 |23 |
|105-110 |10 |33 |
|110-115 |5 |38 |
|115-120 |4 |42 |
|Итого |42 |– |

Модой в статистике называют наиболее часто встречающееся в исследуемой
совокупности значение признака. Следовательно, в данной задаче модальным
будет интервал от 100 до 105 процентов, так как на него приходится
наибольшее число рабочих (20 чел.).
Моду определяют по формуле:
Mo = x0 + [pic]? (x1 – x0),
где x0 и x1 — соответственно нижняя и верхняя границы модального
интервала;
m2 — частота модального интервала;
m1 и m3 — частоты интервала, соответственно, предыдущего и следующего за
модальным.
Подставим значения в формулу:
Mo = 100 + [pic]( (105 – 100) = 103,1%.
Иначе говоря, наибольшее число рабочих выполняют месячное задание на
103,1%.
Медианой в статистике называют срединное значение признака в исследуемой
совокупности. Следовательно, медианным является интервал, на который
приходится 50% накопленных частот данного ряда, что по условию задачи 42 :
2 = 21.
В нашей задаче медиана находится в интервале от 100 до 105% , так как на
данный интервал приходится накопленная частота 23.
Медиану определяют по формуле:
Me = x0 + [pic]? (x1 – x0),
где x0 и x1 — соответственно нижняя и верхняя границы медианного
интервала;
N — сумма частот ряда;
N0 — сумма частот, накопившаяся до начала медианного интервала;
N1 — частота медианного интервала.
Подставим соответствующее значение в формулу:
Me = 100 + [pic] ( 5 = 104,5%.
Таким образом, 50% всех рабочих выполняют производственное задание менее
чем на 104,5%; 50% — более чем на 104,5%.

Тема 6. Ряды динамики

Рядами динамики называют ряды, которые характеризуют изменение явления
во времени. Ряды динамики бывают моментные и интервальные. Моментные ряды
характеризуют изменение явления в динамике на определенный момент времени
(чаще — на начало или конец периода). Интервальные ряды характеризуют
изменение явления в динамике за определенный период времени (месяц,
квартал, год).
В экономическом анализе используют аналитические показатели динамики. К
ним относят абсолютный прирост, средний абсолютный прирост, темп роста,
темп прироста, средний темп роста, абсолютное значение одного процента
прироста. Данные показатели широко используются в статистической практике,
что вызывает необходимость тщательного изучения порядка их расчета.
Рассмотрим на примере расчет аналитических показателей ряда динамики
(табл. 6.1).

Таблица 6.1
Данные о производстве в цехе
|Месяц |Выпуск |Показатели динамики |
| |цехом | |
| |товарной | |
| |продукции| |
| |, тыс. | |
| |руб. | |
| | |Абсолютный|Темп роста |Темп прироста|Абсолютное |
| | |прирост |(Тр) |(Тпр) |значение 1%|
| | |((), тыс. | | |прироста |
| | |руб. | | |(А), тыс. |
| | | | | |руб. |
| | | |Цепной |Базисн|Цепной|Базисн| |
| | | | |ый | |ый | |
|1 |236 |– |– |100,0 |– |– |– |
|2 |244 |8 |103,4 |103,4 |3,4 |3,4 |2,4 |
|3 |246 |2 |100,8 |104,2 |0,8 |4,2 |2,5 |
|4 |249 |3 |101,2 |105,5 |1.2 |5,5 |2,5 |
|5 |250 |1 |100,4 |105,9 |0,4 |5,9 |2,5 |
|6 |252 |2 |100,8 |106,8 |0,8 |6,8 |2,5 |

Абсолютный прирост (() определяется как разность между отчетным и
предыдущим уровнями ряда динамики, т.е. по формуле:
( = yi – yi–1,
где yi, yi–1 — уровни ряда динамики.
Так, например, абсолютный прирост продукции цеха в феврале по сравнению
c январем составил: 244 – 236 = 8 тыс. руб., а в марте по сравнению с
февралем: 246 – 244 = 2 тыс. руб. и т.д.
Средний абсолютный прирост ([pic]) определяется на основе данных
абсолютных приростов по следующей формуле:
[pic] или [pic],
где n — число уровней ряда динамики;
y1 и yn — соответственно первый и последний уровни ряда динамики.
Темп роста (Тр) определяется по формуле:
Тр = [pic] ( 100%,
где y0 — уровень ряда динамики, взятый за базу сравнения.
Темп роста рассчитывается по принципу цепных и базисных соотношений. В
том числе, когда за базу сравнения принимается предыдущий период — это
цепные показатели темпа роста, когда сравнение осуществляется с любым
другим уровнем ряда динамики, взятым за базу сравнения — базисные темпы
роста.
Так, в феврале по сравнению с январем выпуск продукции в цехе составил:
Тр2 = (244 : 236) ( 100% = 103,4%, а в марте по сравнению с февралем: Тр3 =
(246 : 244) ( 100% = 100,8% и т.д.
Если за базу сравнения взять январь, то выпуск продукции в цехе в марте
по сравнению с январем составил: (246 : 236) ( 100% = 104,2%, а в апреле по
сравнению с январем: (249 : 236) ( 100% = 105,5% и т.д.
Темп прироста (Тпр) в отличие от темпа роста характеризует относительный
прирост явления в отчетном периоде по сравнению с тем уровнем, с которым
осуществляется сравнение и определяется:
Тпр = Тр – 100.
Так, в марте объем продукции цеха по сравнению с февралем увеличился на
0,8% (100,8 – 100), а по сражению с январем — на 4,2% (104,2 – 100) и т.д.
Абсолютное значение одного процента прироста (А) характеризует
абсолютный эквивалент одного процента прироста и определяется по формуле:
А = [pic].
Так, в марте абсолютное значение одного процента прироста составило: (2
: 0,8) = 2,4 млн. руб. и т.д.
Средний темп роста ([pic]) за период динамики определяют по формуле
средней геометрической двояким способом — на основе данных цепных
коэффициентов динамики, либо на основе данных абсолютных уровней ряда
динамики по формуле:
[pic]?100
или
[pic]?100,
где x1, x2, …, xn — коэффициенты динамики по отношению к предыдущему
периоду;
n — число коэффициентов динамики;
k — число абсолютных уровней ряда динамики.
Так, за первое полугодие средний годовой темп роста продукции в цехе
составил: [pic] = [pic] = [pic] = 1,014 ( 100 = 101,4% или [pic] = [pic] =
[pic] = 1,014 ( 100 = 101,4%.
Один из важнейших вопросов, возникающих при изучении рядов динамики —
это выявление тенденции развития экономической закономерности в динамике.
Для этой цели применяются разнообразные статистические методы, в частности,
метод укрупнения интервалов, метод скользящей средней, метод аналитического
выравнивания.
Наиболее простым в использовании является метод укрупнения интервалов,
основанный на укрупнении периодов времени, к которым относятся уровни ряда.
Выявление тенденции осуществляется по новому укрупненному ряду динамики.
Другой метод — метод скользящей средней заключается в замене
первоначальных уровней ряда динамики средними арифметическими, найденными
по способу скольжения, начиная с первого уровня ряда с постепенным
включением последующих уровней.
Наиболее совершенным методом выявления тенденции ряда динамики является
метод аналитического выравнивания, который заключается в замене
первоначальных уровней ряда новыми, найденными во времени «t» построением
аналитического уравнения связи.
Рассмотрим на примере возможности применения каждого из методов
выравнивания при выявлении тенденции ряда динамики.
Известны следующие данные выполнения программы участком «молдинги» цеха
ЗИЛ-130 прессового корпуса за 1989 г. (табл.6.2).

Таблица 6.2
| |Базисный |Отчетный |Базисный|Отчетный|
| |период |период |период |период |
|А |15 |20 |0,8 |0,7 |
|Б |1,5 |2 |2,0 |1,5 |
|В |5 |10 |1,0 |0,8 |

Рассчитаем индивидуальные индексы продукции и индивидуальные индексы
цен.
Индивидуальные индексы по соответствующим видам продукции составят:
Iq(А) = [pic] = [pic] ( 100 = 133,3%;
Iq(Б) = [pic] = [pic] ( 100 = 133,3%;
Iq(В) = [pic] = [pic] ( 100 = 200%.
То есть в отчетном периоде по сравнению с базисным произведено продукции
вида «А» и «Б», соответственно, на 33,3% больше, а вида «В» — на 100%
больше.
Индивидуальные индексы цен по соответствующим видам продукции составят:
Ip(А) = [pic] = [pic] ( 100 = 87,5%;
Ip(Б) = [pic] = [pic] ( 100 = 75,0%;
Ip(В) = [pic] = [pic] ( 100 = 80,0%.
То есть цена единицы продукции вида «А» в отчетном периоде по сравнению
с базисным снизилась на 12,5% (100 – 87,5), вида «Б» — на 25% (100 – 75) и
вида «В» — на 20% (100 – 80).
Индивидуальные индексы конкретного вида продукции в стоимостном
выражении, соответственно, составят:
Ip(А) = [pic] = [pic] ( 100 = [pic] ( 100 = 116,7%;
Ip(Б) = [pic] = [pic] ( 100 = [pic] ( 100 = 100%;
Ip(В) = [pic] = [pic] ( 100 = [pic] ( 100 = 160%.
Таким образом, объем продукции в стоимостном выражении вида «А» в
отчетном периоде по сравнению с базисным увеличится на 16,7% (116,7 – 100),
вида «В» — на 60% (160 – 100) и вида «Б» — останется без изменения (100 –
100).
Для того, чтобы ответить на вопрос, как уменьшился объем всей продукции
предприятия в отчетном периоде по сравнению с базисным, необходимо
рассчитать сводные индексы продукции, цен и физического объема продукции.
Сводный индекс объема продукции в стоимостном выражении составит:
Jqp = [pic] = [pic] ( 100 = [pic] ( 100 = 125%;
Сводный индекс цен составит:
Jp = [pic] = [pic] ( 100 = [pic] ( 100 = 83,3%;
Сводный индекс физического объема продукции составит:
Jq = [pic] = [pic] ( 100 = [pic] ( 100 = 150%.
Используя первое свойство индексов, имеем:
Jqp = Jq ? Jp; 125% = 1,5 ( 0,833 ( 100%.
Используя второе свойство индексов, имеем:
(qp(qp) = (qp(q) + (qp(p), т.е. (25 – 20) = (30 – 20) + (25 – 30) или
(+5) = (+10) + (-5).
Таким образом, можно сделать вывод: объём продукции в стоимостном
выражении увеличился в целом на 25%, или на 5((25 – 20) тыс. руб., в том
числе за счет снижения цен на 16,7% (83,3 – 100) объем снизился на 5 тыс.
руб. (25 – 30), а за счет увеличения физического объема продукции на 50%
(150 – 100) объем продукции в стоимостном выражении увеличился на 10 тыс.
руб.

Тема 9. Взаимосвязи явлений

Первый этап изучения связи явлений — выделение основных причинно-
следственных связей и отделение их от второстепенных. Второй этап —
построение модели. Последний этап — интерпретация результатов.
Признаки-аргументы называются факторами, а признаки-функции —
результатами (результативными признаками).
Связи между явлениями делят по степени тесноты связи (полная или
функциональная связь, неполная или статистическая связь), по направлению
(прямая, обратная), по аналитическому выражению (линейная, нелинейная).
Для выявления связи, ее характера, направления используют методы
приведения параллельных данных, балансовый, аналитических группировок,
графический. Суть метода приведения параллельных данных: приводят два ряда
данных о двух признаках, связь между которыми хотят выявить, и по характеру
изменений делают заключение о наличии связи. Балансовый метод заключается в
построении балансов — таблиц, где итог одной части равен итогу другой.
Методы аналитических группировок и графический изложены в
соответствующих темах.
Удобная форма изложения данных — корреляционная таблица (табл. 9.1).

Таблица 9.1
Корреляционная таблица
|Часовая |Количество станков, обслуживаемых одной |
|выработк|работницей, шт. |
|а ткани,| |
|м | |
|c |d |c + d |
|a + c |b + d |a + b + c|
| | |+ d |

Для определения тесноты связи двух качественных признаков, каждый из
которых состоит только из двух групп, применяются коэффициенты ассоциации и
контингенции. Для их вычисления строится таблица, которая показывает связь
между двумя явлениями, каждое из которых должно быть альтернативным, т.е.
состоящим из двух качественно отличных друг от друга значений признака
(например, хороший, плохой).
Коэффициенты вычисляются по формулам:
A = [pic] — ассоциации;
K = [pic] — контингенции.
Коэффициент контингенции всегда меньше коэффициента ассоциации. Связь
считается подтвержденной, если A ( 0,5, или K ( 0,3.
Если каждый из качественных признаков состоит более чем из двух групп,
то для определения тесноты связи возможно применение коэффициента взаимной
сопряженности Пирсона. Этот коэффициент вычисляется по формуле:

C = [pic],
где (2 — показатель взаимной сопряженности.
Расчет коэффициента взаимной сопряженности проводится по следующей
схеме:

|Группа |Группа признака|Итого|
|признака|В | |
|A | | |
| |B1 |B2 |B3 | |
|A1 |f1 |f2 |f3 |n1 |
|A2 |f4 |f5 |f6 |n2 |
|A3 |f7 |f8 |f9 |n3 |
| |m1 |m2 |m3 | |

Расчет (2 проводится так:
по первой строке [pic] : n1 = L1;
по второй строке [pic] : n2 = L2;
по третьей строке [pic] : n3 = L3;
Следовательно, (2 = L1 + L2 + L3 – 1.
Интерпретация непараметрических коэффициентов связи в некоторых случаях,
особенно когда они имеют отрицательное значение, затруднительна. Их
абсолютные значения могут изменяться в пределах от 0 до 1. Чем ближе
абсолютные значения к единице, тем теснее связь между исследуемыми
признаками.
Корреляция и регрессия. Традиционные методы корреляционно-регрессионного
анализа позволяют не только оценить тесноту связи, но и выразить эту связь
аналитически. Применению корреляционно-регрессионного анализа должен
предшествовать качественный, теоретический анализ исследуемого социально-
экономического явления или процесса.
Связь между двумя факторами аналитически выражается уравнениями:
прямой [pic]= a0 + a1x;
гиперболы [pic]= a0 + [pic];
параболы [pic]= a0 + a1x + a2x2 (или другой ее степени);
степенной функции [pic].
Параметр a0 показывает усредненное влияние на результативный признак
неучтенных (не выделенных для исследования) факторов. Параметр a1 —
коэффициент регрессии показывает, на сколько изменяется в среднем значение
результативного признака при увеличении факторного на единицу. На основе
этого параметра вычисляются коэффициенты эластичности, которые показывают
изменение результативного признака в процентах в зависимости от изменения
факторного признака на 1%:
Э = a1?[pic].
Для определения параметров уравнений используется метод наименьших
квадратов, на основании которого строится соответствующая система
уравнений.
Теснота связи при линейной зависимости измеряется с помощью линейного
коэффициента корреляции:
r = [pic],
а при криволинейной зависимости с помощью корреляционного отношения:
( = [pic].
Расчет коэффициентов регрессии несколько осложняется, если ряды по
исследуемым факторам сгруппированы, а связь криволинейная.
Если зависимость между двумя факторами выражается уравнением гиперболы
[pic]= a0 + [pic],
то система уравнений для определения параметров a0 и a1 такова:
na0 + a1S[pic] = Sy;
a0S[pic] + a1S[pic] = Sy[pic].
Для определения параметров уравнения регрессии, выраженного степенной
функцией [pic], приводят функцию к линейному виду: lg[pic]= lga0 + a1lgx,
отсюда система уравнений для определения параметров запишется:
n?lga0 + a1Slgx = Slgy;
lga0Slgx + a1S(lgx)2 = Slgy?lgx.
Зависимость между тремя и более факторами называется множественной или
многофакторной корреляционной зависимостью. Линейная связь между тремя
факторами выражается уравнением:
[pic] = a0 + a1x + a2z,
а система нормальных уравнений для определения неизвестных параметров
a0, a1, a2 будет следующей:
na0 + a1Sx + a2Sz = Sy;
a0Sx + a1Sx2 + a2Szx = Syx;
a0Sz + a1Sxz + a2Sz2 = Syz.
Теснота связи между тремя факторами измеряется с помощью множественного
(совокупного) коэффициента корреляции:
R = [pic],
где rij — парные коэффициенты корреляции между соответствующими
факторами.
Для более углубленного анализа вычисляются частные коэффициенты
корреляции.
Дисперсионный анализ связи. При небольшом числе наблюдений исследовать
влияние одного или нескольких факторных признаков на результативный можно,
используя методы дисперсионного анализа. Дисперсионный анализ проводится
расчетом дисперсий: общей, межгрупповой и внутригрупповой. Общую дисперсию
называют дисперсией комплекса, межгрупповую — факторной, внутригрупповую —
остаточной.
Дисперсионный анализ заключается в сравнении факторной и остаточной
дисперсий. Если различие между ними значимо, то факторный признак, т.е.
признак, положенный в основание группировки, оказывает существенное влияние
на результативный. При исследовании воздействия на результативный признак
только одного факторного, т.е. однофакторного комплекса дисперсии
вычисляются:
дисперсия комплекса [pic];
факторная дисперсия [pic];
остаточная дисперсия [pic],
где n – 1, r – 1, n – r — соответствующие числа степеней свободы;
r — число уровней (групп).
На основании дисперсий проводится расчет критерия Фишера Fp. Если
расчетное значение больше табличного, т.е. Fp ( F(, то существенность
влияния факторного признака подтверждается.

Тема 10. Выборочное наблюдение

Главными вопросами теории выборочного наблюдения, требующими
практического закрепления на основе решения задач и выполнения упражнений,
являются:
— определение предела случайной ошибки репрезентативности для различных
типов выборочных характеристик с учетом особенностей отбора;
— определение объема выборки, обеспечивающего необходимую
репрезентативность выборочной характеристики, с учетом особенностей отбора.
Ошибка репрезентативности, или разность между выборочной и генеральной
характеристикой (средней, долей), возникающая в силу несплошного
наблюдения, в основе которого лежит случайный отбор, рассчитывается как
предел наивероятной ошибки. В качестве уровня гарантийной вероятности
обычно берется 0,954 или 0,997. Тогда предел ошибки определяется величиной
удвоенной или утроенной средней ошибки выборки: ( = 2( при P = 0,954; ( =
3( при P = 0,997, или в общем виде ( = t( (t — коэффициент, связанный с
вероятностью, гарантирующей результат).
Величина средней ошибки выборки различна для отдельных разновидностей
случайного отбора. При наиболее простой системе — собственно-случайном
повторном отборе — средняя ошибка определяется следующими формулами:
индивидуальный отбор:
( = [pic] = [pic],
где ?2 — общая дисперсия признака;
n — число отобранных единиц наблюдения;
групповой (гнездовой, серийный) отбор:
( = [pic] = [pic],
где ?2 — межгрупповая дисперсия;
r — число отобранных групп (гнезд, серий) единиц наблюдения.
При практических расчетах ошибок репрезентативности необходимо учитывать
следующее:
1. Вместо генеральной дисперсии используется соответствующая выборочная
дисперсия. Так, вместо общей дисперсии доли в генеральной совокупности
берется общая дисперсия частости:
[pic] = ((1 – () вместо [pic] = pq.
2. В случае бесповторного способа отбора (а также механического) следует
иметь в виду поправки (K) к ошибке повторной выборки на бесповторность
отбора:
K = [pic] ( 1 или K = [pic]( 1.
Очевидно, что пользоваться этой поправкой целесообразно лишь тогда,
когда относительный объем выборки составляет заметную часть генеральной
совокупности (не менее 10%, тогда K ( 0,95).
3. При районированном отборе из типических групп единиц генеральной
совокупности используется средняя из частных (групповых) дисперсий. Так,
при индивидуальном отборе, пропорциональном размерам типических групп,
имеем:
( = 2( = [pic]= [pic] при P = 0,954,
где [pic] — частная дисперсия i-й группы;
ni — объем выборки в i-й группе.
Определение ошибок выборочных характеристик позволяет установить
наивероятные границы нахождения соответствующих генеральных показателей:
для средней: [pic],
где [pic] — генеральная средняя;
[pic] — выборочная средняя;
[pic] — ошибка выборочной средней;
для доли: p = ( ( ((,
где p — генеральная доля;
( — выборочная доля (частость);
(( — ошибка выборочной доли.
Пример. С вероятностью 0,954 нужно определить границы среднего веса
пачки чая для всей партии, поступившей в торговую сеть, если контрольная
выборочная проверка дала следующие результаты (первые две графы табл.
10.1).

Таблица 10.1
Результаты взвешивания чая
|Вес, г |Количеств|Расчетные графы |
|(x) |о пачек | |
| |(m) | |

| |x( |m( |x(m( |(x()2m( | |48 — 49 |20 |-1 |2 |-2 |2 | |49 — 50 |50 |0 |5
|0 |0 | |50 — 51 |20 |+1 |2 |2 |2 | |51 — 52 |10 |+2 |1 |2 |4 | |Итого:
|100 |– |10 |2 |8 | |
1. Средний вес пачки чая по выборке:
[pic] = [pic]( K + x0 = [pic] ( 1 + 49,5 = 49,7 г.
2. Выборочная дисперсия веса пачки чая:
?2 = [pic]= [pic]= 0,76.
3. Средняя ошибка выборочной средней:
[pic]= [pic] = [pic] = 0,087 г.
4. Предел для ошибки с вероятностью 0,954:
( = 2( = 0,174 г ( 0,2 г.
5. Границы генеральной средней:
[pic] = [pic]( ( = 49,7 ( 0,2 г.
Таким образом, с вероятностью 0,954 можно утверждать, что вес пачки чая
в среднем для всей партии не более 49,9 г и не менее 49,5 г.
Определение объема выборки при заданной ее точности является проблемой,
обратной рассмотренной нами — определению ошибки выборки при данном ее
объеме. Формула объема выборки получается из соответствующей формулы
предельной ошибки. Так, получаем для индивидуального бесповторного отбора:
n =[pic];
группового бесповторного отбора:
r =[pic].
При решении задач на определение необходимого объема выборки следует
иметь в виду, что вместо генеральной дисперсии определенного вида берется
ее оценка — примерное значение, полученное из того или иного источника.
Рассмотрим следующий общий пример.
Пример. Нужно определить абсолютный и относительный объемы
индивидуального отбора для исследования генеральной доли, чтобы ошибка
частости с вероятностью 0,954 не превышала 0,02, если выборка производится
из генеральной совокупности объема: а) 1000; б) 100000 единиц.
Используя формулу n =[pic], в которой полагаем t = 2 (гарантийная
вероятность равна 0,954), а pq = 0,25, имеем:
а) n = [pic] = 714, или 71,4%;
б) n = [pic] = 2439, или 2,44%.

Тема 11. Законы распределения

Конечной целью обработки информации методами математической статистика,
если речь идет о больших выборках, является получение закона распределения
исследуемой случайной величины. Это связано с тем, что закон распределения
является фактически, тем аппаратом, который позволяет определить
вероятность появления (или, наоборот, непоявления) случайной величины в тот
или иной период времени или вероятность того, что случайная величина
попадет в тот или иной интервал ее возможных значении. Этот этап
статистической обработки является одним из наиболее важных, так как ошибка
при выборе того или иного закона распределения приводит к ошибкам при
дальнейшем решении практических задач.
Если проанализировать все этапы статистической обработки, то можно
сделать вывод, что влекущими за собой наиболее существенные ошибки, а,
следовательно, наиболее ответственными, являются этапы, на которых решаются
следующие задачи:
1. Возможно ли объединение нескольких малых или средних выборок в одну.
2. Отбрасывать или учитывать резко отличающиеся результаты.
3. Справедливо ли сделанное предположение о законе распределения
случайной величины.
Рассмотрим эти этапы более подробно.
1. Так как для установления закона распределения необходимы большие
выборки, то на практике часто встает вопрос об объединении нескольких
выборок, каждая из которых мала для решения поставленной задачи и получения
одной общей выборки, удовлетворяющей предъявленным к ней требованиям.
Поэтому, что вообще свойственно для статистической обработки, любое из
неправильных решений (как положительное, так и отрицательное) по поводу
объединения выборок приводит к нежелательным результатам, или к
невозможности установить закон распределения, если выборки не объединяются,
или к неправильному выводу о характере закона распределения.
Для решения этой задачи используют критерии, с помощью которых с разной
формулировкой фактически дается ответ на один и тот же вопрос: принадлежат
или не принадлежат исследуемые выборки одной генеральной совокупности, то
есть автоматически решается задача о возможности или невозможности их
объединения. Как правило, все эти критерии основаны на сравнении выборочных
характеристик (выборочных дисперсий или средних величин) между собой или с
соответствующими генеральными характеристиками. В большинстве случаев
использование этих критериев предполагает нормальный или логарифмически-
нормальный закон распределения для каждой выборки. При других же законах
распределения эти критерии некорректны и их использование может привести к
ошибочным результатам.
Наиболее используемыми являются следующие критерии:
а) критерии, основанные на сравнении дисперсий: критерий [pic], критерий
Фишера (F = [pic]), критерий Хартлея (Fmax = [pic]), критерий Кочрена (Gmax
= [pic]), критерий Бартлета (?2);
б) критерии, основанные на сравнениях средних величин: критерий
Стьюдента (t), критерий Z и другие.
Для всех критериев в качестве нулевой гипотезы (H0) выдвигается
предположение о принадлежности выборки генеральной совокупности или об
однородности выборок между собой.
2. При наличии выборки, удовлетворяющей требованиям относительно ее
пригодности для установления закона распределения перед тем, как приступить
к определению статистических характеристик, необходимо проверить,
принадлежат ли к данной выборке ее члены, резко отличающиеся от большинства
данных, если таковые имеются. Такая проверка строго обязательна, так как
любое неверное решение в отношении резко отличающихся результатов приводит
к искажению вида кривой закона распределения и к последующим ошибкам, о
которых уже говорилось выше. Описанная проверка также осуществляется с
помощью соответствующих критериев: критерия Груббса (для малых выборок),
критерия Ирвина и некоторых других. В качестве нулевой гипотезы во всех
случаях принимается предположение о том, что резко выделяющиеся результаты
принадлежат данной выборке.
3. Заключительной и самой трудоемкой проверкой является проверка гипотез
о виде функции распределения или, что то же, о соответствии предполагаемого
закона теоретического распределения эмпирическому. Эта проверка
осуществляется с помощью так называемых критериев согласия. Существуют
критерии для проверки соответствия как предполагаемому нормальному или
логарифмически-нормальному закону распределения, так и любому другому
закону распределения.
Наиболее используемыми при практических расчетах являются следующие
критерии:
а) критерий Пирсона (?2); он справедлив при больших объемах выборок и
для любых законов распределения;
б) критерий Колмогорова-Смирнова (Du); этот критерий используется для
проверки гипотезы о соответствии эмпирического распределения любому
теоретическому закону распределения с заранее известными параметрами, что
накладывает ограничения на его использование. В то же время Du является
более мощным, чем критерий ?2;
в) критерий Крамера-Мизеса ((2); данный критерий используется для
объемов выборок 50 ( n ( 200 и является более мощным, чем ?2, однако, при
его применении требуется больший объем вычислений. Поэтому при n > 200 этот
критерий целесообразно использовать только в тех случаях, когда проверки
гипотезы по другим критериям не приводят к безусловным результатам;
г) критерий Шапиро-Уилкса (W); он предназначен для проверки гипотезы о
нормальном или логарифмически нормальном законе распределения при
ограниченном объеме выборки (n ( 50) и является более мощным, чем другие
критерии.
Укрупненно порядок проведения статистической обработки информации можно
представить следующим образом: после решения вопроса об объеме выборки и
принадлежности к ней резко отличающихся результатов, строится гистограмма,
рассчитываются статистические характеристики исследуемой случайной
величины, и устанавливается закон ее распределения.
При решении технических и экономических задач существует достаточно
широкий круг законов распределения, которым подчиняются те или иные
процессы. К ним относятся законы Вейбулла, Релея, экспоненциальный, гамма-
распределения, однако, самыми распространенными являются нормальный
(Гаусса) и логарифмически-нормальный законы распределения. Получив
математическое выражение закона распределения, то есть соотношение,
устанавливающее связь между возможными значениями случайной величины и
соответствующими им вероятностями, можно утверждать, что с вероятностной
точки зрения, случайная величина описана полностью.

Скачать реферат

Метки:
Автор: 

Опубликовать комментарий