логин: пароль: ЗарегистрироватьсяЗабыли пароль?

Вопросы и ответы по статистике вопросы 9-14

Вопрос 9. Дисперсия альтернативного признака.
Среди признаков, изучаемых статистикой, есть и такие, которым свойственны лишь 2 взаимоисключающих значения. Такие признаки называются альтернативными. Им придается соответственно 2 количественных значения: 1 и 0. частостью варианта 1 (она обозначается p) является доля единиц, обладающих данным признаком, в общей численности совокупности. Разность 1 – p = q является частостью варианта 0.
Таким образом:
Средняя арифметическая альтернативного признака
Дисперсия альтернативного признака
т.е. дисперсия альтернативного признака равна произведению доли единиц, обладающих данным признаком, и доли единиц, не обладающих эти признаком.
Если значения 1 и 0 встречаются одинаково часто, т.е. p=q, то дисперсия достигает своего максимума pq=0,25.
Дисперсия альтернативного признака используется в выборочных обследованиях, например, качества продукции.

Вопрос 10. Показатели дифференциации и концентрации.
Если возникает необходимость изучить структуру вариационного ряда более подробно, вычисляют значения признака, аналогичные медиане. Такие значения признака, которые делят все единицы распределения на равные численности, получили название квантилей, или градиентов. Квартили, квинтили, децили – частные случаи квантилей.
Квартилями называются такие значения признака, которые делят распределение на 4 равные части.
Общая идея построения квантилей довольно проста – расширить понятие медианы. С этой точки зрения медиана представляет собой центральный квартиль.
Квинтили – делят распределение на пять равных частей.
Дециль – такое значение признака в ряду распределения, которому соответствуют десятые доли численности совокупности.
При изучении дифференциации доходов широко применяется децильный коэффициент Kд – отношение девятого дециля к первому децилю. Сравнивая девятый и первый децили, измеряют соотношение уровней доходов 10% наиболее обеспеченного и 10% наименее обеспеченного населения (в разах).
Интерполяционные формулы для определения децилей в интервальном ряду распределения имеют следующий вид:

Первый дециль =

Или

Первый дециль =
Где xk-1 – нижняя граница интервала, содержащего первый дециль
hk = xk — xk-1 — длина интервала, содержащего первый дециль
Fk-1 и Pk-1 — соответственно накопленные частоты и накопленные частости предшествующего интервала
mk и wk — соответственно частота и частость интервала, содержащего первый дециль
Номер первого дециля определяется как:
или
Где (или 1)
Для нахождения интервала, содержащего первый дециль, накапливают частоты или частости до тех пор, пока они не превзойдут номер единицы совокупности, соответствующей первому децилю.

Девятый дециль находится аналогично:

Девятый дециль =
Или

Девятый дециль =

Для нахождения интервала, содержащего девятый дециль, части накапливают до тех пор, пока они не превзойдут номер единицы совокупности, соответствующей девятому децилю, т.е. 90%

Показатели концентрации.
К показателям дифференциации близки по значению по значению показатели концентрации:
— коэффициент концентрации Джини
— коэффициент Герфиндаля
— коэффициент Лоренца и др.
Для оценки концентрации нужно рассчитать обобщающий показатель. Таким показателем является коэффициент концентрации Джини
Где pi – накопленная доля (частость) численности единиц совокупности
qi — накопленная доля активов, приходящихся на все единицы совокупности, с активами не более xi.
Коэффициент Джини может принимать значения от 0 до 1, поэтому результат следует разделить либо на 100, если pi или qi выражен в процентах, либо на 10 000, если оба показателя выражены в процентах.
Коэффициент Джини по существу строится на основе кривой Лоренца, характеризующей накопление значения изучаемого признака в зависимости от накопления элементов совокупности.
Коэффициент Джини используют для характеристики степени неравномерности распределения населения по уровню доходов. В случае уравнительного распределения каждая группа получает доход пропорционально своей численности; при значительной неравномерности преобладающая часть доходов сосредоточена у небольшой по удельному весу (численности) группы.
Коэффициенты концентрации рассчитывают для вариационных рядов, характеризующих распределение продукции по группам предприятий, а также распределение доходов. Кроме того, с помощью коэффициента Джини можно оценить концентрацию каких-либо явлений в различных регионах. Тогда его уместнее назвать коэффициентом локализации.
Для оценки концентрации производства можно использовать и более простой показатель – коэффициент Герфиндаля. Он вычисляется на основе данных о доле производства (или доходов) отдельных групп в совокупном объеме производства (или доходов). Коэффициент Герфиндаля

или
Где – доля производства (доходов) i–й группы в общем объеме производства (доходов)
Qi — объем производства в i–й группе.
Показатель Н не зависит от числа предприятий в группах.

Коэффициенты Джини и Герфиндаля на основе имеющихся данных могут быть исчислены как для оптового товарооборота, так и для среднесписочной численности работников. Для оптового товарооборота показатели исчисляются аналогично показателям концентрации активов банка.
Основное достоинство коэффициента Герфиндаля – его высокая чувствительность к изменению в суммарном обороте долей крупнейших участников, что позволяет отслеживать концентрацию рыночного оборота. Другое достоинство данного коэффициента заключается в том, что он реагирует на число участников рынка. Однако его крупнейшим участникам придается наибольший вес. Вследствие этого существует опасность преувеличения уровня концентрации.
Наряду с коэффициентом Герфиндаля целесообразно применять коэффициент Лоренца, который также характеризует концентрацию, степень неравномерности распределения доходов путем сравнения долей численности единиц в группах (wi) и долей значений признака в общем объеме ( или )
Коэффициент Лоренца (L) исчисляется по формуле

Вопрос 11. Средняя гармоническая.
СГ величина получается при подстановке в формулу степенной средней значения z = -1
Формула средней гармонической простой такова:
Средняя гармоническая взвешенная определяется по формуле:
Где Vi — веса для обратных значений xi.
Средняя гармоническая вычисляется в тех случаях, когда приходится суммировать не сами варианты, а обратные им величины:
1/x1, 1/x2, …, 1/xn.
В практике расчетов довольно часто встречаются ситуации, когда данные о весах признака отсутствуют, но известны варианты осредняемого признака и произведение значений этих вариантов на количество единиц, обладающих этим значением (например, стоимость товарооборота по отдельным товарным группам и индексы цен по этим группа, валовые сборы зерновых по регионам и средняя урожайность по этим регионам и т.д.). В этих случаях средние значения необходимо рассчитывать по формуле средней гармонической.

Вопрос 12. Показатели асимметрии вариационного ряда.
Центральный момент третьего порядка используется при исчислении показателя асимметрии распределения. Для того чтобы показатель асимметрии не зависел от масштаба, выбранного при измерении варианта, вводят безразмерную характеристику – коэффициент асимметрии (нормированный момент третьего порядка):
В качестве показателя асимметрии применяется и коэффициент асимметрии Пирсона, представляющий собой отношение разности между средней арифметической и модой к среднему квадратическому отклонению:
Если As>0, скошенность правосторонняя (как и для r3); если As<0, скошенность левосторонняя; если As=0, вариационный ряд симметричен.

Вопрос 13. Моделирование вариационных рядов. Критерии согласия
Анализ вариационных рядов предполагает выявление закономерностей распределения, определение и построение (получение) некой теоретической (вероятностной) формы распределения. Характер распределения лучше всего проявляется при большом числе наблюдений и малых интервалах. В этом случае графическое изображение эмпирического вариационного ряда принимает вид плавной кривой, именуемой кривой распределения. Кривая распределения может рассматриваться как некая теоретическая (вероятностная) форма распределения, свойственная определенной совокупности в конкретных условиях.
Распределения бывают нормальным или распределением Пуассона.

Распределение непрерывной случайной величины х называют нормальным N(x,?), если соответствующая ей плотность распределения выражается формулой
Или
Где x – значение изучаемого признака
— средняя арифметическая ряда
?2 — дисперсия значений изучаемого признака
? — среднее квадратическое отклонение изучаемого признака
? = 3,1415 — постоянное число
e = 2,7182 — основание натурального логарифма
t = — нормированное отклонение

Классическую форму распределения Пуассона принимает в том случае, если значения признака носят дискретный характер х = 0, 1, 2, 3, … и являются результатом какого-либо редко возникающего события среди наблюдаемых единиц. Причем с увеличением значений признака вероятность наступления событий падает. Природа распределения Пуассона наиболее полно раскрывается в теории случайных процессов, поэтому его еще называют законом распределения редких явлений. Распределение Пуассона наблюдается в совокупностях, число которых достаточно велико (N>100), а доля единиц, обладающих большими значениями признака, мала.
Аналитически распределение Пуассона можно выразить формулой
Где P(x) – вероятность того, что признак примет то или иное значение
a = — средняя арифметическая ряда

Критерии согласия
Так как все предположения о характере того или иного распределения – это гипотезы, а не категорические утверждения, то они, естественно, должны быть подвергнуты статистической проверке с помощью так называемых критериев согласия. Критерии согласия, опираясь на установленный закон распределения, дают возможность установить, когда расхождения между теоретическими и эмпирическими частотами следует признать несущественными (случайными), а когда – существенными (неслучайными). Таким образом, критерии согласия позволяют отвергнуть или подтвердить правильность выдвинутой при выравнивании ряда гипотезы о характере распределения в эмпирическом ряду и дать ответ, можно ли принять для данного эмпирического распределения модель, выраженную некоторым теоретическим законом распределения.
Существует ряд критериев согласия. Чаще других применяют критерий Пирсона, Романовского и Колмогорова.
Критерий согласия Пирсона (хи-квадрат) – один из основных критериев согласия. Критерий служит для оценки случайности (существенности) расхождений между частотами эмпирического и теоретического распределений. Критерий Пирсона
Где k – число групп, на которые разбито эмпирическое распределение
mi — наблюдаемая частота признака в i–й группе
m’i — теоретическая частота, рассчитанная по предполагаемому распределению
Для распределения составлены таблицы, где указано критическое значение критерия согласия для выбранного уровня значимости? и данного числа степеней свободы v.
Уровень значимости? – вероятность ошибочного отклонения выдвинутой гипотезы, т.е. вероятность того, что будет отвергнута правильная гипотеза.
Кроме того, — критерий, определяемый по таблице, зависит и от числа степеней свободы. Число степеней свободы v определяется как число групп в ряду распределения k минус число связей z:
v = k – z
под числом связей понимается число показателей эмпирического ряда, использованных при исчислении теоретических частот, т.е. показателей, связывающих эмпирические и теоретические частоты.
Используя критерий согласия, необходимо соблюдать следующие условия:
1) объем исследуемой совокупности должен быть достаточно большим (N>50), при этом частота или численность каждой группы должна быть не менее 5. если это условие нарушается, необходимо предварительно объединить маленькие частоты
2) эмпирическое распределение должно состоять из данных, полученных в результате случайного отбора, т.е. они должны быть независимыми
если в эмпирическом ряду распределение задано частостями, то следует исчислять по формуле

Критерий Романовского Kp основан на использовании критерия Пирсона, т.е. уже найденных значений, и числа степеней свободы v:
Он весьма удобен при отсутствии таблиц для.
Если Kp < 3, то расхождения между теоретическим и эмпирическим распределением случайны, если же Kp > 3, то не случайны и, соответственно, теоретическое распределение не может служить моделью для изучаемого эмпирического распределения

Критерий Колмогорова? основан на определении максимального расхождения между накопленными частотами или частостями эмпирических и теоретических распределений:
или
Где D и d – соответственно максимальная разность между накопленными частотами (F – F’) и между накопленными частостями (p – p’) эмпирического и теоретического рядов распределений
N — число единиц в совокупности

Вопрос 14. выборочный метод в статистике. Средняя и предельная ошибки выборки.
Наиболее широко распространенным видом несплошного наблюдения является выборочное наблюдение, при котором обследуются не все единицы изучаемой совокупности, а лишь определенным образом отобранная их часть. Вся совокупность единиц, из которой осуществляется отбор, называется генеральной совокупностью, а единицы, отобранные для непосредственного наблюдения, представляют собой выборочную совокупность, или просто выборку. Отбор из генеральной совокупности проводится таким образом, чтобы на основе выборки можно было получить достаточно точное представление об основных параметрах совокупности в целом. При этом речь идет как о точечной оценке, в качестве которой принимается соответствующее значение средней, доли и т.д., полученное в результате выборки, так и об интервальной оценке, т.е. о тех пределах, в которых с определенной вероятностью может находиться значение искомого параметра в генеральной совокупности. Главное требование, которому должна отвечать выборочная совокупность, — это требование ее репрезентативности, т.е. представительности.
При организации выборочного обследования нужно соблюдать принцип случайности отбора. Каждая единица совокупности должна иметь равную вероятность попасть в выборку. На практике не всегда удается обеспечить соблюдение данного принципа. Для этого необходимо учесть все элементы генеральной совокупности.
Во-первых, выборочный метод обеспечивает значительную экономию материальных и финансовых ресурсов при проведении статистического наблюдения, что позволяет расширить программу обследования и повысить его оперативность. Второе преимущество – высокая достоверность получаемых данных, так как при относительно небольшом объеме выборки можно организовать эффективный контроль за качеством собираемой информации. Таким образом, при использовании выборочного метода снижается вероятность появления ошибок регистрации и необнаружения в ряде случаев, когда сплошное наблюдение связано с уничтожением или порчей обследуемых единиц (например, при проверке качества поступающих в продажу продуктов питания), возможно только выборочное обследование.
Точность оценок, полученных на основе выборочного метода, зависит не от доли обследованных единиц, а от их числа. Если объем генеральной совокупности достаточно велик, то доля отобранных для наблюдения единиц может быть очень небольшой, а точность оценок – высокой.
Распространяя результаты выборочного обследования на генеральную совокупность, следует иметь в виду, что между характеристиками генеральной и выборочной совокупности возможно расхождение, обусловленное тем, что обследуется не вся совокупность, а лишь ее часть. Такого рода несовпадения называются ошибками репрезентативности, которые подразделяются на систематические и случайные. Систематические ошибки возникают в связи с принятым способом отбора или нарушением его правил.
Случайные ошибки репрезентативности неизбежно возникают при проведении выборочных обследований, так как обеспечить абсолютную адекватность характеристик выборочной и генеральной совокупности даже при тщательно спланированном наблюдении практически невозможно. Оценка таких ошибок – одна из задач статистики. Важно определить не только абсолютную величину ошибки, но и ее допустимый уровень. Стремление максимально уменьшить случайную ошибку выборки приводит к росту ее объема, а большая ошибка ставит под сомнение возможность практического использования полученных результатов. Допустимый уровень ошибки должен быть установлен при разработке программы обследования.

Основные этапы выборочного наблюдения:
1) определение цели, задач и составление программы наблюдения
2) анализ информационных источников, используемых для выделения генеральной совокупности объектов наблюдения (основной выборки).
3) Формирование генеральной совокупности для проведения выборочного обследования
4) Разработка методологии формирования выборочной совокупности, включающей выбор способа отбора, определение необходимого объема выборки, этапов отбора единиц из генеральной совокупности, планирование и проведение пробной выборки
5) Формирование выборки
6) Сбор данных на основе разработанной программы
7) Анализ полученных результатов и расчет основных характеристик выборочной совокупности
8) Расчет ошибок выборки и распространение ее результатов на генеральную совокупность.

Комментарии (3):