логин: пароль: ЗарегистрироватьсяЗабыли пароль?

Вопросы и ответы по статистике вопросы 15-19

Вопрос 15. 3 задачи, решаемые на основании формулы предельной ошибки выборки.
Отклонение от выборочной характеристики от генеральной называется предельной ошибкой выборки?.. Она определяется в долях средней ошибки с заданной вероятностью, т.е.
Где t – коэффициент доверия, зависящий от вероятности, с которой определяется предельная ошибка выборки.
Вероятность появления определенной ошибки выборки находят с помощью теорем теории вероятностей. Согласно теореме Чебышёва, при достаточно большом объеме выборки и ограниченной дисперсии генеральной совокупности вероятность того, что разность между выборочной средней и генеральной средней будет сколь угодно мала, близка к единице:
при
Ляпунов доказал, что независимо от характера распределения генеральной совокупности при увеличении объема выборки распределение вероятностей появления того или иного значения выборочной средней приближается к нормальному распределению. (это так называемая центральная предельная теорема). Следовательно, вероятность отклонения выборочной средней от генеральной средней, т.е. вероятность появления заданной предельной ошибки, также подчиняется указанному закону и может быть найдена как функция от с помощью интеграла вероятностей Лапласа.
Где – нормированное отклонение выборочной средней от генеральной средней.

Это все что в учебнике……………

Вопрос 16. оценка ошибок выборки при n<20 (малая выборка)
Формулы средней ошибки выборки показывают, что ее величина зависит от объема выборки n, степени колеблемости изучаемого признака в генеральной совокупности и способа отбора. Для собственно случайной повторной выборки
Если объем выборки достаточно велик, единицей в знаменателе можно пренебречь На практике иногда приходится отбирать из генеральной совокупности небольшое число единиц. В этом случае использование в формуле вместо (n-1) величины n может значительно повлиять на результат, т.е. занизить среднюю ошибку выборки. Как правило, выборка считается малой, если обследуется не более 30 единиц. Таким образом, средняя ошибка малой выборки при собственно случайном или механическом повторном отборе рассчитывается по формуле
В условиях малой выборки дисперсия выборочной совокупности не может рассматриваться в качестве оценки генеральной дисперсии
Второе отличие заключается в том, что в выборках большого объема вероятность появления определенного нормированного отклонения выборочной средней от генеральной подчиняется нормальному закону распределения независимо от того, как распределены единицы в генеральной совокупности. Как следует из центральной предельной теоремы, предположение о нормальном распределении всех возможных значений выборочной средней и соответствующей величины t справедливо только при значительном объеме выборки.
В условиях малой выборки характер распределения единиц в генеральной совокупности оказывает влияние на вероятность появления той или иной ошибки выборки. В условиях нормально распределенной генеральной совокупности при n <30 нормированное отклонение выборочной средней от генеральной и соответствующая вероятность подчинены закону распределения Стьюдента, открытому в 1908 г. Английским математиком Госсетом.
Графически распределение Стьюдента имеет вид одновершинной кривой, которая симметрична относительно оси ординат и при увеличении объема выборки приближается к кривой нормального распределения. При n>100 вероятность наступления того или иного значения t, найденная в соответствии с распределением Стьюдента, практически совпадает с соответствующей величиной интеграла вероятностей Лапласа. При 30<n<100 расхождения между указанными значениями невелики, поэтому на практике данное распределение используется лишь для n<30.
Согласно распределению Стьюдента, плотность распределения для нормированного отклонения выборочной средней от генеральной определяется по формуле
Где v – число степеней свободы.
При определении выборочной дисперсии необходимо знать среднее значение признака, поэтому v = n -1
Гамма-функция имеет вид

Последовательно подставляя в формулу вместо u значения и, можно получить значения гамма-функции, которые необходимо использовать при расчете плотности распределения ошибок малой выборки.
Вероятность того, что нормированное отклонение выборочной средней от генеральной не превысит заданного значения t, будет равна площади, ограниченной кривой распределения Стьюдента и осью абсцисс в интервале от до t:
Формула свидетельствует о том, что в условиях малой выборки вероятность появления той или иной ошибки зависит не только от t, но и от объема выборки, так как v = n-1. Чем меньше n, тем медленнее указанная кривая приближается к оси абсцисс. Следовательно, при малой выборке вероятность больших отклонений выборочной средней от генеральной более высока.
Выводы, сделанные на основе малой выборки, справедливы лишь при нормальном распределении значений изучаемого признака в генеральной совокупности. Поэтому использование малой выборки для оценки доли и средней в генеральной совокупности целесообразно в том случае, если исследователь не располагает необходимыми ресурсами для проведения выборки большего объема или если выборочное обследование связано с порчей единиц наблюдения (например, при проверке качества продуктов питания).

Вопрос 17. практика применения выборочного метода.
На заключительном этапе выборочного обследования решается вопрос о возможности распространения полученных результатов на генеральную совокупность. При этом учитываются 2 основных обстоятельства:
1) насколько адекватно представлена генеральная совокупность в выборке, т.е. не изменилась ли в результате обследования структура запланированной ее основы, соблюдены ли основные пропорции между типическими группами в выборочной и генеральной совокупности. Вероятность возникновения таких нарушений достаточно велика в том случае, если единицей наблюдения является человек (например, он может отказаться отвечать на вопросы анкеты и т.п.). Для восстановления исходных пропорций генеральной совокупности проводится корректировка выборки либо путем отсечения части единиц, доля которых в выборке непропорционально велика по сравнению с долей в генеральной совокупности, либо путем многократного использования результатов наблюдения за единицами тех групп, которые недостаточно широко представлены в выборке.
2) Какова степень соответствия фактически полученной относительной ошибки выборки запланированному ее уровню. Фактическое значение относительной ошибки определяется путем сопоставления абсолютной величины предельной ошибки выборки, полученной в результате обследования, со средним уровнем признака, рассчитанным на основе выборки, т.е. (или для доли ).
Если выборка адекватна генеральной совокупности и фактическая относительная ошибка выборки незначительно отличается от запланированного ее уровня, то на основе проведенного исследования можно оценить пределы, в которых находится среднее значение изучаемого признака (или доли) в генеральной совокупности, а также указать его возможное значение для совокупности в целом.
Оценивая пределы для среднего значения показателя в генеральной совокупности, необходимо указывать вероятность, с которой эти пределы гарантируются. Однако в официальных статистических публикациях пределы, как правило, не указываются, поскольку в них принята такая степень точности, что величины и с вероятностью, близкой к единице, практически совпадают. Так, при публикации результатов выборочных обследований домашних хозяйств по проблемам занятости средний возраст безработных приведен с точностью до десятых года, поскольку с вероятностью, близкой к единице, придельная ошибка выборки меньше 0,05 года.
Общее значение изучаемого показателя для совокупности в целом определяется двумя способами: методом прямого счета и методом коэффициентов.
Если в результате обследования получены верхняя и нижняя границы изучаемого признака в расчете на единицу совокупности, т.е. найдены величины, то с соответствующей вероятностью можно найти эти границы для совокупности в целом.

Вопрос 18. Корреляционно-регрессивный анализ.
Корреляционная зависимость.
Один из наиболее общих законов объективного мира – закон всеобщей связи и зависимости между явлениями. Естественно, что, исследуя явления в самых различных областях, статистика неизбежно сталкивается с зависимостями, как между количественными, так и между качественными показателями, признаками. Ее задача – обнаружить (выявить) такие зависимости и дать им количественную характеристику.
Среди взаимосвязанных признаков (показателей) одни могут рассматриваться как определенные факторы, влияющие на изменение других, а вторые – как следствие, результат влияния первых. Соответственно, первые, т.е. признаки, влияющие на изменение других, называют факторными, а вторые – результативными.
Говоря о взаимосвязи между отдельными признаками, следует различать 2 вида связи: функциональную и стохастическую (статистическую), частным случаем которой является корреляционная связь.
Связь между 2 переменными x и y называется функциональной, если определенному значению переменой x строго соответствует одно или несколько значений другой переменной y, и с изменением значения x значение y меняется строго определенно.
Это жестко детерминированная связь.
Но есть и другие связи. Там, где взаимодействуют множество факторов, в том числе и случайных, выявить зависимости, рассматривая единичный случай, невозможно.
Такие связи можно обнаружить только при массовом наблюдении как статистические закономерности. Корреляционная связь – частный случай статистической связи. Связь, проявляющаяся при большом числе наблюдений в виде определенной зависимости между средним значением результативного признака и признаками-факторами, называется корреляционной.
Связи могут быть парными и множественными.
Бывает прямая и обратная корреляция.

Изучение корреляционных связей сводится в основном к решению следующих задач:
— выявление наличия (или отсутствия) корреляционной связи между изучаемыми признаками. Эта задача может быть решена на основе параллельного сопоставления (сравнения) значений х и у в каждой и n единиц совокупности, а также с помощью группировок и путем построения и анализа специальных корреляционных таблиц.
— измерение тесноты связи между двумя (и более) признаками с помощью специальных коэффициентов. Эта часть исследования именуется корреляционным анализом.
— определение уравнения регрессии – математической модели, в которой среднее значение результативного признака у рассматривается как функция оной или нескольких переменных – факторных признаков. Эта часть исследования именуется регрессионным анализом.
Общий термин «Корреляционно-регрессивный анализ» подразумевает всестороннее исследование корреляционных связей, в том числе нахождение уравнений регрессии, измерение тесноты и направления связи, а также определение возможных ошибок как параметров уравнений регрессии, так и показателей тесноты связи.

Вопрос 19. Нахождение параметров уравнения регрессии.
Нахождение уравнения регрессии между 2мя признаками.
Найти уравнение регрессии – значит по эмпирическим данным математически описать изменения взаимно коррелируемых величин.
Уравнение регрессии можно также назвать теоретической линией регрессии. Выбор теоретической линии регрессии часто обусловлен формой эмпирической линии регрессии; теоретическая линия как бы сглаживает изломы эмпирической линии регрессии. Кроме того, необходимо учитывать природу изучаемых показателей и специфику их взаимосвязей.
Для аналитической связи между x и y могут использоваться следующие простые виды уравнений:
а) (прямая)
б) (парабола 2-го порядка)
в) (гипербола)
г) (показательная функция)
д) (логарифмическая функция)
е) (логистическая функция) и др.
существует несколько методов нахождения параметров уравнения регрессии. Наиболее часто используется метод наименьших квадратов (МНК). Его суть заключается в следующем требовании: искомые теоретические значения результативного признака должны быть такими, при которых бы обеспечивалась минимальная сумма квадратов их отклонений от эмпирических значений, т.е.
Парная линейная регрессия
Линейная зависимость – наиболее часто используемая форма связи между двумя коррелируемыми признаками, и выражается она, как указывалось ранее, при парной корреляции уравнением прямой:
Гипотеза именно о линейной зависимости между х и у выдвигается в том случае, если значения результативного и факторного признаков возрастают (или убывают) одинаково, примерно в арифметической прогрессии. Параметры отыскиваются по МНК.
Система нормальных уравнений МНК
Расчет параметров уравнения регрессии по индивидуальным данным.
Уравнение МНК тоже что и при парной линейной регрессии.
Параметр а1, т.е. коэффициент при х, в уравнении линейной регрессии называется коэффициентом регрессии.
Коэффициент регрессии показывает, на сколько (в абсолютном выражении) изменяется значение результативного признака у при изменении факторного признака х на единицу.
Наряду с коэффициентом регрессии в экономическом анализе часто используется показатель эластичности изменения результативного признака относительно факторного.
Коэффициент эластичности Э показывает, на сколько процентов изменяется в среднем результативный признак у при изменении факторного признака х на 1%. Обчно Э рассчитывают как отношение прироста (в %) результативного признака к приросту в (в %) факторного признака.
Более точно коэффициент эластичности определяют на основе уравнения регрессии:
Где – первая производная уравнения регрессии у по х.
Коэффициент эластичности для большинства форм связи – величина переменная, т.е. изменяется с изменением значений фактора х.

Расчет параметров уравнения регрессии по сгруппированным данным.
Когда наблюдение ведется над большим числом пар значений х и у, то, как указывалось ранее, данные удобнее располагать в виде аналитической или корреляционной таблицы, где указаны распределения по х и по у и, соответственно, их частоты и. при этом – общее число наблюдений.
При составлении и решении системы нормальных уравнений в этих случаях все суммы значений х и у, их произведений должны учитываться вместе с их весом.

Комментарии (2):