Математичні методи обробки статистичних даних:Іспит

Матеріал з USIC Wiki

Перейти до: навігація, пошук
Для ФІН

Ця стаття відноситься до групи довідкових статей для студентів ФІН.


Зміст

Побудова проміжків надійності

Квартіль нижній - це такий x,що випадкова величина X: P(X<x)=0.25, тобто це є одною четвертою ймовірності

Квартіль верхній - це такий x,що випадкова величина X: P(X<x)=0.75

Квантіль - число, яке відповідає певній ймовірності. Тобто за значенням ймовірності знаходимо значення функції розподілу.


Зміщена, незміщена оцінка, асимптотично незміщенна оцінка:


Коли маємо вибірку: x1, ..., xn:

  • \bar x=\sum_{i=1}^{n}x_i - незміщена (консистентна - зв"язана з середноквадратичним відхиленням) оцінка.
  • S^2 = \frac{1}{n-1} \sum_{i=1}^{n}(x_i- \bar x)- незміщена оцінка дисперсії
  • \hat S^2 = \frac{1}{n} \sum_{i=1}^{n}(x_i- \bar x)- незміщена оцінка дисперсії, але є асимптотично незміщеною




Для неперервних величин:

медіана — точка, зліва і справа від якої f(x) має однакові значення
мода — точка, в якій f(x) досягає максимуму
коефіцієнт асиметрії S_k = \frac{\mu_3}{\sigma^3}
екцесс E_x = \frac{\mu_4}{\sigma^4} - 3

Для нормального розподілу Sk = Ex = 0

кореляція, коваріація
моменти випадкових величин

Проміжки надійності (довірчий інтервал):

a-параметр (середнє, медіана, ...), \bar a - оцінка параметра. Потрібно оцінити наскільки a відрізняється\bar a Тобто: P(|a - \bar a|) < \varepsilon = \beta = 1 - \alpha (1), α β - параметри що задають довірчий інтервал для оцінки параметра a

Розкриваючи P(\bar a - \varepsilon < a < \bar a +\varepsilon)= \beta(1.1) : I_{\beta}=(\bar a - \varepsilon, \bar a + \varepsilon) (2)-

проміжок надійності для оцінки параметра a по вибірці


Проміжки надійності для середнього та середньоквадратичного відхилення:


Проміжки надійності будуються: Спочатку задається параметр β=0,95 (0,9 або 0,99) або параметр α (рівень значимості = 1-β), далі по цьому параметру β шукаємо \varepsilon і

після чого записуємо інтервал (2).

Пошук \varepsilon через ЦГТ: Якщо маємо експеримент що повторюється n - кількість разів, тоді розподіл по ймовірності прямує до нормального розподілу

ймовірностей. Тоді задача розв"язкується через квантіль. Береться квантіль нормального розподілу для проміжку (1.1), ймовірність потрапляння в проміжок для нормального

розподілу при заданому β.

Пишемо через P1 < x < γ2) = F2) − F2) знаходження γ12(відповідні квантілі): по P(x < γ2) − P(x < γ1)


--- Проміжки надійності для оцінки різниці між середнім (при нормальному розподілі): +розподіл Стьюдента

Проміжки надійності для оцінки середньоквадратичного відхилення: +розподіл хі-квадрат

Проміжки надійності для оцінки дисперсії: ---

Коли маємо дві вибірки: ξ1,...,ξn та η1,...,ηn - два незалежні вимірювання одної і тої ж самої величини (мають бути однакові).

Задача - порівняти наскільки оцінки середніх \bar \xi, \bar \eta є близькими

Знаходимо проміжки надійності для оцінки різниці між середніми \bar \xi,  \bar \eta.

a1,a2 - середні (математичні сподівання) двох вибірок, \bar \xi, \bar \eta - оцінки цих параметрів

Проміжки надійності коли σ12-відомі:

...

Коли невідомі σ12, використовуємо оцінки дисперсії

---

Тести (гіпотези)

Перевірка гіпотези на значення середнього.

Алгоритм: 1. Висувається основна гіпотеза H0 і альтернативна, використовується рівень значимості α (або ймовірність β) при якому виконується гіпотеза. якщо гіпотеза H0 виконується, тоді говорять "з ймовірністю β гіпотеза H0 має місце", або "з рівнем значимості α H0 виконується

(тобто не виконується, оскільки β= 1-α)". 2. Надається a-параметр, висувається гіпотеза H0, що a=a0. 3. Беремо різницю між: a-a0, чим вона є меншою, тим точнішою є гіпотеза. 4. маємо вибірку ξ1,...,ξn, для неї порахуємо \bar \xi і розглядаємо статистику:\phi(\xi)=\frac{\xi-a}{S/ \sqrt(n)}, де

S2 - оцінка дисперсії: S^2 = \frac{1}{n-1} \sum_{i=1}^{n}(\xi_i - \bar \xi)^2. Доводиться що розподіл \phi(\xi)=\frac{\xi-a}{S/ \sqrt(n)} є Розподілом стьюдента (t-розподілом) з параметром 1 - (α/2) і ступенями свободи n-1.

Тобто:

-Формулюємо гіпотезу H0 (два способи: одно- та двостороння гіпотеза, одностороння гіпотеза - значення менші (альтернативна - більші) якогось числа, двостороння -

в якомусь проміжку), про те що оцінка значення \bar \xi збігається зі значенням a0, якщо: \frac{|\bar \xi - a_0|}{S/ \sqrt(n)} < t_{1- 

\frac{\alpha}{2}, n-1} - t- критерій рівності середнього деякому значенню --- Помилки 1го та 2го роду: висувається гіпотеза H0, вона є хибною з ймовірністю α, тобто можна здійснити помилку з ймовірністю α, здійснена помилка = хибне рішення ми вибираємо

інше альтернативне рішення. Вибрали рішення, насправді воно неправильне з відповідною ймовірністю α- помилка 1го роду. Застосовуємо інший тест - якщо хибне рішення -

помилка 2го роду. помилка 1го та 2го роду ---

Перевірка гіпотези на значення середнього

Непараметричні тести

Ставлять питання: наскільки середні вибірок збігаються, не обрахуючи оцінки (середнього)

Критерій знаків

Дві вибірки, обов"язково однієї розмірності: ξ1,...,ξn та η1,...,ηn. Беремо ξi − ηi. Рахуємо кількості різниць: 1) додатніх 2) від"ємних

Односторонній критерій:

Висувається гіпотеза: Pi − ηi > 0) = Pi − ηi < 0), тобто кількість знаків + та - є однаковою. Для перевірки цього використовують біноміальний закон розподілу з параметром P.

Якщо позначити через k -кількість різниць рівних нулю, r-кількість різниць зі знаком + то якщо написати суму \sum_{i=r}^{k} C_k^i (\frac{1}{2})^k \le 

\alpha, тоді приймаємо гіпотезу що P< 1/2, або відхиляємо:P> 1/2. Або: \sum_{i=0}^{k} C_k^i (\frac{1}{2})^k \le \alpha, тоді гіпотезу

приймаємо якщо P> 1/2, відхиляємо: P< 1/2.


Двосторонній критерій:

\sum_{i=r}^{k} C_k^i (\frac{1}{2})^k \le \frac{\alpha}{2} - тоді ми відхиляємо гіпотезу із ймовірністю P ≠ 1/2 ---

  • Критерій Вілкінсона
На відміну від попереднього вибірки можуть бути різної розмірності:

ξ1,...,ξn та η1,...,ηm. Для кожної з вибірок будуємо варіаційний ряд: впорядковуємо в порядку зростання, також кожному

ξi приписуємо ранг ri...

Параметричні тести

Стосуються оцінок параметрів.

Критерій про тип розподілу, або: рівність емпіричних розподілів.

  • Критерії Колмогорова-Смірнова:


Для вибірок ξ1,...,ξn та η1,...,ηm будуємо імпіричні функції розподілу:

Fn(x) для ξ1,...,ξn вибірки і Gm(x) для вибірки η1,...,ηm. Емпіричні функції будуються через накопичувальні

гістограми, далі згладжуючи отримуємо імпіричні ф-ії розподілу. Вводяться міри відстаней між емпіричними функціями: Dm, n= supx|Fn(x) -

Gm(x)|, рахуємо різницю значень функцій, рахуємо супремум різниці між цими кривими (емп. ф-ями) - відхилення одне від іншої. Рахуємо величину: \sqrt(\frac{m 

\cdot n}{m+n})D_{m, n} - в Т. Колмогорова ця величина полягає в тому, що вона має розподіл Колмогорова.

Критерій: Два розподіли є однаковими, якщо ця величина є меншою за значення розподілу Колмогорова при заданому значенні параметра β

Лінійна регресія

Щоби перевірити, чи існує залежність між змінними (вибірками) x1, x2, ..., xn i y1, y2, ..., yn -будується кореляційна матриця.

Коефіцієнт кореляції r інформативний лише для лінійної залежності, якщо залежність нелінійна - його не використовують

Формула для коефіцієнта кореляції між двома змінними: ...

Лінійна залежність: y=a*x + b, a - кутовий коефіцієнт (шуканий коефіцієнт кореляції).

Щоби вирахувати залежність між x1, x2, ..., xn i y1, y2, ..., yn потрібно вирахувати коефіцієнти a та b

Є дві вибірки: x1, x2, ..., xn i y1, y2, ..., yn, є залежність y=a*x + b. Потрібно порахувати мінімум цієї залежності, мінімум шукається по змінним через похідні: Позначаємо цю функцію через φ, тоді беремо \frac{\partial \phi}{\partial a}=x, \frac{\partial \phi}{\partial b}=1, звідси:

\frac{\partial \phi}{\partial a_i}=xi, \frac{\partial \phi}{\partial b}=1

Мінімізуємо середньоквадратичні відхилення (квадрати відхилень) через систему:

\begin{cases}
\sum_{i=1}^n y_i - (a x_i +b)=0</sub> \\
\sum_{i=1}^n y_i - (a x_i +b)=0</sub>
\end{cases}
- на основі системи знаходимо коефіцієнти a та b:


\begin{cases}
\sum_{i=1}^n x_i y_i - a \sum_{i=1}^n x_i^2 -b \sum_{i=1}^n x_i = 0 
\sum_{i=1}^n y_i - a \sum_{i=1}^n x_i-b U= 0 
\end{cases}

звідси:


\begin{cases}
\sum_{i=1}^n x_i y_i - a \sum_{i=1}^n x_i^2 -b \sum_{i=1}^n x_i = 0 \\
\sum_{i=1}^n y_i - a \sum_{i=1}^n x_i-b U= 0 
\end{cases}

...
...
  • \frac{\sum_{i=1}^n x_i }{n}= \bar x - оцінка середнього
  • \frac{\sum_{i=1}^n x_i^2 }{n}= \bar \alpha_2 (x) - початкового моменту порядку 1
  • \frac{\sum_{i=1}^n x_i^2 }{n}= \bar \alpha_2 (x) - початкового моменту порядку 1
  • \frac{\sum_{i=1}^n y_i}{n}= \bar Y - оцінка для y
  • \frac{\sum_{i=1}^n x_i y_i}{n}= \bar \alpha_{1, 1}(x,y) - оцінка коефіцієнта кореляції

Із початкових систем:



\begin{cases}
\bar \alpha_{1,1} (x,y) - a \bar \alpha_2(x) - b \bar x =0 \\
\bar y - a \bar x - b  = 0 
\end{cases}
, звідси оцінка a:

a=\bar k_{x,y}
оцінка b:b=\bar y - a \bar x
перевірка побудованої моделі:

Аналіз залишків

  • залишки:
y1, y2, ..., yn - вибірка, для якої знайшли коефіцієнти a та b:

y_i^\prime = a x_i + b, різниці y_i - y_i^\prime утворюватимуть новий р яд \xi_1, \dots, \xi_n - залишки (все що невраховано в моделі). Якщо ці залишки утворюватимуть [[білий шум], тобто є:

  • нормально розподілені
  • некорельовані,

тоді модель є добре побудованою.

Варіанти аналізу залишків:
  • Q-Q (квантіль-квантіль) plot
  • користуючись правилом - якщо значення залишків, також середнє потрапило в проміжок:  (\bar x - 3 \sigma; \bar + 3 \sigma) - тоді можна сказати що ці залишки нормальнорозподілені
  • по описовій статистиці подивитись гістограму - наскільки гістограма відповідає нормальному розподілу
  • аналізуючи кореляційну (автокореляційну) функцію


Модель лінійної регресії

Коли побудована для двох вибірок лінійна модель (лінійна регресія), якщо коефіцієнт лінійної регресії a є додатнім, тоді кажуть що тренд додатній.

Тобто (кутовий) коефіцієнт a (прямої) додатній:

пряма йде вгору - тренд додатній

коефіцієнт a (прямої) від'ємний (зі зростанням значень величина спадає), пряма спадає:



Багатофакторна лінійна регресія

X (x1, x2, ..., xn)
Y (y1, 22, ..., yn)
Z (z1, z2, ..., zn)
U (u1, u2, ..., un)

Якщо стверджується що між змінними Z та U є залежність, тобто коефіцієнт кореляції відмінний від нуля.

Будується модель багатофакторної регресії: U = a1X + a2Y + a3Z + b, далі шукаємо мінімум відхилень моделі від значень вибірки - шукаємо частинні похідні по змінним a1,a2,a3,b, прирівнюємо до нуля, складаємо систему чотирьох рівнянь з чотирма невідомими. Розв'язавши отримуємо значення шуканих коефіцієнтів a1,a2,a3,b і ці коефіцієнти написати через початкові центральні моменти відповідних варіацій, отримуємо результат, аналізуємо залишки.

Може так статись, що якийсь із коефіцієнтів a1,a2,a3,b буде нулем (тобто вклад у модель є мінімальним), тоді у випадку багатофакторної лінійної регресії видаляються із вибірки і все перераховується наново.

Побудова лінійної регресії (одно- та багатовимірної)

Залежність між змінними буває не тільки лінійною (вигляду експоненти, тангенса, логарифма...).

По набору точок дивитись, яка функціє (експонента, логарифм) дає найкраще скупчення, обираємо її -знаходимо коефіцієнти, аналізуємо залишки


Фукція втрат - використовується для аналізу, альтернатива залишкам. За замовченням виражається: (y_i - y_i^{*})^2 - як квадрат залишків, якщо величина близька до нуля - модель побудована нормально, далеко від нуля - погано.


Аналіз часових рядів

аналіз коливаль заданої кривої. По графічному представленню побудувати функцію, що аналітично описує процес.

Методи:

Метод Фур'є

записуємо ряд Фур'є: f(x) = a_0 + \sum_{k=1}^{\infty}a_k cos(k) l_k t + b_k sin(k) k l_k t

Якщо маємо графічну функцію, що коливається, то по ній можна побудувати відповідний ряд - рахуємо коефіцієнти (кількість яких нескінченна).

Застосування різнецевого оператора:

\Delta_i = \frac{l(t_i)-F(t_{i-1})}{h}, h - крок
\Delta_i^2 = \frac{\Delta_{i+1} -\Delta_i}{h}
...
\Delta_2 F = \frac{f(t_2)-f(t_1)}{h} - наближене значення похідної на кроці 2

ідея - похідна відповідного порядку замінюєтся на різницю, далі розглядається система рівнянь.

Коли застосуємо на часовий ряд першу похідну, еквівалентна операціє - застосування різницевого оператора з кроком 1, ми позбудемось параметра t (на графіку відповідає за зростання чи спадання) - приведемо до горизонаталі.

Приклад:

В авіаперельотах маємо фактор - сезонність. Влітку зріст кількості перельотів, взимку - спад. Застосуємо різницевий оператор з кроком 12 (річний цикл), таким чином ми позбуваємось впливу сезонності. Лишиться тільки коливання. Якщо амплітуда цих коливань буде великою - методом логарифмування ми приведемо до потрібного вигляду. Далі йде задача спектрального аналізу - визначити найбільш важливі частоти коливань, шукаємо найбільші (суттєві) коефіцієнти при cos та sin. Отримаємо модель Фур'є, куди вносимо найбільш суттєві коефіцієнти.

Отримуючи суму: делогарифмуємо данні, додаємо сезонність, лінійну регресію - буде форма що задає часовий ряд.


Аналіз моделі:

1) порівняння початкового часового ряду та того що отримали після побудови моделі. Якщо вони досить близькі - модель побудовано добре. Далі використовуючи модель можна робити передбачування на кілька кроків вперед (на кілька місяців вперед на предмет спадання, зростання).
2)Аналітичний спосіб: рахуємо залишки (різниця між фактичними і моделлю), ці залишки аналізуємо на властивість білого шуму (нормально розподілені, некорельовані). Корельованість перевіряється через функцію - автокореляція. На значеннях t1, t2, ..., tn шукаємо залишки r1, r2, ..., rn, шукаємо залежність між r1 і r2, тобто коефіцієнт кореляції, так само над r1 і r3... Якщо значення на кроках близькі до нуля - вони некорельовані.


Спектральний аналіз

З лінійної алгебри:

Маючи матрицю A, найперше що можна проаналізувати - власні числа матриці λ Власні числа є спектром.

Теорема: в скінченновимірному просторі спектр складається тільки з власних числел.


Якщо розглядати ряд Фур'є то він розкладається по базису з cos та sin. Сума ряду Фур'є є нескінченною, тобто простір є нескінченновимірним.

Задача складається з таких кроків:


Розклад по власним функціям (розклад по базису). Матриця (симетрична) приводиться до діагонального вигляду, де на діагоналі стоять власні числа λ1, ..., λn (вони можуть бути кратні та некратні - від цього залежить як будувати власні вектори).

Якщо записати базис із власних векторів l1, ..., ln що відповідають власним числам. В просторі власних векторів оператор (матриця) записуватиметься так:

A = \lambda_1 l_1 + \dots + \lambda_n l_n - діагональна матриця.

Повертаючись до задачі Фур'є:

f(x) = a_0 + \sum_{k=1}^{\infty}a_k cos(k) l_k t + b_k sin(k) k l_k t, коли базисними елементами є sin та cos.


через вищеописану процедуру ми знаходимо коефіцєнти akbk - вони є власними числами. Ті власні числа що близькі до нуля - вплив базисних векторів при них буде несуттєвим, а ті власні значення що близькі до 1 суттєві.

Задача спектрального аналізу зводиться до пошуку власних чисел akbk, базисні вектори тих з них що є найбільшими дають найбільший вплив, інші відкидаються.


Модель авторегресії, модель рухомого середнього

Чиста модель авторегресії

Числовий ряд, функція в точці t описується:

X_t=\xi + \Phi_1 \cdot X_{t-1} + \Phi_2 \cdot X_{t-2} + \Phi_2 \cdot X_{t-3} + \Epsilon
ξ - початкове значення, Ε -випадкова величина, Φ1, ...,Φ3 - параметри авторегресії, 0< Φi < 1


Інтерпритація формули: в лінійній формі записуємо стан системи через кілька (3) попередніх стани. Така модель називається авторегресійною. Через знайдені нами параметри Φ1, ...,Φ3 ми шукаємо (в Statistica) пов'язані з ними параметри P та p (значення яких 0 або 1 або 2).

Модель рухомого середнього

X_t= U + \Epsilon_t - \theta_1 \cdot \Epsilon_{t-1} - \theta_2 \cdot \Epsilon_{t-2}
θ1, θ2 - параметри рухомого середнього


Рухоме середнє, бо ми значення в точці Εt, беремо як композицію: Εt= α Ε t-1 + (1-α) Ε t-2, 0 < α < 1. Параметр θ завжди буде між двом рухомими Ε

В пакеті (Statistica) ми шукаємо параметри рухомого середнього - величини Q і q (0, 1 ,2 - їх значення)


---

Аналіз адекватності п​обудованих моделей визначається за залишками.


Експоненційно-згладжувана

Xt = b + Εt
b - константа, Ε - випадкова похибка
S_t= \alpha \cdot X_t + (1-\alpha) \cdot S_{t-1}
α - параметр експоненційного згладжування, приймає значення (0,1; 0,9)


Кластерний аналіз

Є деякі об"єкти (різні): -порівняти країни, хки - рівень екон. розвитку, природні ресурси Порівнюємо по різних факторах, їх пов"язати не можна. Класифікація об"єктів по параметрам і розбиття на групи. Є наприклад 10 об"єктів, об"єднаємо в 3 основні групи.

Для цього: -будуємо ієрархічне дерево - всі об"єкти ми називаємо кластерами, далі об"єднуємо по деяким мірам. Схожі об"єкти по показникам об"єднуємо у вузли.

Методи об"єднання в кластери:


Об'єднання по найменш віддаленим:
- будуємо матрицю в якої по горизонталі та вертикалі - назви об"єктів {1} {2} {3} {4} {5}
- на перетині - відстань між ними (діагональ - нулі, матриця симетрично відносно діагоналі)
дивимось між якими двома кластерами ({1} та {2})відстань є найменшою, об"єднуємо їх в один кластер
маємо нову матрицю розмірності меншої на одиницю - {1, 2} {3} {4} {5}
рахуємо нові відстані між: d{1,2} {3}=min(d{1,3} d{2,3}) ... і так далі до останього злиття (матриця 2 на 2)


Об'єднання по найбільш віддаленим


Об'єднання по середнім (арифметичним) відстаням:

d{1,2} {3}=1/2 * (d{1,3} + d{2,3})

матриця побудована із середніх відстаней


Об'єднання по відстаням між центрами:
об"єкти - по вертикалі та горизонталі, кожен об"єкт х-зується двома координатами: (1, 1)... (2, 5).

рахується геометрична відстань між центрами (одне число)

  • об"єднання по мінімальній відстані, будується дерево кластеризації
  • потрібно виділити кількість головних кластерів
  • коли параметрів по яким об"єднуємо не один, а кілька - визначається кольорова міра спорідненості, чим колір ближчий - тим кластери ближчі

Факторний аналіз

Фактори: - що впливають на якусь тенденцію (набір факторів що однозначно впливають на цікавий нам результат)

Стандартизуємо данні, будуємо кореляційну матрицю. Із 10 факторів виділити кілька головних факторів:

  • по кореляційній матриці - через лінійну модель.

Лінійна модель - матриця n*n. Об"єкти матриці - рядки, а показники (фактори) - стовпчики. Дані зробити центрованими (середні = 0) xi=qi1 f1 + qi2 f2 + ... + qik fk + Ui - якщо факторів k

Лінійна модель побудована. Потрібно знайти коефіцієнти qij. Якщо будуть досить малими - значить фактор мало впливає на результат. Якщо коефіцієнти великі - фактор суттєвий.

Як визначати кількість факторів:

  • побудова власних значень
  • власний векторів

Коли ми хочемо побудувати із k факторів декілька головних - це означає що k векторів що є залежними, тоді ставиться задача побудови базису в скінченновимірному просторі для цих векторів. Базис = головні фактори. Вектор розкладаємо через базиз, тобто як кожен фактор розкладається через головні фактори.

Процедура для побудови базису:

  • знаходження власних чисел λi, для цього розв"язуємо характеристичне рівняння
  • розв"язується характеристичне рівняння відносно кореляційної матриці R:
|R - λ I|=0 - характеристичне рівняння, по ньому шукаємо власні числа, далі власні вектори - це буде базис власних векторів.

Кореляційна матриця - симетрична, тоді можна використати переведення - до діагонального вигляду, де по діагоналі будуть власні числа.

Метод факторного аналізу - через власні числа визначити максимальне з цих власних значень. При малих значеннях вклад фактору буде малим.

Методи вибору найголовніших факторів:
Критерій Каттера - побудова діаграми, по графіку якого можна визначити кілька найголовніших факторів (відкидаємо ті що найближчі до нуля).
Метод обертання:

у випадку зображення факторів на площині точками (області де відбувається скупчення факторів - великий коефіцієнт кореляції). Осі розміщуємо в напрямку скупчення - означає поворот (ортонормована система) в системі координат, тоді фактори розміщені по осях.

Якщо фактори є пов"язаними (по кореляційній матриці), тоді ми їх можемо зв"язати лінійною регресією. Через параметри регресії можна визначити решту параметрів через формулу зв"язку.


Дискримінантний аналіз

Задача - згрупувати. Залежність будується нелінійно. Спорідненність харатеристик будуємо не через кореляційну матрицю.

Приклад - квітки ірисів. Кожна квітка - набір характеристик. Потім відбувається класифікація.

Матеріали до курсу

Опис завдань у пакеті Statistica

Особисті інструменти