Математичні методи обробки статистичних даних:Іспит
Матеріал з USIC Wiki
Побудова проміжків надійності
Квартіль нижній - це такий x,що випадкова величина X: P(X<x)=0.25, тобто це є одною четвертою ймовірності
Квартіль верхній - це такий x,що випадкова величина X: P(X<x)=0.75
Квантіль - число, яке відповідає певній ймовірності. Тобто за значенням ймовірності знаходимо значення функції розподілу.
- Зміщена, незміщена оцінка, асимптотично незміщенна оцінка:
Коли маємо вибірку: x1, ..., xn:
-
- незміщена (консистентна - зв"язана з середноквадратичним відхиленням) оцінка.
-
- незміщена оцінка дисперсії
-
- незміщена оцінка дисперсії, але є асимптотично незміщеною
Для неперервних величин:
- медіана — точка, зліва і справа від якої f(x) має однакові значення
- мода — точка, в якій f(x) досягає максимуму
- коефіцієнт асиметрії
- екцесс
Для нормального розподілу Sk = Ex = 0
- Проміжки надійності (довірчий інтервал):
a-параметр (середнє, медіана, ...),
- оцінка параметра. Потрібно оцінити наскільки a відрізняється
Тобто:
(1), α β - параметри що задають довірчий інтервал для оцінки параметра a
Розкриваючи
(1.1) :
(2)-
проміжок надійності для оцінки параметра a по вибірці
Проміжки надійності для середнього та середньоквадратичного відхилення:
Проміжки надійності будуються:
Спочатку задається параметр β=0,95 (0,9 або 0,99) або параметр α (рівень значимості = 1-β), далі по цьому параметру β шукаємо
і
після чого записуємо інтервал (2).
- Пошук
через ЦГТ: Якщо маємо експеримент що повторюється n - кількість разів, тоді розподіл по ймовірності прямує до нормального розподілу
- Пошук
ймовірностей. Тоді задача розв"язкується через квантіль. Береться квантіль нормального розподілу для проміжку (1.1), ймовірність потрапляння в проміжок для нормального
розподілу при заданому β.
Пишемо через P(γ1 < x < γ2) = F(γ2) − F(γ2) знаходження γ1,γ2(відповідні квантілі): по P(x < γ2) − P(x < γ1)
---
Проміжки надійності для оцінки різниці між середнім (при нормальному розподілі):
+розподіл Стьюдента
Проміжки надійності для оцінки середньоквадратичного відхилення: +розподіл хі-квадрат
Проміжки надійності для оцінки дисперсії: ---
Коли маємо дві вибірки: ξ1,...,ξn та η1,...,ηn - два незалежні вимірювання одної і тої ж самої величини (мають бути однакові).
Задача - порівняти наскільки оцінки середніх
є близькими
Знаходимо проміжки надійності для оцінки різниці між середніми
.
- a1,a2 - середні (математичні сподівання) двох вибірок,
- оцінки цих параметрів
Проміжки надійності коли σ1,σ2-відомі:
...
Коли невідомі σ1,σ2, використовуємо оцінки дисперсії
---
Тести (гіпотези)
- Перевірка гіпотези на значення середнього.
Алгоритм: 1. Висувається основна гіпотеза H0 і альтернативна, використовується рівень значимості α (або ймовірність β) при якому виконується гіпотеза. якщо гіпотеза H0 виконується, тоді говорять "з ймовірністю β гіпотеза H0 має місце", або "з рівнем значимості α H0 виконується
(тобто не виконується, оскільки β= 1-α)".
2. Надається a-параметр, висувається гіпотеза H0, що a=a0.
3. Беремо різницю між: a-a0, чим вона є меншою, тим точнішою є гіпотеза.
4. маємо вибірку ξ1,...,ξn, для неї порахуємо
і розглядаємо статистику:
, де
S2 - оцінка дисперсії:
. Доводиться що розподіл
є Розподілом стьюдента (t-розподілом) з параметром 1 - (α/2) і ступенями свободи n-1.
Тобто:
-Формулюємо гіпотезу H0 (два способи: одно- та двостороння гіпотеза, одностороння гіпотеза - значення менші (альтернативна - більші) якогось числа, двостороння -
в якомусь проміжку), про те що оцінка значення
збігається зі значенням a0, якщо:
- t- критерій рівності середнього деякому значенню
---
Помилки 1го та 2го роду:
висувається гіпотеза H0, вона є хибною з ймовірністю α, тобто можна здійснити помилку з ймовірністю α, здійснена помилка = хибне рішення ми вибираємо
інше альтернативне рішення. Вибрали рішення, насправді воно неправильне з відповідною ймовірністю α- помилка 1го роду. Застосовуємо інший тест - якщо хибне рішення -
помилка 2го роду. помилка 1го та 2го роду ---
- Перевірка гіпотези на значення середнього
Непараметричні тести
Ставлять питання: наскільки середні вибірок збігаються, не обрахуючи оцінки (середнього)
- Критерій знаків
Дві вибірки, обов"язково однієї розмірності: ξ1,...,ξn та η1,...,ηn. Беремо ξi − ηi. Рахуємо кількості різниць: 1) додатніх 2) від"ємних
Односторонній критерій:
Висувається гіпотеза: P(ξi − ηi > 0) = P(ξi − ηi < 0), тобто кількість знаків + та - є однаковою. Для перевірки цього використовують біноміальний закон розподілу з параметром P.
Якщо позначити через k -кількість різниць рівних нулю, r-кількість різниць зі знаком + то якщо написати суму
, тоді приймаємо гіпотезу що P< 1/2, або відхиляємо:P> 1/2. Або:
, тоді гіпотезу
приймаємо якщо P> 1/2, відхиляємо: P< 1/2.
Двосторонній критерій:
- тоді ми відхиляємо гіпотезу із ймовірністю P ≠ 1/2
---
- Критерій Вілкінсона
- На відміну від попереднього вибірки можуть бути різної розмірності:
ξ1,...,ξn та η1,...,ηm. Для кожної з вибірок будуємо варіаційний ряд: впорядковуємо в порядку зростання, також кожному
ξi приписуємо ранг ri...
Параметричні тести
Стосуються оцінок параметрів.
Критерій про тип розподілу, або: рівність емпіричних розподілів.
- Критерії Колмогорова-Смірнова:
Для вибірок ξ1,...,ξn та η1,...,ηm будуємо імпіричні функції розподілу:
Fn(x) для ξ1,...,ξn вибірки і Gm(x) для вибірки η1,...,ηm. Емпіричні функції будуються через накопичувальні
гістограми, далі згладжуючи отримуємо імпіричні ф-ії розподілу. Вводяться міри відстаней між емпіричними функціями: Dm, n= supx|Fn(x) -
Gm(x)|, рахуємо різницю значень функцій, рахуємо супремум різниці між цими кривими (емп. ф-ями) - відхилення одне від іншої. Рахуємо величину:
- в Т. Колмогорова ця величина полягає в тому, що вона має розподіл Колмогорова.
Критерій: Два розподіли є однаковими, якщо ця величина є меншою за значення розподілу Колмогорова при заданому значенні параметра β
Лінійна регресія
Щоби перевірити, чи існує залежність між змінними (вибірками) x1, x2, ..., xn i y1, y2, ..., yn -будується кореляційна матриця.
Коефіцієнт кореляції r інформативний лише для лінійної залежності, якщо залежність нелінійна - його не використовують
Формула для коефіцієнта кореляції між двома змінними: ...
Лінійна залежність: y=a*x + b, a - кутовий коефіцієнт (шуканий коефіцієнт кореляції).
Щоби вирахувати залежність між x1, x2, ..., xn i y1, y2, ..., yn потрібно вирахувати коефіцієнти a та b
Є дві вибірки: x1, x2, ..., xn i y1, y2, ..., yn, є залежність y=a*x + b. Потрібно порахувати мінімум цієї залежності, мінімум шукається по змінним через похідні:
Позначаємо цю функцію через φ, тоді беремо
=x,
=1, звідси:
=xi,
=1
Мінімізуємо середньоквадратичні відхилення (квадрати відхилень) через систему:
- на основі системи знаходимо коефіцієнти a та b:
звідси:
- ...
- ...
- оцінка середнього
- початкового моменту порядку 1
- початкового моменту порядку 1
- оцінка для y
- оцінка коефіцієнта кореляції
Із початкових систем:
, звідси оцінка a:
- оцінка b:
- перевірка побудованої моделі:
Аналіз залишків
- залишки:
- y1, y2, ..., yn - вибірка, для якої знайшли коефіцієнти a та b:
, різниці
утворюватимуть новий р яд
- залишки (все що невраховано в моделі). Якщо ці залишки утворюватимуть [[білий шум], тобто є:
- нормально розподілені
- некорельовані,
тоді модель є добре побудованою.
- Варіанти аналізу залишків:
- Q-Q (квантіль-квантіль) plot
- користуючись правилом 3σ - якщо значення залишків, також середнє потрапило в проміжок:
- тоді можна сказати що ці залишки нормальнорозподілені
- по описовій статистиці подивитись гістограму - наскільки гістограма відповідає нормальному розподілу
- аналізуючи кореляційну (автокореляційну) функцію
Модель лінійної регресії
Коли побудована для двох вибірок лінійна модель (лінійна регресія), якщо коефіцієнт лінійної регресії a є додатнім, тоді кажуть що тренд додатній.
Тобто (кутовий) коефіцієнт a (прямої) додатній:
- пряма йде вгору - тренд додатній
коефіцієнт a (прямої) від'ємний (зі зростанням значень величина спадає), пряма спадає:
Багатофакторна лінійна регресія
- X (x1, x2, ..., xn)
- Y (y1, 22, ..., yn)
- Z (z1, z2, ..., zn)
- U (u1, u2, ..., un)
Якщо стверджується що між змінними Z та U є залежність, тобто коефіцієнт кореляції відмінний від нуля.
Будується модель багатофакторної регресії: U = a1X + a2Y + a3Z + b, далі шукаємо мінімум відхилень моделі від значень вибірки - шукаємо частинні похідні по змінним a1,a2,a3,b, прирівнюємо до нуля, складаємо систему чотирьох рівнянь з чотирма невідомими. Розв'язавши отримуємо значення шуканих коефіцієнтів a1,a2,a3,b і ці коефіцієнти написати через початкові центральні моменти відповідних варіацій, отримуємо результат, аналізуємо залишки.
Може так статись, що якийсь із коефіцієнтів a1,a2,a3,b буде нулем (тобто вклад у модель є мінімальним), тоді у випадку багатофакторної лінійної регресії видаляються із вибірки і все перераховується наново.
Побудова лінійної регресії (одно- та багатовимірної)
Залежність між змінними буває не тільки лінійною (вигляду експоненти, тангенса, логарифма...).
По набору точок дивитись, яка функціє (експонента, логарифм) дає найкраще скупчення, обираємо її -знаходимо коефіцієнти, аналізуємо залишки
Фукція втрат - використовується для аналізу, альтернатива залишкам. За замовченням виражається:
- як квадрат залишків, якщо величина близька до нуля - модель побудована нормально, далеко від нуля - погано.
Аналіз часових рядів
аналіз коливаль заданої кривої. По графічному представленню побудувати функцію, що аналітично описує процес.
Методи:
Метод Фур'є
записуємо ряд Фур'є:
Якщо маємо графічну функцію, що коливається, то по ній можна побудувати відповідний ряд - рахуємо коефіцієнти (кількість яких нескінченна).
Застосування різнецевого оператора:
, h - крок
- ...
- наближене значення похідної на кроці 2
ідея - похідна відповідного порядку замінюєтся на різницю, далі розглядається система рівнянь.
Коли застосуємо на часовий ряд першу похідну, еквівалентна операціє - застосування різницевого оператора з кроком 1, ми позбудемось параметра t (на графіку відповідає за зростання чи спадання) - приведемо до горизонаталі.
Приклад:
В авіаперельотах маємо фактор - сезонність. Влітку зріст кількості перельотів, взимку - спад. Застосуємо різницевий оператор з кроком 12 (річний цикл), таким чином ми позбуваємось впливу сезонності. Лишиться тільки коливання. Якщо амплітуда цих коливань буде великою - методом логарифмування ми приведемо до потрібного вигляду. Далі йде задача спектрального аналізу - визначити найбільш важливі частоти коливань, шукаємо найбільші (суттєві) коефіцієнти при cos та sin. Отримаємо модель Фур'є, куди вносимо найбільш суттєві коефіцієнти.
Отримуючи суму: делогарифмуємо данні, додаємо сезонність, лінійну регресію - буде форма що задає часовий ряд.
Аналіз моделі:
- 1) порівняння початкового часового ряду та того що отримали після побудови моделі. Якщо вони досить близькі - модель побудовано добре. Далі використовуючи модель можна робити передбачування на кілька кроків вперед (на кілька місяців вперед на предмет спадання, зростання).
- 2)Аналітичний спосіб: рахуємо залишки (різниця між фактичними і моделлю), ці залишки аналізуємо на властивість білого шуму (нормально розподілені, некорельовані). Корельованість перевіряється через функцію - автокореляція. На значеннях t1, t2, ..., tn шукаємо залишки r1, r2, ..., rn, шукаємо залежність між r1 і r2, тобто коефіцієнт кореляції, так само над r1 і r3... Якщо значення на кроках близькі до нуля - вони некорельовані.
Спектральний аналіз
- З лінійної алгебри:
Маючи матрицю A, найперше що можна проаналізувати - власні числа матриці λ Власні числа є спектром.
Теорема: в скінченновимірному просторі спектр складається тільки з власних числел.
Якщо розглядати ряд Фур'є то він розкладається по базису з cos та sin. Сума ряду Фур'є є нескінченною, тобто простір є нескінченновимірним.
Задача складається з таких кроків:
Розклад по власним функціям (розклад по базису). Матриця (симетрична) приводиться до діагонального вигляду, де на діагоналі стоять власні числа λ1, ..., λn (вони можуть бути кратні та некратні - від цього залежить як будувати власні вектори).
Якщо записати базис із власних векторів l1, ..., ln що відповідають власним числам. В просторі власних векторів оператор (матриця) записуватиметься так:
- діагональна матриця.
Повертаючись до задачі Фур'є:
, коли базисними елементами є sin та cos.
через вищеописану процедуру ми знаходимо коефіцєнти akbk - вони є власними числами. Ті власні числа що близькі до нуля - вплив базисних векторів при них буде несуттєвим, а ті власні значення що близькі до 1 суттєві.
Задача спектрального аналізу зводиться до пошуку власних чисел akbk, базисні вектори тих з них що є найбільшими дають найбільший вплив, інші відкидаються.
Модель авторегресії, модель рухомого середнього
Чиста модель авторегресії
Числовий ряд, функція в точці t описується:
- ξ - початкове значення, Ε -випадкова величина, Φ1, ...,Φ3 - параметри авторегресії, 0< Φi < 1
Інтерпритація формули: в лінійній формі записуємо стан системи через кілька (3) попередніх стани. Така модель називається авторегресійною. Через знайдені нами параметри Φ1, ...,Φ3 ми шукаємо (в Statistica) пов'язані з ними параметри P та p (значення яких 0 або 1 або 2).
Модель рухомого середнього
- θ1, θ2 - параметри рухомого середнього
Рухоме середнє, бо ми значення в точці Εt, беремо як композицію: Εt= α Ε t-1 + (1-α) Ε t-2, 0 < α < 1. Параметр θ завжди буде між двом рухомими Ε
В пакеті (Statistica) ми шукаємо параметри рухомого середнього - величини Q і q (0, 1 ,2 - їх значення)
---
Аналіз адекватності побудованих моделей визначається за залишками.
Експоненційно-згладжувана
- Xt = b + Εt
- b - константа, Ε - випадкова похибка
- α - параметр експоненційного згладжування, приймає значення (0,1; 0,9)
Кластерний аналіз
Є деякі об"єкти (різні): -порівняти країни, хки - рівень екон. розвитку, природні ресурси Порівнюємо по різних факторах, їх пов"язати не можна. Класифікація об"єктів по параметрам і розбиття на групи. Є наприклад 10 об"єктів, об"єднаємо в 3 основні групи.
Для цього: -будуємо ієрархічне дерево - всі об"єкти ми називаємо кластерами, далі об"єднуємо по деяким мірам. Схожі об"єкти по показникам об"єднуємо у вузли.
Методи об"єднання в кластери:
- Об'єднання по найменш віддаленим:
- - будуємо матрицю в якої по горизонталі та вертикалі - назви об"єктів {1} {2} {3} {4} {5}
- - на перетині - відстань між ними (діагональ - нулі, матриця симетрично відносно діагоналі)
- дивимось між якими двома кластерами ({1} та {2})відстань є найменшою, об"єднуємо їх в один кластер
- маємо нову матрицю розмірності меншої на одиницю - {1, 2} {3} {4} {5}
- рахуємо нові відстані між: d{1,2} {3}=min(d{1,3} d{2,3}) ... і так далі до останього злиття (матриця 2 на 2)
- Об'єднання по найбільш віддаленим
- Об'єднання по середнім (арифметичним) відстаням:
d{1,2} {3}=1/2 * (d{1,3} + d{2,3})
матриця побудована із середніх відстаней
- Об'єднання по відстаням між центрами:
- об"єкти - по вертикалі та горизонталі, кожен об"єкт х-зується двома координатами: (1, 1)... (2, 5).
рахується геометрична відстань між центрами (одне число)
- об"єднання по мінімальній відстані, будується дерево кластеризації
- потрібно виділити кількість головних кластерів
- коли параметрів по яким об"єднуємо не один, а кілька - визначається кольорова міра спорідненості, чим колір ближчий - тим кластери ближчі
Факторний аналіз
Фактори: - що впливають на якусь тенденцію (набір факторів що однозначно впливають на цікавий нам результат)
Стандартизуємо данні, будуємо кореляційну матрицю. Із 10 факторів виділити кілька головних факторів:
- по кореляційній матриці - через лінійну модель.
Лінійна модель - матриця n*n. Об"єкти матриці - рядки, а показники (фактори) - стовпчики. Дані зробити центрованими (середні = 0) xi=qi1 f1 + qi2 f2 + ... + qik fk + Ui - якщо факторів k
Лінійна модель побудована. Потрібно знайти коефіцієнти qij. Якщо будуть досить малими - значить фактор мало впливає на результат. Якщо коефіцієнти великі - фактор суттєвий.
Як визначати кількість факторів:
- побудова власних значень
- власний векторів
Коли ми хочемо побудувати із k факторів декілька головних - це означає що k векторів що є залежними, тоді ставиться задача побудови базису в скінченновимірному просторі для цих векторів. Базис = головні фактори. Вектор розкладаємо через базиз, тобто як кожен фактор розкладається через головні фактори.
Процедура для побудови базису:
- знаходження власних чисел λi, для цього розв"язуємо характеристичне рівняння
- розв"язується характеристичне рівняння відносно кореляційної матриці R:
- |R - λ I|=0 - характеристичне рівняння, по ньому шукаємо власні числа, далі власні вектори - це буде базис власних векторів.
Кореляційна матриця - симетрична, тоді можна використати переведення - до діагонального вигляду, де по діагоналі будуть власні числа.
Метод факторного аналізу - через власні числа визначити максимальне з цих власних значень. При малих значеннях вклад фактору буде малим.
- Методи вибору найголовніших факторів:
- Критерій Каттера - побудова діаграми, по графіку якого можна визначити кілька найголовніших факторів (відкидаємо ті що найближчі до нуля).
- Метод обертання:
у випадку зображення факторів на площині точками (області де відбувається скупчення факторів - великий коефіцієнт кореляції). Осі розміщуємо в напрямку скупчення - означає поворот (ортонормована система) в системі координат, тоді фактори розміщені по осях.
Якщо фактори є пов"язаними (по кореляційній матриці), тоді ми їх можемо зв"язати лінійною регресією. Через параметри регресії можна визначити решту параметрів через формулу зв"язку.
Дискримінантний аналіз
Задача - згрупувати. Залежність будується нелінійно. Спорідненність харатеристик будуємо не через кореляційну матрицю.
Приклад - квітки ірисів. Кожна квітка - набір характеристик. Потім відбувається класифікація.


