ЧИСЕЛЬНІ МЕТОДИ
Аналіз статистичних даних
методичні вказівки до розрахункової роботи
для студентів напряму 6.050101 „Комп’ютерні науки”
Затверджено на засіданні
кафедри ІСМ
Протокол № ____ від __________ 2017 р.
Методичні вказівки обговорені та схвалені на засіданні Науково-методичної ради інституту комп’ютерних наук та інформаційних технологій Національного університету «Львівська політехніка». Протокол № ____ від _______________2017
Укладачі: Висоцька В.А., к.т.н., доцент кафедри ІСМ
Методичні вказівки до розрахункової роботи з дисципліни «Чисельні методи» для студентів напряму 6.050101 „Комп’ютерні науки” /Укл.: В.А.Висоцька.
РОЗРАХУНКОВА РОБОТА
НА ТЕМУ " АНАЛІЗ СТАТИСТИЧНИХ ДАНИХ "
Метою роботи є ознайомлення з основними методами візуалізації, графічного відображення та первинної статистичної обробки числових даних, представлених вибірковою сукупністю або часовим рядом. Метою даної роботи є ознайомлення з основними методами висвітлення тенденції поведінки досліджуваного показника, яка представлена характером його тренду, з допомогою методів згладжування часових рядів та подання отриманих результатів засобами табличного процесора MS Excel. Метою роботи також є ознайомлення з методами кореляційного аналізу експериментальних даних, поданих часовими послідовностями. Для цього потрібно:
- побудувати кореляційне поле;
- визначити значення коефіцієнта кореляції;
- обчислити кореляційне відношення;
- побудувати графіки автокореляційних функцій;
- розбити одну з послідовностей на три рівні частини;
- побудувати для них кореляційну матрицю.
- знайти коефіцієнти множинної кореляції;
Необхідно розділити задану множину об’єктів, кожен з яких характеризується однаковою сукупністю конкретних ознак, на окремі групи, використовуючи ієрархічний агломеративний кластерний аналіз.
КОРОТКІ ТЕОРЕТИЧНІ ВІДОМОСТІ
Більшість користувачів коли-небудь чули про програму Excel. Багато хто навіть знає, що цей додаток відноситься до класу так званих електронних таблиць. Проте порівняно невелика кількість людей знають всі можливості цієї програми.
Excel потрібен перш за все тим людям, які у своїй роботі мають справу з цифрами, наприклад, бухгалтерам та науковим працівникам. Але цим не вичерпується потенціал електронних таблиць. Практично у всіх випадках,коли інформація може бути подана в табличному вигляді, Excel є незамінним помічником. Будь-який користувач, що знає можливості Excel, завжди може знайти йому застосування у своїй роботі.
За допомогою Excel можна створювати, редагувати і друкувати оформлені багатим дизайном таблиці. Завдяки вбудованим математичним і логічним функціям, можна дуже швидко виконувати різноманітні операції, як над окремими цифрами, так і над текстами, проводити статистичний аналіз та оптимізацію даних. Можна створювати всілякі форми графічного
подання змісту таблиць, створювати базами даних та працювати з ними. Excel має величезні можливості і, безсумнівно, є однією з провідних програм свого класу.
Починаючи працювати на будь-якому комп'ютері, можна бути певним, що на ньому встановлена ця програма. Це надзвичайно важливий момент, оскільки пошук потрібного програмного забезпечення як правило займає дні, а його освоєння місяці. Саме тому, вміння використовувати Excel є дуже перспективним, важливим з точки зору освоєння надзвичайно широкого спектру засобів обробки і подання результатів практичних досліджень, головне те, що співробітники, колеги, фахівці, науковці, які володіють методами Excel стають цікавими і потрібними співрозмовниками.
Перші версії Excel були створені ще до появи операційних систем сімейства Windows. Але й після цього Excel не зупинився у своєму розвитку: були створені версії 7.0, 97, 2000, 2002, 2003, в кожній з яких з'являлися нові можливості та вдосконалювалися наявні, усувалися помилки попередніх версій.
Excel входить до складу пакету офісних програм Microsoft Office і, як правило, встановлюється разом з усіма іншими програмами пакета. Незважаючи на те, що суттєвих відмінностей між версіями Excel немає, користувач, що освоїв одну з них, легко переходить на іншу, початкове вивчення все ж краще починати з тієї версії, яка встановлена на його комп'ютері. Разом з тим, якщо потужність комп'ютера дозволяє, слід встановити найпоширенішу версію програми, а саме MS Excel 2003.
Електронні таблиці Excel мають воістину величезний набір можливостей. Проте, зазвичай, користувач у своїй роботі застосовує тільки їх невелику частину. Відбувається це не тільки від незнання, але і від відсутності в цьому гострої необхідності. І дійсно, всі функції, закладені в Excel, можна умовно розділити на ті, знання яких дуже бажано або просто необхідно, і ті, вивчати які можна у міру потреби.
Для успішного аналізу і прийняття ефективних рішень в економічних та екологічних ситуаціях відповідна інформація про їх стан повинна бути якомога більш повно представленою, зокрема у випадках коли числові дані є пов’язані з моментами часу – надані у формі часових рядів або впорядкованих в часі вибірок.
1. ФОРМИ І МЕТОДИ ПОДАННЯ ТА ПОПЕРЕДНЯ СТАТИСТИЧНА ОБРОБКА ЧИСЛОВИХ ДАНИХ ЧАСОВИХ ПОСЛІДОВНОСТЕЙ
1.1. ПОПЕРЕДНЯ ОБРОБКА ДАНИХ ТА ПОДАННЯ ЇЇ РЕЗУЛЬТАТІВ
Отримані в різноманітних дослідженнях дані переважно характеризують спостережуваний об’єкт в двох аспектах – статичному і динамічному. Статичний аспект дає характеристику об’єкта значеннями конкретних величин, які можуть бути як реальними, тобто характеризують об’єкт так як він є (кількість елементів конкретної схеми, значення елемента за даною шкалою) або випадковими з відомим або невідомим законом розподілу їхньої імовірності. Динамічний аспект характеризує дані про об’єкт протягом часу, регулярно або нерегулярно, але так щоб кожне їхнє значення було прив’язане до моменту часу його спостереження чи реєстрації.
Ці два аспекти виражаються з точки зору їхньої обробки двома класами: вибірковими сукупностями – вибірками і часовими послідовностями або часовими рядами. Для першого класу результатом обробки є визначення закону розподілу випадкових значень елементів вибірки – варіант. Зауважимо, що невипадкові значення не потребують знаходження виду та параметрів закону розподілу, а використовуються безпосередньо в розрахунках або їх пере цим усереднюють. Для другого класу, який є різновидом випадкових процесів, результатом обробки є аналітичне подання тенденції розвитку досліджуваного показника в часі.
Завершенням таких досліджень є математична модель, в якій ці два компоненти одного і того ж самого набору даних (вважаємо, що дані прив’язані до часу, або до іншого показника) об’єднані аналітично, а сама модель, з точністю до прийнятого критерію адекватності, описує їхню поведінку.
Попередня обробка даних фактично дає підстави для побудови такої математичної моделі, проте для цього мають бути реалізовані певні етапи.
Для досягнення поставленої мети в даній роботі необхідно забезпечити поетапне виконання низки завдань. Тобто, вирішення цих завдань здійснюється такими етапами.
1.1.1. ФОРМУВАННЯ ФАЙЛУ ДАНИХ У ФОРМІ EXCEL ТА WORD ТАБЛИЦЬ.
Для цього, отримані дані формуються у файл даних, тобто файл, в якому дані відповідним чином впорядковані, наприклад: в послідовності їх отримання, у відповідності з часом отримання. Такий файл має мати форму таблиці «об’єкт - властивість», «порядковий номер – значення показника». Як правило такий файл є звичайним комп’ютерним файлом, який може бути сформований за допомогою Word або навіть побудований в «Блокноті», але він має мати відповідне розширення, наприклад, *.dat або *.txt.
Після формування такого файлу його необхідно внести в книгу Excel. Для цього необхідно у відкритій книзі Excel відкрити доступ до віддалених файлів.
Далі, за допомогою вказавши формат вихідних даних і тип розділювача, виконати відповідні кроки. В результаті в книзі буде введений вказаний файл. Для отриманих експериментальних даних може виявитися значний розмір стовпчиків, що у випадку внесення такої таблиці у сторінку Word спричинить незручність сприйняття даних, оскільки дані можуть вимагати декілька не заповнених сторінок. Тоді, отриману таблицю варта «стиснути» в Excel, подавши її у такій формі.
Представлення даних у формі стиснутої таблиці здійснюють з допомогою розбиття оригінальної на кількість частин так, щоб в таблиці було як найменше вільних комірок, а сама таблиця не виходила за межі визначені текстовим форматом. Не слід дуже ущільнювати стовпчики таблиці, оскільки дані повинні бути читабельними за значеннями, номери та їх значення не повинні бути дуже близько. Це має важливе практичне значення, особливо, коли дані представляються для аналізу в роздрукованому, але без електронного супроводу, представленні. Такі дані для здійснення аналізу піддають скануванню і порушення цієї вимоги може призвести до суттєвих помилок.
Таблиця 1.
Подання значень даних у формі стиснутої таблиці
Результати реєстрації динаміки показника |
||||||||||
№ п/п |
Значення показника |
№ п/п |
Значення показника |
№ п/п |
Значення показника |
№ п/п |
Значення показника |
№ п/п |
Значення показника |
|
1 |
2465 |
21 |
933 |
41 |
690 |
61 |
800 |
81 |
871 |
|
2 |
2738 |
22 |
885 |
42 |
748 |
62 |
971 |
82 |
803 |
|
3 |
1698 |
23 |
663 |
43 |
1042 |
63 |
711 |
83 |
1043 |
|
4 |
1482 |
24 |
1321 |
44 |
609 |
64 |
934 |
84 |
819 |
|
5 |
1544 |
25 |
1148 |
45 |
717 |
65 |
937 |
85 |
651 |
|
6 |
1386 |
26 |
826 |
46 |
856 |
66 |
1111 |
86 |
1654 |
|
7 |
1315 |
27 |
1118 |
47 |
741 |
67 |
733 |
87 |
806 |
|
8 |
1032 |
28 |
1497 |
48 |
1183 |
68 |
1006 |
88 |
725 |
|
9 |
998 |
29 |
757 |
49 |
836 |
69 |
921 |
89 |
1160 |
|
10 |
1119 |
30 |
865 |
50 |
836 |
70 |
1140 |
90 |
695 |
|
11 |
1203 |
31 |
1605 |
51 |
843 |
71 |
809 |
91 |
1039 |
|
12 |
1107 |
32 |
872 |
52 |
841 |
72 |
686 |
92 |
1482 |
|
13 |
889 |
33 |
784 |
53 |
1150 |
73 |
744 |
93 |
1001 |
|
14 |
907 |
34 |
1055 |
54 |
819 |
74 |
1462 |
94 |
835 |
|
15 |
1043 |
35 |
786 |
55 |
683 |
75 |
876 |
95 |
1098 |
|
16 |
968 |
36 |
913 |
56 |
1265 |
76 |
683 |
96 |
1489 |
|
17 |
895 |
37 |
1597 |
57 |
841 |
77 |
1108 |
97 |
935 |
|
18 |
1030 |
38 |
695 |
58 |
1047 |
78 |
1146 |
98 |
915 |
|
19 |
893 |
39 |
716 |
59 |
1271 |
79 |
1295 |
99 |
1675 |
|
20 |
1089 |
40 |
756 |
60 |
882 |
80 |
1320 |
100 |
779 |
1.1.2. ГРАФІЧНЕ ПОДАННЯ ДАНИХ.
Основним типом візуалізації даних у звітах експериментальних та наукових-практичних досліджень є графіки. Графік показує відношення між двома величинами, одна з яких є незалежною змінною і її значення за звичай відкладають вздовж горизонтальної осі – абсциси; друга змінна є залежною і її значення відкладають вздовж вертикальної осі – ординати.
Фактично, будь-який графік складається з декількох основних елементів: осей з підписами, експериментальних точок, ліній, що з’єднують ці точки (їх ще називають кривими), пояснюючих написів на рисунку та підпису під рисунком. В загальному, щоб побудувати графік необхідно:
- підготувати таблицю з відображуваними даними;
- визначити розміри осей з реперними штрихами і цифрами;
- нанести експериментальні точки і провести криві;
- зробити відповідні написи для осей та шкал на рисунку ;
- підготувати підпис до рисунка.
Наявність табличного процесора – електронної таблиці MS Excel суттєво спрощує процедуру побудови графіка, переважно з геометричної точки зору, тобто креслення його за точками, в той час, як сама підготовка та редакція і корегування його зовнішнього виду залишаються прерогативою фахівця.
На графіку мають бути позначені осі, виділені маркери, має бути назва графіка, назви осей, значення поділок повинно відповідати значенням варіант.
Для побудови графіка в полярній системі координат використовуємо «Майстер діаграм» (рис. (рис. 4.) і вибираємо на вкладці «Стандартні» опцію «Пелюсткова»
Редагування графіка – вибір розміру шрифту, параметрів та кольору осей здійснюємо звичайним способом.
1.1.3. ОПИСОВА СТАТИСТИКА - КІЛЬКІСНІ ХАРАКТЕРИСТИКИ ДАНИХ.
Крім табличного та графічного представлення даних, в їх супровід включають їх загальні числові та статистичні характеристики, які відносять до описової або дескриптивної статистики.
Описова статистика дає підстави для формування компетенцій щодо вибору шкали вимірювань, автоматизації обробки даних при застосуванні різних форматів на етапі їх збору, подання результатів у різних формах, графічного подання результатів, обчислення статистичних параметрів розподілу та оцінки параметрів генеральної сукупності з використанням інформаційних технологій. Вона займається добором кількісної інформації, необхідної (або цікавої) для різних людей. Великі масиви даних, перш ніж вони вивчатимуться людиною, мають узагальнюватися або згортатися. Саме це робить описова статистика, яка описує, узагальнює або зводить до бажаного виду властивості масивів даних. Описова статистика застосовується для аналізу та інтерпретації статистичних даних, побудови статистичних розподілів та обчисленні відповідних числових параметрів, що характеризують досліджувану сукупність. Її використовують для організації збирання інформації, перевірки якості даних та їхньої інтерпретації, зображення статистичного матеріалу.
Описова (дескриптивна) статистика - це найбільш загальні статистичні показники, що описують розподіл даних, приймаючи за норму - нормальний розподіл. Це тому, що характерною властивістю нормального розподілу є те, що 68% всіх його спостережень лежать в діапазоні ± одне стандартне відхилення від середнього арифметичного, а в діапазоні ± два стандартних відхилення міститься 95% значень вибірки з нормальним розподілом. Ці два показники - середнє арифметичне і стандартне відхилення є основними параметрами нормального розподілу.
Середнє арифметичне є мірою центральної тенденції, що відображає найбільш характерне для даної вибірки значення. Його визначають за формулою
(Для ознайомлення з повним текстом статті необхідно залогінитись)