Про теорію ймовірностей, статистику і штучний інтелект

Вступ

Статтю присвячено деяким історичним аспектам застосування статистики та її сучасному значенню в оточуючому світі. Яке місце статистики у сучасному суспільстві і у вашому особистому житті? Чим статистика і теорія ймовірностей завдячують одна одній? Як статистика допомогла народитися штучному інтелекту і що буде далі? Чому у Лондоні регулярно судять дерев’яну скриньку з грошима і до чого тут статистика? Про це і про багато іншого ми хочемо розповісти у цій статті.

Ми обговоримо прикладні задачі, які розв’язуються статистичними методами. Висвітлимо науковий аспект статистики, який дає можливість калібрувати математичні  моделі реальних процесів, і тим самим  передбачати їх розвиток у майбутньому. Окрім того, у статті наведено історичний огляд появи та в еволюції систем штучного інтелекту, дано короткий опис їх функціональності, а також показано, яким чином сучасні моделі штучного інтелекту використовують статистичні методи та техніки для досягнення тих неймовірних результатів, що ми їх спостерігаємо останніми роками.

1. Статистика та її застосування в реальному житті

Коли ви купуєте білет на літак чи поїзд, то частка його вартості відраховується страховій компанії, яка страхує вас і перевізника від нещасних випадків під час поїздки. Як визначити – скільки за це треба заплатити? Вочевидь, потрібно зібрати дані про попередні поїздки – скільки у них було таких випадків, і які були виплати постраждалим. Ці статистичні дані дають змогу оцінити ризик вашої поїздки. Він дуже малий, звичайно, ви доїдете без проблем! Але раптом щось – страхова компанія має відшкодувати ваші збитки. Тому ви платите за страховку мало, а гарантується вам справедлива компенсація. Якщо занизити ціну страховки – страхова компанія може збанкрутувати. Якщо завищити – ви будете платити зайве. Балансування ризиків – серйозна справа, що вимагає нетривіальної науки.

Так само лікарі-епідеміологи, коли вирішують, чи треба вам проходити вакцинацію, повинні оцінити ризики захворювання даною хворобою і порівняти їх з ризиками можливих наслідків вакцинації. І тут знову не обійдешся без аналізу статистичних даних.

 Коли ви розмовляєте по телефону, звукова та відео інформація стискаються для більш швидкої передачі. Якщо стиснення зробити дуже сильним, випадкові шуми можуть погіршити якість сигналу. Для забезпечення кращої якості можна дублювати інформацію, тоді швидкість передачі сповільниться. Для вибору правильного балансу між швидкістю і якістю сигналу потрібно враховувати статистичні характеристики можливих шумів та каналів зв’язку. Коли ви сплачуєте гроші банківською карткою, ваша інформація передається у шифрованому вигляді. Щоб правильно обрати алгоритм шифрування, потрібно збалансувати ризики небажаного витоку інформації та витрати на ускладнення алгоритму.

Археологи, досліджуючи залишки минулих цивілізацій, проводять статистичний аналіз ДНК знайдених решток біологічного матеріалу і за ним дізнаються про особливості розвитку людства у давні часи. Філологи аналізують розвиток поезії, підраховуючи, як часто у віршах зустрічаються ті чи інші ритмічні особливості. Психологи для дослідження індивідуальних особливостей психіки використовують рольові ґратки, що дозволяють статистичними методами аналізувати психіку окремої людини. Методи статистики дозволяють нам краще зрозуміти не лише навколишній світ, а й самих себе.

2. Теорія ймовірностей та статистика

Статистика має справу з випадковими явищами, у яких можна помітити певні закономірності. Для виявлення та опису закономірностей у випадковості статистики часто використовують математичну науку, що зветься теорією ймовірностей. Це – молода наука. Якщо геометрія веде свій родовід від давнього Єгипту і Месопотамії, то початки теорії ймовірностей були закладені у роботах європейських вчених 17–18-го століть, зокрема П. Ферма, Б. Паскаля. Г. Гюйгенса, Я. Бернуллі. А. Муавра. А власне математична статистика склалась іще пізніше – у роботах К. Пірсона, Р. Фішера та ін. (рис. 1), наприкінці дев’ятнадцятого, на початку двадцятого століття. Чудовий нарис з історії розвитку теорії ймовірностей можна знайти у книзі (Гнедєнко, 2010)

Рис. 1. Карл Пірсон (1857–1936) та Рональд Фішер (1890–1962)

Чому так вийшло? Можливо це пояснюється тим, що у людей немає інтуїтивного відчуття ймовірності випадкових подій. Будь-хто відчує різницю між кругом і квадратом, просто глянувши на них. Для цього не треба вчити геометрію в університеті. А от відрізнити на око за числовими даними нормальний розподіл від розподілу Лапласа не зможе і кваліфікований статистик – тут потрібні спеціальні засоби перевірки. Геометрія інтуїтивна, статистика – ні. (Про це цікаво написано у книзі відомого американського психолога Даніела Канемана (Канеман, 2017), а також у книзі Філіпа Тетлока   (Тетлок, Ґарднер, 2018). Те, що статистика працює, підтверджується  практикою її застосування. Але, коли статистичні міркування розглядають лише з погляду «здорового глузду», вони часто виглядають дивно і парадоксально. Вміння правильно застосовувати статистику та ймовірності не приходить саме собою – цьому треба вчитись. І знати для цього потрібно не лише власне статистичні методи, а й багато розділів сучасної математики – математичний і функціональний аналіз, дискретну математику, теорію ймовірностей.

3. Процеси вибіркового контролю якості

В Англії, у спеціальній каплиці Вестмінстерського абатства, знаходиться опечатана скринька, на ім’я Пікс (англійською Pyx). Коли на королівському монетному дворі у Лондоні карбують монети, то з кожних десяти фунтів срібла одну монетку відбирають і кидають у прорізь у верхній кришці Пікса (рис. 2).

Рис. 2. Cкринька Pyx

Раз на рік відбувається Суд над Піксом. У присутності судді королівського суду і присяжних Пікс відкривають, всі монетки, які є в ньому, зважують разом. Перший раз – у повітрі, вдруге – занурені у воду. В результаті можна дізнатись загальну вагу всіх монеток, а за законом Архімеда – вирахувати їхню середню густину. За густиною можна визначити, яким є відсоток срібла у сплаві. А отже, і зрозуміти, скільки срібла пішло на виготовлення цих монет. Далі треба подивитись, яку частку від всіх виготовлених монет становлять ті, що потрапили до Пікса, і ми дізнаємось, скільки срібла є всіх у монетах, виготовлених Лондонським монетним двором за минулий рік. Тепер досить порівняти це з кількістю срібла, що було взято на карбування з королівської скарбниці, і різниця покаже, скільки загубилось по дорозі. (Аналогічна процедура і для золотих монеток.) Якщо загубилось занадто багато, то голова королівського монетного двору має покрити різницю, а може й покласти свою голову на плаху (Stigler, 1977).

Така процедура діє в Англії з тринадцятого століття (Тут описано її порядок до 1870 року. Нині Пікс знаходиться вже не в каплиці, а у приміщенні Почесної гільдії ювелірів у Лондоні. На суді над Піксом монети вже не зважують, а лише перевіряють якість їх карбування). З відомих формально встановлених процедур вибіркового контролю якості  продукції це, мабуть, найдавніша в світі. Нині схожі статистичні процедури використовують дуже широко не лише при карбуванні монет, а й для перевірки якості харчових продуктів, ліків, тощо. При цьому виникає багато запитань щодо надійності   результатів перевірок. Вага і вміст срібла у монетах коливаються: десь трохи більше, десь менше. Чи відображають монети, що потрапили до Пікса, розподіл срібла у тих монетах, які пішли у обіг? А навіть якщо відображають, то все ж, через випадкові коливання, наша оцінка кількості срібла у всіх монетах ніколи не буде абсолютно точною. Як далеко ця оцінка може відхилитися від справжнього значення? Відповідь на це можна дати лише на основі строгих міркувань математичної теорії ймовірностей.

4. Науковий аспект статистики

Уявіть собі певну динамічну систему, що змінюється з часом, це може бути як фізичний процес, так і наприклад фінансовий ринок. Як описати цю систему математично, дослідити її властивості і спрогнозувати її поведінку в майбутньому? З тих чи інших міркувань, обирається опис, який включає як регулярну складову, так званий тренд, так і хаотичну – шум, який описується тим чи іншим випадковим процесом. Добре, але тепер цю модель потрібно калібрувати, тобто знайти відповідні числові значення параметрів, які найкраще наближають цю модель до реального процесу. Тут на сцену і виходить статистика – на основі реальних даних, за допомогою статистичних методів параметри моделі оцінюються. Непогано ще й довести властивості оцінок, цим і займаються спеціалісти як з теоретичної, так і прикладної статистики, біотехнологій, фізики, демографії, фінансів та економіки. Один з гарних методів прикладного статистичного аналізу – це так званий метод Монте-Карло. Він не має відношення до грального бізнесу, його придумав видатний математик Станіслав Улям (до речі, він родом зі Львова, рис. 3), який працював у Лос-Аламосі, у Мангеттенському проєкті зі створення атомної бомби, і в ході розрахунків зрозумів, що неможливо точно підбити математичні підсумки розрахунків руху мільйонів елементарних частинок, потрібен статистичний підхід. Він і дав назву цьому методу.

Рис. 3. Станіслав Улям (1909-1984)

4. Статистика в сучасному світі

У сучасному світі майже всі числові розрахунки люди переклали на крем’яні мізки комп’ютерів (Майборода, 2019). Це дає можливість обробляти гігантські обсяги статистичної інформації, про які раніше не можна було й мріяти. В результаті вдається виявляти та використовувати такі закономірності, які ми ніколи не побачили б без допомоги комп’ютера. На цьому побудовані алгоритми статистичного машинного навчання, коли на вибіркових даних комп’ютер тренують розпізнавати усну мову, зорові образи, керувати автомобілем, відповідати на запитання… Робота дресирувальника роботів може стати найбільш перспективною професією нинішнього століття. Правильний підбір даних для навчання комп’ютера і контроль результатів цього навчання потребують знання законів теорії ймовірностей і технологій статистичного аналізу.

5. Різниця між теорією ймовірностей та статистикою

Отже, маємо два напрямки роботи з випадковими даними – теорія ймовірностей та математична статистика. Що в них спільного? Обидві науки націлені на пошук закономірностей у випадковості і використання цих закономірностей для покращення життя людей. А що різного?

Ці дві науки передбачають принципово різний підхід до моделювання процесів та явищ нашого світу. Ймовірнісний підхід передбачає наявність певних попередніх знань, щодо досліджуваного процесу. Скажімо, ми знаємо, у якому напрямку полетить снаряд, випущений із гармати, але не точне місце, куди він впаде. Таким чином, ми моделюємо цю задачу за допомогою певного ймовірнісного розподілу, який поєднує наше знання із нашим незнанням. З філософської точки зору це відповідає платонічному підходу до вивчення світу – споглядання, та спроби осягнути світ за допомогою розуму.

Статистичний підхід полягає у тому щоб робити висновки на основі спостережень (та можливо певних додаткових імовірнісних припущень). Цей підхід передбачає розробку певних алгоритмів, які даватимуть відповідь на питання, що цікавить дослідника на основі даних. Варто зазначити, що розробка таких алгоритмів та доведення їхніх властивостей – це часто дуже нетривіальні математичні задачі, тому статистику за правом називають «математичною». Таким чином, статистичний підхід відповідає емпіричному способу дослідження (від імені грецького філософа-скептика  Секста Емпірика) – тобто вивчення світу на основі спостережень та чуттєвого досвіду.

Отже можемо підсумувати:

  • Теорія ймовірностей – це математична наука, в ній ви доводите теореми, виходячи з загальних принципів – аксіом. Ці теореми можуть бути складними або легко зрозумілими, корисними для практиків або цікавими самі по собі. Найголовніше, що вони є коректно доведеними і дають нам впевненість у правильності тих алгоритмів, які на них спираються.
  • Статистика — це теж математична наука, в ній ви робите висновки на основі експерименту або спостережуваних даних. Такий підхід передбачає не лише механічне перетворення даних але і їх інтерпретацію, що часто вимагає окрім математичних навиків, ще і навиків роботи з людьми. Статистик має не просто побачити закономірності у даних, а й пояснити своїм замовникам, що він побачив, чому це важливо, і як це можна уточнити, а потім – і розумно використати. Статистик має розуміти теореми, працювати із комп’ютером, але найголовніше – вміти спілкуватись із людьми. Як виглядає така робота, та які при цьому виникають підводні камені, чудово описано у книзі Девіда Шпігельхальтера   «Мистецтво статистики» (Шпігельхальтер, 2023).

6. Яке відношення має статистика до штучного інтелекту (AI – artificial intelligence)?

На це питання можна почути найрізноманітніші відповіді, часто прямо протилежні. Спробуємо розібратися.

Для початку з’ясуємо, що собою являє штучний інтелект у тому розумінні, яке існує сьогодні. Це не настільки просте питання, як здається на перший погляд. Запитайте у пересічної людини, що таке штучний інтелект, і, можливо, у відповідь почуєте щось про ChatGPT або Gemini, про чат-боти чи навіть мовленнєві моделі. Однак отримати чітку відповідь на питання, що можна вважати штучним інтелектом, а що ні, буде складно.

7. Історія розвитку штучного інтелекту

Поняття «штучний інтелект» зародилося в першій половині XX століття. У тогочасному науковому середовищі панували піднесені настрої, пов’язані з рядом передових фундаментальних відкриттів, що перевернули наше уявлення про фізику. Паралельно активно розвивалася сучасна математика – адже «нова фізика» потребувала «нової математики». І разом із цим з’явилася нова наука – кібернетика.

Тогочасну фізику, математику та кібернетику розвивали часто одні й ті самі люди, наприклад Н. Вінер, А. Тюрінг, Дж. фон Нейман та інші (рис. 4). Саме в той час з’явилася думка, що цивілізація розвинулася настільки, що ми можемо замахнутися на досі немислиме – створити мислячу машину!

Рис. 4. Норберт Вінер (1894–1964), Алан Тюрінг (1912–1954) та Джон фон Нейман (1903–1957)

Визначення «мислячої машини» дав видатний британський учений Алан Тюрінг. Він сказав, що машина може вважатися мислячою, якщо вона здатна спілкуватися з іншою людиною так, що людина не зможе визначити, чи вона розмовляє з машиною чи з іншою людиною. Подібний уявний експеримент отримав назву «тест Тюрінга».

Таким чином, поняття «мислення», «розуму» чи «інтелекту» стали нерозривно пов’язані зі здатністю машин розуміти та генерувати природну мову.

8. Практичне значення штучного інтелекту

З практичної точки зору така постановка питання виявилася надзвичайно важливою. Наприклад, у часи холодної війни уряди, зокрема США, виділяли великі кошти на проєкти, пов’язані з машинним перекладом (що підпадає під тюрінгівське визначення «розумної машини»).

Окрім машинного перекладу, існував ще ряд важливих прикладних задач, пов’язаних з автоматичним аналізом або генерацією текстів.

9. Розвиток штучного інтелекту: від математичної логіки до машинного навчання

В основі створення «розумних машин» першого покоління лежали такі науки, як математична логіка та дискретна математика, а джерелом натхнення для перших розробників стали нещодавні (на той час) відкриття у галузі нейронауки, зокрема дослідження будови та функціональності людського мозку. Так, перші моделі штучного інтелекту намагалися відтворити роботу мозку, яка, як тоді вважалося, полягала у передачі сигналів між великою кількістю нейронів. Кожен нейрон мав так званий поріг збудження, тобто «вирішував», чи передавати сигнал далі, чи ні.

Таким чином, як бачимо, ніякої статистики в початкових моделях штучного інтелекту не було. Однак ця задача виявилася складнішою, ніж вважали провідні вчені того часу. Методи математичної логіки виявилися недосконалими, що яскраво продемонструвала знаменита теорема Геделя про неповноту. Інші підходи також не спрацювали: уявлення про мозок як просту мережу нейронів виявилося занадто спрощеним і примітивним, а будь-які спроби формалізувати природні мови призводили до задач, які неможливо було розв’язати математично. Таким чином, десь у 70–80-х роках ці підходи остаточно втратили актуальність, як і спроби створювати «розумні машини».

10. Статистичні методи та машинне навчання

У той же час паралельно розвивалися прикладні науки, такі як статистика, методи чисельної оптимізації, теорія випадкових процесів, варіаційне числення та інші. Ці науки мали на меті розв’язання конкретних задач, наприклад:

  • розпізнавання емоційного забарвлення тексту,
  • генерація рекомендацій користувачам на основі відгуків,
  • розпізнавання зображень (скажімо, рукописних цифр на конвертах).

Для всіх цих задач використовувалися методи статистики, а саме – обробка великої кількості даних, для яких були відомі «правильні відповіді», з метою створення алгоритмів, здатних прогнозувати результати на нових даних. До таких алгоритмів належать лінійна та логістична регресії, метод k-найближчих сусідів, опорні машини векторів, метод матричної факторизації, кластерний аналіз та інші.

Суть подібних алгоритмів зводилася до того, що «рішення» приймалося на основі деякої цільової функції. Наприклад, людина класифікувалася як хвора, якщо певна функція від медичних показників (тиску, рівня лейкоцитів, температури тощо) набувала великих значень. Проте явний вигляд такої функції залежав від наявних даних – так званих тренувальних даних. Як правило, використовувалися параметричні моделі – тобто функції відомі з точністю до деякого числового чи векторного параметра. Такі параметри оцінювалися статистичними методами. Цей процес і є «навчанням» або «тренуванням».

Дуже часто оцінка параметрів зводилася до розв’язання задачі оптимізації – пошуку мінімуму чи максимуму деякої функції багатьох змінних, що є типовим підходом у математичній статистиці. З часом такі алгоритми отримали назву «алгоритмів машинного навчання».

Цей підхід був продуктивним і дозволяв успішно вирішувати широкий клас прикладних задач. Однак про мислячі машини мова не йшла.

11. Розвиток обчислювальних можливостей та революція в ШІ

Все змінилося, коли компанія Nvidia опублікувала бібліотеку CUDA для роботи з графічними чіпами (відеокартами) власного виробництва. Згодом виявилося, що ці чіпи чудово підходять для множення великих матриць – ключової операції, необхідної для тренування алгоритмів машинного навчання.

Найбільший вплив ці нові обчислювальні можливості справили на розвиток нейронних мереж. Варто зазначити, що нейронні мережі протягом тривалого часу не були «головними» алгоритмами, що використовувалися на практиці, зокрема через складнощі з їх тренуванням. Однак стало зрозуміло, що ці алгоритми мають величезний потенціал до узагальнення даних, але водночас потребують значних обчислювальних потужностей. Коли такі потужності стали доступними, нейронні мережі швидко поширилися в тих галузях, де раніше домінували інші алгоритми.

Зокрема, так звані рекурентні нейронні мережі демонстрували чудові результати в задачах обробки тексту, таких як:

  • визначення емоційного забарвлення,
  • пошук сутностей у реченнях,
  • прості переклади з однієї мови на іншу.

Проте, незважаючи на успіхи, про «розумні машини» все ще не йшлося.

12. Поява генеративного штучного інтелекту

Справжня революція відбулася, коли компанія OpenAI випустила свою флагманську модель – ChatGPT (GPT-3.5). Цей алгоритм був реалізований у вигляді чат-бота, який демонстрував вражаючі можливості у генерації тексту, пошуку інформації та звичайному спілкуванні.

Однак що собою являє ця модель? Хоча точної інформації з цього приводу немає, прийнято вважати, що ChatGPT (принаймні версії 3.5) та аналогічні моделі ґрунтуються на алгоритмах, які називаються великими мовними моделями (Large Language Models, LLM). Це складні нейронні мережі, що використовують так звану архітектуру «трансформер». Вони тренуються на величезних масивах даних (фактично на всій оцифрованій інформації, яка лише доступна).

Під час навчання такий алгоритм отримує на вхід речення із деякими пропущеними (замаскованими) словами і вчиться передбачати ці пропущені слова. Це відбувається шляхом обчислення ймовірностей того, що наступне слово в реченні буде тим чи іншим словом зі словника. Таким чином формується розподіл умовних ймовірностей для всього словника відповідної мови. Ці ймовірності обчислюються статистичними методами на основі великої кількості тренувальних речень.

13. Статистичний підхід у сучасних нейромережах

Як бачимо, сучасні алгоритми штучного інтелекту – це складні нейронні мережі, які використовують статистичні методи для генерації ймовірнісних розподілів. Такі алгоритми називаються «генеративними» і вже давно вивчаються в межах статистики. Зокрема, існує цілий розділ статистики, присвячений задачам оцінки щільностей ймовірнісних розподілів на основі спостережуваних даних. Фактично, саме це й робить штучний інтелект.

Проте в класичній статистиці не використовували мовні моделі – це відносно новий напрям у розвитку алгоритмів. Водночас безперечно те, що сучасні моделі штучного інтелекту побудовані на основі статистичних та ймовірнісних методів, а також із застосуванням сучасних методів оптимізації, теорії алгоритмів тощо.

Дискусія та висновки

Підсумовуючи, можна зробити висновок, що методи штучного інтелекту пройшли довгий шлях, еволюціонувавши від моделей, заснованих на математичній логіці, до сучасних статистичних та ймовірнісних моделей.

Тому, щоб стати фахівцем у галузі штучного інтелекту, необхідно мати ґрунтовну підготовку зі статистики, теорії ймовірностей та методів оптимізації.

Ми закликаємо молодих людей, які мають хист до точних наук і математики, ставати спеціалістами у сфері теорії ймовірностей та математичної статистики й будувати кар’єру в галузі штучного інтелекту, ставши частиною найпрогресивнішої (і дуже високооплачуваної) спільноти!

Подяка

Автори висловлюють щиру подяку професору Михайлу Моклячуку за ідею створення статті та цінні коментарі, надані під час її написання.

Література

Гнєденко, Б. В. (2010). Курс теорії ймовірностей: підручник. К.: ВПЦ “Київський університет”.

Канеман, Д. (2017). Мислення швидке й повільне. Наш Формат.

Майборода, Р. Є. (2019). Комп’ютерна статистика. К.: ВПЦ «Київський університет».

Тетлок, Ф., & Ґарднер, Д. (2018). Суперпрогнозування. Мистецтво та наука передбачення. Наш Формат.

Шпігельхальтер, Д. (2023). Мистецтво статистики. Прийняття аргументованих рішень на основі даних. Наш Формат.

Stephen M. Stigler (1977). Eight Centuries of Sampling Inspection: The Trial of the Pyx. // Journal of the American Statistical Association. Vol. 72, No. 359, pp. 493-500.

Автори: Віталій Голомозий, Ростислав Майборода, Юлія Мішура, Ростислав Ямненко

Статтю опубліковано в журналі У світі математики, №1 (2025):