Какво е “data mining” и приложението му в бизнес софтуер

14 Ноември 2016

Развитие на компютърните технологии направи възможно лесното събиране и съхраняване на информация. Това, че разполагаме с големи бази с информация, не гарантира успехите в бизнеса. Тук се появява необходимостта събираната информация да бъде адекватно обработвана и анализирана, за да могат да бъдат взети правилните бизнес решения. Целият този процес на обработка и анализ на информацията може да се обобщи като процес на извличане на знания от данни (Data mining).

Най-общо това e процес на анализиране на данни и извличането от тях на нова полезна информация чрез разкриване на дълбоките взаимоотношения между едни или други величини, имащи отношение към бизнеса.

 

Възникването и развитието на областта се явява естествено следствие от нарасналата употреба на бази данни и приложенията им в бизнеса. Традиционните средства за заявки към системата за управление на базата данни се използват за описание и извличане на точни масиви от данни от базата. В тези случаи потребителят е формулирал някаква хипотеза, която проверява посредством върнатите от системата данни. За разлика от по-общото извличане на информация (information retrieval, data retrieval), потребителят използва извличането на знания от данни, за да генерира хипотези.

Data mining представлява процес на анализ на съхраняваните бази данни в посока на извличане нова полезна информация чрез разкриване на дълбоките и скрити взаимоотношения между на пръв поглед неизвестни и несвързани една с друга величини. Важна негова особеност е че той осигурява възможност за обработка на многомерни масиви и извличане на многомерни зависимости като същевременно автоматично разкрива изключителните ситуации - данни и случаи не включващи се в общите закономерности. Data mining анализа автоматически прави хипотези за разкриване на зависимости между различни компоненти и параметри. Работата на аналитиците, които се занимават с тези системи се свежда до проверка и доуточняване на получените хипотези. Появата на Data mining е свързана с необходимостта от усъвършенстване на техниките за запис и съхранение на данните, които обобщават труда на хиляди хора в колосални потоци от информация в най-различни области. Като с времето е станало ясно, че без продуктивна обработка на данните се правят никому ненужни извадки.
Нуждата в развитието на съвременните технологии от такава преработка на данните може да се обобщи в следното:

- Неограниченият обем на данните. - Голямата разнообразие и разнородност на данните (количествени, качествени и текстови). - Необходимост от конкретни и разбираеми резултати. - Инструменти за обработка на данните предоставящи възможност за лесно използване.

В основата на съвременните технологии Data mining стои концепцията за шаблони или модели, отразяващи фрагментираните многоаспектни взаимоотношения между данните. Тези шаблони представят сбор от закономерности, подбор на данните по дадени свойства, които са подходящо представени във форми лесно достъпни за потребителите. За създаването на тези шаблони се прилагат методи, които не ограничават основното предположение в структурата модела и вида на разпределените значения на анализираният показател.

Процесът на извличане на знания от данни се състои от шест основни етапа:

  • Разбиране на проблемната област (Business understanding) — това е началният етап, който се фокусира върху дефинирането на целите на изследванията и съответните изисквания от гледната точка на потребителя. След завършването на етапа тези знания трябва да бъдат превърнати в дефиниции на задачи за сондиране на данни и да се състави предварителен план как тези цели могат да бъдат постигнати.

 
  • Разбиране на данните (Data understanding) — започва с първоначално събиране на данни и продължава с дейности, целящи задълбочаване на знанията на изследователя за естеството на данните. На този етап е необходимо да бъдат идентифицирани проблеми, свързани с качеството на данните, да бъде получено първоначално мнение за характера на данните, да бъдат намерени интересните подмножества на данните, за да бъдат формирани първоначални хипотези за скритата в данните информация.

 
  • Подготовката на данните (Data preparation) — покрива всички дейности по създаване от първоначални „сурови“ данни на крайното множество от данни (т.е. данни, които ще бъдат използвани от моделиращите средства). Етапът на подготовката на данни често се налага да бъде изпълняван многократно и по различно време. Задачите по подготовката на данни включват в себе си избор на таблиците с данни, техни атрибути и отделни записи, както и трансформация и изчистване на данни.

 
  • Моделиране (Modeling) — този етап се състои от избор и прилагане на различни техники за моделиране, целящи извличане на закономерности от данните. Параметрите на моделите се калибрират до свои оптимални стойности. Тъй като някои модели имат свои специфични изисквания към форм̀ата на данните, на този етап често се налага връщането към етапа за подготовката на данни.

 
  • Оценка на модела (Model evaluation) — етапът се състои във внимателно преглеждане на всички стъпки, изпълнени при създаването на конкретния модел, за да се осигури, че те постигат поставените цели. В края на този етап се приема решение за използване на получените в процеса на сондиране резултати.

 
  • Експлоатация на модела (Deployment) — свързана е с необходимостта от наблюдение и стратегия за експлоатация. На този етап следва да се определи дали и кога да се поднови процедурата по извличане на знания от данни и при какви условия.