Нуждата в развитието на съвременните технологии от такава преработка на данните може да се обобщи в следното:
- Неограниченият обем на данните. - Голямата разнообразие и разнородност на данните (количествени, качествени и текстови). - Необходимост от конкретни и разбираеми резултати. - Инструменти за обработка на данните предоставящи възможност за лесно използване.
В основата на съвременните технологии Data mining стои концепцията за шаблони или модели, отразяващи фрагментираните многоаспектни взаимоотношения между данните. Тези шаблони представят сбор от закономерности, подбор на данните по дадени свойства, които са подходящо представени във форми лесно достъпни за потребителите. За създаването на тези шаблони се прилагат методи, които не ограничават основното предположение в структурата модела и вида на разпределените значения на анализираният показател.
Процесът на извличане на знания от данни се състои от шест основни етапа:
Разбиране на проблемната област (Business understanding) — това е началният етап, който се фокусира върху дефинирането на целите на изследванията и съответните изисквания от гледната точка на потребителя. След завършването на етапа тези знания трябва да бъдат превърнати в дефиниции на задачи за сондиране на данни и да се състави предварителен план как тези цели могат да бъдат постигнати.
Разбиране на данните (Data understanding) — започва с първоначално събиране на данни и продължава с дейности, целящи задълбочаване на знанията на изследователя за естеството на данните. На този етап е необходимо да бъдат идентифицирани проблеми, свързани с качеството на данните, да бъде получено първоначално мнение за характера на данните, да бъдат намерени интересните подмножества на данните, за да бъдат формирани първоначални хипотези за скритата в данните информация.
Подготовката на данните (Data preparation) — покрива всички дейности по създаване от първоначални „сурови“ данни на крайното множество от данни (т.е. данни, които ще бъдат използвани от моделиращите средства). Етапът на подготовката на данни често се налага да бъде изпълняван многократно и по различно време. Задачите по подготовката на данни включват в себе си избор на таблиците с данни, техни атрибути и отделни записи, както и трансформация и изчистване на данни.
Моделиране (Modeling) — този етап се състои от избор и прилагане на различни техники за моделиране, целящи извличане на закономерности от данните. Параметрите на моделите се калибрират до свои оптимални стойности. Тъй като някои модели имат свои специфични изисквания към форм̀ата на данните, на този етап често се налага връщането към етапа за подготовката на данни.
Оценка на модела (Model evaluation) — етапът се състои във внимателно преглеждане на всички стъпки, изпълнени при създаването на конкретния модел, за да се осигури, че те постигат поставените цели. В края на този етап се приема решение за използване на получените в процеса на сондиране резултати.
Експлоатация на модела (Deployment) — свързана е с необходимостта от наблюдение и стратегия за експлоатация. На този етап следва да се определи дали и кога да се поднови процедурата по извличане на знания от данни и при какви условия.