Как работи Data Mining?

07 Февруари 2017

Софтуерът за извличане на данни анализира отношения и повтарящи се модели в складирани данни за транзакции, базирани на потребителски заявки от отворен вид. Съществуват няколко вида аналитичен софтуер - статистически, за машинно обучение и невронни мрежи. По принцип се търсят някоя от четирите вида взаимовръзки:

Класове - Складираните данни се използват, за да се локализира информация в предварително определени групи. Например, верига ресторанти може да използва извличане на данни за потребителски поръчки, за да определи кога клиентите посещават и какво обикновено поръчват. Тази информация може да се използва, за да се увеличи посещаемостта на ресторантите, като се предлагат специалитети на деня.
Клъстер - Данните са групирани по логични взаимоотшения или потребителски предпочитания. Например, данни могат да бъдат извлечени, за да се идентифицират пазарни сегменти или сходно потребителско поведение.
Асоциации - Може да се извличат данни, за да се идентифицират асоциации - примерът с връзката между покупката на бира и памперси е пример за асоциативно извличане на данни.
Последователни модели - Извличат се данни, за да се предвидят модели на поведение и тенденции. Например, търговец на спортна екипировка може да предвиди вероятността за покупка на раница въз основа на покупката на спален чувал и планинарски обувки.

Извличането на данни се състои от пет основни елемента:

Извличане, трансформиране и качване на данни за транзакции на системата за складиране на данни;
Съхраняване и управление на данните в многоизмерната система с база от данни;
Предоставяне на достъп до данните на бизнес аналитици и професионалисти по информационни технологии;
Анализиране на данните с приложен софтуер;
Представяне на данните в полезен формат, като графика или таблица.

Има различни нива на анализ:

Изкуствени невронни мрежи - нелинеарни модели за предскаване, които учат чрез обучение и наподобяват по структура биологични нервни мрежи;
Генетични алгоритми - техники за оптимизация, които използват процеси като генетични комбинации, мутации и естествена селекция в дизайна, базирани върху концепции за естествена еволюция;
Дървета на решенията - структури с формата на дървета, които представляват групи от решения. Тези решения генерират правила за класификация на набор от данни. Определени методи с дървета на решенията включват класификационни и регресионни дървета (CART) и чи квадрат автоматично интеракционно засичане (CHAID). Тези решения генерират правила за класификация на набор от данни. Те предоставят правила, които може да се прилагат за нов, некласифициран набор от данни, за да се предвиди кои записи биха дали резултат. CART сегментира набор от данни, като създава двулентови разделения, докато CHAID сегментира като използва тестове с чи квадрат, за да създава многолентови разделения. CART опикновено се нуждае от по-малко подготовка на информация от CHAID.
Метод на най-близкия съсед - техника, която класифицира всеки запис в набор от данни, базиран на комбинацията от класове от к запис(и), най-подобни на него в исторически набор от данни (където к 1). Понякога се нарича техника на най-близкия съсед на к.
Индукция на правило - извличането на полезни причинноследствени правила от данни, базирани на статистическа значимост;
Визуализация на данни - визуалната интерпретация на сложни взаимоотношения в многомерни данни. Използват се графични инструменти, за да се илюстрират отношения между данни.