Data mining - извличане на данни

07 Февруари 2017

Най-общо, извличането на данни - “data mining” представлява анализ на данни от различна гледна точка и обобщаването им в полезна информация, която може се използва за увеличаване на продажбите и намаляването на разходите. Софтуерът за извличане на данни е един от инструментите за анализиране на данни. Той позволява информацията на бъде анализирана, категоризирана и да се обобщят откритите взаимовръзки.  Дейта майнингът е процес на откриване на взаимовръзки или модели сред десетки полета в големи релационни бази от данни.

Въпреки, че извличането на данни е сравнително нов термин, технологията не е. Компанията използват мощни компютри, за да пресяват огромни обеми данни от супермаркети и да анализират доклади от пазарни проучвания от години. Иновациите в мощността на компютърната обработка, в съхранението на информация на диск и в статистическия софтуер значително увеличават точността на анализа, като в същото време намаляват разходите.

Например, една американска хранителна верига използва софтуер за извличане на данни, за да анализира  модели за пазаруване в техните супермаркети. Те откриват, че когато мъжете купуват памперси в четвъртък  и събота, те също често купуват и бира. По-подробнен анализ показва, че същите купувачи обикновено правят седмичното си пазаруване в събота. В четвъртък обаче, те купуват само няколко продукта. Продавачът прави извода, че те купуват бира, за да се запасят за уикенда. Веригата супермаркети може да използва тази нова информация по различно начини, за да увеличи проходите, като например продава бира и памперси на пълна цена без отстъпка в четвъртъците.

Данни - Данните са факти, числа или текст, които могат да бъдат обработвани от компютър. Днес организациите натрупват огромно количество данни в различни формати и бази от данни. Това включва - оперативни или транзакционни данни като продажби, разходи, складова наличност, заплати и счетоводство; неоперативни данни като продажби по браншове, прогнози и макроикономически данни; мета данни - данни за самите данни като логически дизайн  на базата от данни и речникови дефиниции на данни.

Информация - Моделите, асоциациите и взаимовръзките между данните може да предоставят информация. Например, анализ на данните за продажби на дребно на определен търговски обект показва кои продукти се продават и кога.

Знание - Информацията може да се превръща в знание за минали модели и бъдещи тенденции. Например може да се анализира обобщена информация за продажби на супермаркет, за да се добие знание за поведението на купувачите и да се определи за кои продукти си заслужава да се полагат усилия за промотиране.

Склад за данни - Огромният напредък в процесорната мощ, снемането,  предаването и съхранението на данни позволяват на организациите да интегрират различни бази от данни в складове за данни. Сладът за данни представлява процес на централизирано управление и извличане на данни. Сладът за данни, както и извличането на данни - дейта майнинг, са сравнително нови термини, макар и концепцията да съществува от години. Сладът за данни представлява идеална визия за поддържане на централно хранилице от всичките данни на организацията. Централизирането на информация е необходимо, за да се максимизира потребителския достъп и анализ. Огромният напредък в технологиите превръщат тази визия в реалност за много компании. Големият напредък в софтуерите за анализ на данни позволяват на потребителите свободен достъп до данни. Софтуерът за анализ на данни е инструментът, който подпомага извличането на данни.

За какво служи извличането на данни?

В днешно време извличането на данни - дейта майнинг се използва от компании със силна ориентация към потребителите - търговски, финансови, комуникационни и маркетингови организации. То позволява на компаниите да определят отношенията между вътрешни фактори като цена, продуктово позициониране, умения на персонала и външни фактори като икономически показатели, конкуренция и демография на клиeнтите. Също така им позволява да проследят промени и влияния върху продажбите, удовлетвореността на клиентите и корпоративните печалби. И на последно място им дава възможност за “разбивка” на обобщената информация, за да видят подробно данните по операции.

С извличането на данни продавачът може да използва записите за покупки, за да изпрати таргетирани промоции, базирани на индивидуалната история на покупки на купувача. Като извлича информация от гаранционни карти или рекламации, продавачът може да създаде продукти и промоции, които да се харесат на определени сегменти от клиенти. Например, компания за даване на CD-та с филми под наем извлича данни от базата от данни с история на взимане под наем, за да препоръча филми на индивидуални клиенти. Банка може да предложи продукти на държателите на кредитни карти в зависимост от техните месечни разходи.

Американската верига супермаркети WalMart e пионер в извличането на данни с цел подобряване на връзките с доставчиците. WalMart снема данни за продажби от около 2 900 магазина в 6 страни и постоянно предава данните към своята огромен 7,5 терабитов склад за данни, наречен Терадата. WalMart дава достъп  на повече от 3500 доставчици до информация за продажба на техните продукти и им позволява да правят анализ на данните. Доставчиците използват тази информация, за да идентифицират модели на пазаруване на техните продукти в магазините на Walmart. Те използват тази информация, за да управляват складовата наличност в конкретни магазини и да откриват нови търговски възможности.