Verschil tussen data mining en OLAP

Anonim

Data Mining versus OLAP

Zowel data mining als OLAP zijn twee van de gemeenschappelijke Business Intelligence (BI) technologieën. Business intelligence verwijst naar computer-gebaseerde methoden voor het identificeren en extraheren van nuttige informatie uit bedrijfsgegevens. Data mining is het gebied van de computerwetenschappen die betrekking heeft op het extraheren van interessante patronen uit grote sets van gegevens. Het combineert veel methodes uit kunstmatige intelligentie, statistieken en database management. OLAP (online analytische verwerking) zoals de naam suggereert is een samenvatting van manieren om multidimensionale databases te vragen.

Data mining is ook bekend als Knowledge Discovery in data (KDD). Zoals hierboven vermeld, is het een gebied van informatica, die zich bezighoudt met de winning van eerder onbekende en interessante informatie uit rauwe data. Door de exponentiële groei van de gegevens, vooral op gebieden zoals zaken, is data mining een zeer belangrijk instrument geworden om deze grote rijkdom van gegevens in te zetten in zakelijke intelligentie, omdat handmatige winning van patronen in de afgelopen decennia blijkbaar onmogelijk is geworden. Bijvoorbeeld, is het momenteel gebruikt voor diverse applicaties zoals sociale netwerkanalyse, fraudeherkenning en marketing. Data mining heeft meestal betrekking op de volgende vier taken: clustering, classificatie, regressie en associatie. Clustering identificeert soortgelijke groepen uit ongestructureerde data. Classificatie is het leren van regels die kunnen worden toegepast op nieuwe gegevens en zullen typisch volgende stappen bevatten: preprocessing van data, modellering ontwerpen, leren / functie selectie en evaluatie / validatie. Regressie vindt functies met minimale fout op modelgegevens. En associatie zoekt verhoudingen tussen variabelen. Data mining wordt meestal gebruikt om vragen te beantwoorden, zoals wat de belangrijkste producten zijn die het volgende jaar in Wal-Mart kunnen helpen bij het verkrijgen van hoge winst.

OLAP is een klasse systemen, die antwoorden bieden op multidimensionale query's. Typisch wordt OLAP gebruikt voor marketing, budgettering, prognoses en dergelijke toepassingen. Het spreekt voor zich dat de databases die voor OLAP worden gebruikt, geconfigureerd zijn voor complexe en ad hoc-query's met een snelle prestatie in het achterhoofd. Typisch wordt een matrix gebruikt om de output van een OLAP weer te geven. De rijen en kolommen worden gevormd door de afmetingen van de query. Ze gebruiken vaak aggregatiemethoden op meerdere tabellen om samenvattingen te verkrijgen. Het kan bijvoorbeeld gebruikt worden om te weten te komen over de verkoop van dit jaar in Wal-Mart ten opzichte van vorig jaar? Wat is de voorspelling van de omzet in het volgende kwartaal? Wat kan er over de trend worden gezegd door te kijken naar de procentuele verandering?

Hoewel het duidelijk is dat Data mining en OLAP vergelijkbaar zijn omdat ze op data werken om intelligentie te krijgen, komt het belangrijkste verschil uit hoe ze op data werken.OLAP-tools bieden multidimensionale data-analyse en zij geven samenvattingen van de gegevens maar tegenover elkaar concentreert data mining op verhoudingen, patronen en invloeden in de set data. Dat is een OLAP-deal met aggregatie, die op de werking van data via "toevoeging" komt, maar data mining komt overeen met "divisie". Ander opmerkelijk verschil is dat OLAP, terwijl data mining gereedschap modelgegevens en retourneerbare regels regelt, in real time vergelijkings- en contrasttechnieken zal uitvoeren langs de bedrijfsdimensie.