Verschil tussen KDD en Data mining

Anonim

KDD versus Data mining

KDD (Knowledge Discovery in Databases) bevat de hulpmiddelen en theorieën om mensen te helpen bij het verzamelen van nuttige en voorheen onbekende informatie (dwz kennis) uit grote verzamelingen van gedigitaliseerde data. KDD bestaat uit meerdere stappen, en Data Mining is een van hen. Data Mining is het toepassen van een specifiek algoritme om patronen uit data te extraheren. Niettemin worden KDD en Data Mining verwisselbaar gebruikt.

Wat is KDD?

Zoals hierboven vermeld, is KDD een gebied van informatica, die zich bezighoudt met de winning van eerder onbekende en interessante informatie uit rauwe data. KDD is het hele proces om te proberen om gegevens te geven door passende methoden of technieken te ontwikkelen. Dit proces gaat over de mapping van lage-data in andere vormen die compacter, abstract en bruikbaar zijn. Dit wordt bereikt door korte rapporten te maken, het proces van het genereren van gegevens te modelleren en voorspellende modellen te ontwikkelen die toekomstige zaken kunnen voorspellen. Door de exponentiële groei van de gegevens, met name op gebieden als zaken, is KDD een zeer belangrijk proces geworden om deze grote rijkdom van gegevens in business intelligence te omzetten, aangezien handmatige extractie van patronen in de afgelopen decennia schijnbaar onmogelijk is geworden. Bijvoorbeeld, is het momenteel gebruikt voor diverse toepassingen zoals sociale netwerkanalyse, fraude-detectie, wetenschap, investering, productie, telecommunicatie, data reiniging, sport, informatie retrieval en grotendeels voor marketing. KDD wordt meestal gebruikt om vragen te beantwoorden zoals wat de belangrijkste producten zijn die het volgende jaar in Wal-Mart kunnen helpen bij het verkrijgen van een winst.. Dit proces heeft meerdere stappen. Het begint met het ontwikkelen van een begrip van het toepassingsdomein en het doel en dan het creëren van een doeldataset. Dit wordt gevolgd door reiniging, voorverwerking, reductie en projectie van gegevens. Volgende stap gebruikt Data Mining (hieronder omschreven) om patroon te identificeren. Ten slotte wordt de ontdekte kennis geconsolideerd door visualiseren en / of tolken.

Wat is Data Mining?

Zoals hierboven vermeld, is Data Mining slechts een stap in het algemene KDD-proces. Er zijn twee belangrijke Data Mining doelen zoals gedefinieerd door het doel van de applicatie, en ze zijn namelijk verificatie of ontdekking. Verificatie verifieert de gebruiker de hypothese over gegevens, terwijl de ontdekking automatisch interessante patronen vindt. Er zijn vier belangrijke data mining taak: clustering, classificatie, regressie en associatie (samenvatting). Clustering identificeert soortgelijke groepen uit ongestructureerde data. Classificatie is het leren van regels die op nieuwe gegevens kunnen worden toegepast. Regressie vindt functies met minimale fout op modelgegevens.En associatie zoekt verhoudingen tussen variabelen. Dan moet het specifieke data mining algoritme geselecteerd worden. Afhankelijk van het doel, kunnen verschillende algoritmes zoals lineaire regressie, logistieke regressie, beslissingsbomen en Naïve Bayes geselecteerd worden. Daarna worden patronen van belang in één of meer representatieve vormen gezocht. Tenslotte worden modellen beoordeeld met behulp van voorspellende nauwkeurigheid of begrijpelijkheid.

Wat is het verschil tussen KDD en Data mining?

Hoewel de twee termen KDD en Data Mining zwaar gebruikt worden, verwijst ze naar twee gerelateerde maar enigszins verschillende concepten. KDD is het algehele proces om kennis uit gegevens te halen terwijl Data Mining een stap in het KDD-proces is, dat betrekking heeft op het identificeren van patronen in data. Met andere woorden, Data Mining is alleen de toepassing van een specifiek algoritme gebaseerd op het algemene doel van het KDD-proces.