Module: Introductie Datamining

Gegevensveld Waarde
Osiriscode OSIRISCODE
ECTS 3
Toetsvorm Schriftelijk tentamen + Bonusopgaven
Minimum cijfer 5,5
Docent(en) LADR
Contactpersoon LADR
Voertaal Nederlands

Cursusdoelen (leerdoelen)

  • Onderscheid kunnen maken tussen typen (supervised/unsupervised) machine learning problemen
  • Samenstellen, opschonen en transformeren van (trainings- en test-) datasets geschikt voor datamining
  • Interactief classificatie, regressie en clustering analyses kunnen uitvoeren en evalueren m.b.v. Weka
  • Begrijpen van de globale werking en kenmerken van diverse "klassieke" machine learning algoritmen
    • Rule-based (ZeroR, OneR)
    • Trees (Id3, J48)
    • Ruleset-based (Prism, JRip, PART)
    • Naive Bayes
    • (k)-Nearest Neighbor
    • Regressie (lineair, logistisch)
    • Ensemble learning (bagging, randomisation, boosting, voting/stacking)
  • Interactief diverse classificatie, regressie en clustering analyses kunnen uitvoeren en evalueren m.b.v. Weka
  • Kunnen evalueren en vergelijken van de prestatie van verschillende algoritmen
  • Instellingen en hyperparameters van analysemethoden kunnen optimaliseren
  • Relevante attributen in datasets kunnen identificeren en selecteren
  • Eenvoudige berekeningen kunnen uitvoeren aangaande informatie-inhoud, formule v. Bayes, prestatiematen

Inhoud

Veel biologische datasets zijn te onoverzichtelijk om in een oogopslag de biologische vraag erachter te kunnen oplossen. Door gebruik te maken van geautomatiseerde machine learning technieken kan in een grote, complexe dataset gezocht worden naar relevante patronen. Tijdens deze module wordt kennis gemaakt met datamining toepassingen, algoritmen en analyses. In het bijzonder wordt de werking van een aantal "klassieke" classificatie-algoritmen behandeld. Geleerd wordt hoe de prestaties van deze algoritmen kunnen worden geevalueerd, geoptimaliseerd en vergeleken om zo te komen tot een optimale analyse voor een gegeven dataset. Diverse voorbeelden van datasets worden bekeken en voorbereid t.b.v. nadere analyse.

Literatuur en andere bronnen

Literatuur

  • Witten, Frank, Hall & Pal. Data Mining - Practical Machine Learning Tools and Techniques (4th edition) ISBN 978-0-12-804291-5:
    • Chapter 1: § 1
    • Chapter 2: geheel
    • Chapter 3: geheel
    • Chapter 4: geheel
    • Chapter 5: § 1-9
    • Chapter 6: § 1-2
    • Chapter 7: § 1
    • Chapter 8: § 1-2
    • Chapter 12: § 1-4, 7

Web

  • Blackboard course thema 9

Competenties

-

Werkvormen

  • Hoorcollege
  • Werkcollege

Ingangseisen

-

Ingangseisen toets

-

Voorkennis

-

Voorkennis kan worden opgedaan met

-

Bronnen van zelfstudie

  • MOOC-videoserie "Data Mining with Weka"
  • MOOC-videoserie "More Data Mining with Weka"

Verplicht materiaal

-

Aanbevolen materiaal

-

results matching ""

    No results matching ""