Učni načrt predmeta

Predmet:
Podatkovno in tekstovno rudarjenje
Course:
Data and Text Mining
Študijski program in stopnja /
Study programme and level
Študijska smer /
Study field
Letnik /
Academic year
Semester /
Semester
Informacijske in komunikacijske tehnologije, 2. stopnja Tehnologije znanja 1 1
Information and Communication Technologies, 2nd cycle Knowledge Technologies 1 1
Vrsta predmeta / Course type
Izbirni / Elective
Univerzitetna koda predmeta / University course code:
IKT2-713
Predavanja
Lectures
Seminar
Seminar
Vaje
Tutorial
Klinične vaje
work
Druge oblike
študija
Samost. delo
Individ. work
ECTS
60 30 60 450 20

*Navedena porazdelitev ur velja, če je vpisanih vsaj 15 študentov. Drugače se obseg izvedbe kontaktnih ur sorazmerno zmanjša in prenese v samostojno delo. / This distribution of hours is valid if at least 15 students are enrolled. Otherwise the contact hours are linearly reduced and transfered to individual work.

Nosilec predmeta / Course leader:
prof. dr. Dunja Mladenić
Sodelavci / Lecturers:
prof. dr. Bojan Cestnik , prof. dr. Nada Lavrač , Erik Novak , dr. Blaž Škrlj , doc. dr. Martin Žnidaršič
Jeziki / Languages:
Predavanja / Lectures:
slovenščina, angleščina / Slovenian, English
Vaje / Tutorial:
Pogoji za vključitev v delo oz. za opravljanje študijskih obveznosti:
Prerequisites:

Zaključen študijski program prve stopnje s področja naravoslovja, tehnike ali računalništva.

Students must have completed first-cycle study programmes in natural sciences, technical disciplines or computer science.

Vsebina:
Content (Syllabus outline):

Uvod: uvod v podatkovno rudarjenje in odkrivanje zakonitosti v podatkih, povezava s strojnim učenjem, vizualizacija podatkov, vzorcev in modelov, predstavitev CRISP-DM metodologije odkrivanja zakonitosti v podatkih ter osnove upravljanja znanja.

Predstavitev in manipulacija podatkov: predstavitev standardnih oblik zapisa različnih vrst podatkov ter kreiranje in manipulacija tabelaričnih podatkov, podatkovnih baz in skladišč ter obravnava tekstovnih, spletnih in večpredstavnih podatkov.

Tehnike rudarjenja tabelaričnih podatkov: predstavitev posameznih tehnik rudarjenja podatkov: predstavitev preiskovalnih hevristik in metod za učenje odločitvenih dreves, učenje klasifikacijskih in povezovalnih pravil, razvrščanje v skupine, odkrivanje podskupin, učenje regresijskih dreves in relacijsko podatkovno rudarjenje.

Tehnike rudarjenja tekstovnih, spletnih in večpredstavnih podatkov: predstavitev posameznih tehnik za analizo tekstovnih, spletnih in večpredstavnih podatkov ter metod vizualizacije podatkov.

Ocenjevanje: predstavitev metod za ocenjevanje kvalitete naučenih vzorcev in modelov ter metodologija evalvacije rezultatov.

Praktično usposabljanje: praktična uporaba izbranih orodij za manipulacijo in rudarjenja podatkov.

Introduction: introduction to knowledge data mining and knowledge discovery in databases, relation with machine learning, visualization of data, patterns and models, presentation of the CRISP-DM knowledge discovery methodology, and the basics of knowledge management.

Data representation and manipulation: presentation of standard data formats, creation and manipulation of tabular data, databases and data warehouses, as well as handling of text, web and multimedia data.

Techniques for mining of tabular data: presentation of specific data mining techniques: presentation of search heuristics, decision tree learning, learning classification and association rules, clustering, subgroup discovery, regression tree learning, and relational data mining.

Techniques for mining text, web and multimedia data: presentation of specific techniques for text, web and multimedia mining, and data visualization.

Evaluation: presentation of methods for estimating the quality of induced patterns and models, and methodology for result evaluation.

Practical training: practical use of selected data manipulation and data mining tools.

Temeljna literatura in viri / Readings:

Izbrana poglavja iz naslednjih knjig: / Selected chapters from the following books:
- J. Witten, E. Frank, M.A. Hall, C.J. Pal: Data Mining: Practical Machine Learning Tools and Techniques , 4th Edition, 2017. ISBN 978-012804291-5
- D. Mladenić, N. Lavrač, M. Bohanec, and S. Moyle, Eds. Data Mining and Decision Support: Integration and Collaboration. Kluwer, 2003. ISBN 1-4020-7388-7.
- T. Mitchell, Machine Learning. McGraw Hill, 1997. ISBN 978-0-070-42807-2.
- M. Berthold, and D. J. Hand, Eds. Intelligent Data Analysis: An Introduction. Springer, Berlin-Heidelberg, 2003. 2nd Edition. ISBN 978-3-540-43060-5.
- J. Fürnkranz, D. Gamberger, and N. Lavrač, Foundations of Rule Learning. Springer 2012. ISBN 978-3-540-75196-0.
- C. Sammut, G. Webb Eds. Encyclopedia of machine learning and data mining. Heidelberg [etc.]: Springer. 2017 (selected entries).
- S. Chakrabarti, Mining the Web: Analysis of Hypertext and Semi Structured Data, Morgan Kaufmann, 2002. ISBN 1-55860-754-4.
- U. Fayyad, G.G. Grinstein, and A. Wierse, Eds. Information Visualization in Data Mining and Knowledge Discovery. Morgan Kaufmann. 2001. ISBN 978-1-558-60689-0.
- M. Bramer, Principles of Data Mining. Springer, 2016. 3rd Edition. ISBN 978-1-4471-7307-6
- C.C. Aggarwal. Machine Learning for Text 2nd ed. Springer, 2022

Cilji in kompetence:
Objectives and competences:

Odkrivanje zakonitosti v podatkih je proces odkrivanja vzorcev in modelov, opisanih s pravili ali drugimi človeku razumljivimi formalizmi za predstavitev znanja. Najpomembnejši del tega procesa predstavlja podatkovno rudarjenje, ki vključuje uporabo metod, tehnik in orodij za avtomatsko odkrivanje vzorcev in konstrukcijo modelov iz podatkov. Cilji predmeta so:
- predstaviti osnove podatkovnega rudarjenja, postopke odkrivanja zakonitosti v podatkih, metodologijo CRISP-DM ter osnove upravljanja znanja,
- predstaviti standardne oblike zapisa različnih vrst podatkov, usposobiti študente za manipulacijo tabelaričnih podatkov, podatkovnih baz in skladišč ter tekstovnih, spletnih in večpredstavnih podatkov,
- predstaviti izbrane metode in tehnike rudarjenja tabelaričnih podatkov,
- predstaviti izbrane metode in tehnike rudarjenja tekstovnih, spletnih in večpredstavnih podatkov,
- usposobiti študente za praktično uporabo izbranih orodij podatkovnega rudarjenja in metod za evalvacijo rezultatov.

Knowledge discovery in databases is a process of discovering patterns and models, described by rules or other human-understandable representation formalisms. The most important step in this process is data mining, performed by using methods, techniques and tools for automated discovery of patterns and construction of models from data. The course objectives are to:
- introduce the basics of data mining, the process of knowledge discovery in databases, the CRISP-DM methodology and the basics of knowledge management,
- present standard data formats, train students for the manipulation of tabular data, databases and data warehouses, as well as text, web and multimedia data,
- present selected methods and techniques for mining tabular data,
- present selected methods and techniques for text, web and multimedia mining,
- train students for practical use of selected data mining techniques and evaluation methods.

Predvideni študijski rezultati:
Intendeded learning outcomes:

Študenti bodo z uspešno opravljenimi obveznostmi tega predmeta pridobili:
- sposobnost raziskave, izbire in organizacije informacij kot tudi sinteze rešitev ter predvidevanja njihovih posledic,
- obvladanje strategij in raziskovalnih metod za reševanje problemov in odločanje,
- sposobnost uporabe znanja v praksi,
- postavljanje in doseganje profesionalnih ciljev,
- samostojno, odgovorno in kreativno izvajanje aktivnosti,
- zavezanost profesionalni etiki in regulativi,
- sodelovanje z drugimi na skupnih zadolžitvah in problemih,
- poznavanje konceptov in principov rudarjenja podatkov in odkrivanja zakonitosti v podatkovnih bazah,
- zmožnost uporabljanja specifičnih tehnik rudarjenja podatkov,
- zmožnost izdelave aplikacij z orodji za rudarjenje podatkov,
- zmožnost ocenjevanja in evalvacije rezultatov podatkovnega rudarjenja,
- sposobnost izbire in uporabe ustreznih teorij in programskih orodij za analizo večpredstavnih vsebin.

Students successfully completing this course will acquire:
- ability to research, select and organise information so as to synthesise and anticipate solutions and consequences,
- to adopt strategies and methods appropriate to problem solving and decision making,
- ability to apply the theory in to a practice,
- setting and achieving professional objectives,
- to carry out activities in an autonomous, responsible and creative manner,
- complying with professional ethics and regulatory body policies,
- to cooperate with others on common tasks and problems,
- knowledge of concepts and principles of data mining and knowledge discovery in databases,
- ability to use specific data mining techniques,
- ability to develop applications using data mining tools,
- capacity of evaluating data mining results,
- ability to identify and apply appropriate technologies and software tools from the area of multimedia mining.

Metode poučevanja in učenja:
Learning and teaching methods:

Predavanja, seminar, konzultacije, individualno delo.

Lectures, seminar, consultations, individual work

Načini ocenjevanja:
Delež v % / Weight in %
Assesment:
Seminar
50 %
Seminar
(Pisni ali ustni) izpit
50 %
(Written or oral) exam
Reference nosilca / Lecturer's references:
1. SWATI, Swati, MLADENIĆ, Dunja, GROBELNIK, Marko. An inferential commonsense-driven framework for predicting political bias in news headlines. IEEE access. 2023, vol. 11, str. 1-17, ilustr. ISSN 2169-3536. https://ieeexplore.ieee.org/document/10193773/authors#authors, DOI: 10.1109/ACCESS.2023.3298877. [COBISS.SI-ID 159819011]
2. ROŽANEC, Jože Martin, TRAJKOVA, Elena, NOVALIJA, Inna, ZAJEC, Patrik, KENDA, Klemen, FORTUNA, Blaž, MLADENIĆ, Dunja. Enriching artificial intelligence explanations with knowledge fragments. Future internet. May 2022, vol. 14, iss. 5, [article no.] 134, str. 1-13, ilustr. ISSN 1999-5903
3. SEBASTIÁN LOZANO, Jorge, ALBA PAGÁN, Ester, MARTÍNEZ ROIG, Eliseo, GAITÁN SALVATELLA, Mar, LEÓN MUÑOZ, Arabella, SEVILLA PERIS, Javier, VERNUS, Pierre, PUREN, Marie, REI, Luis, MLADENIĆ, Dunja. Open access to data about silk heritage : a case study in digital information sustainability. Sustainability. Oct. 2023, vol. 15, iss. 19, str. 1-30, ilustr. ISSN 2071-1050
4. SITTAR, Abdul, GROBELNIK, Marko, MLADENIĆ, Dunja. Profiling the barriers to the spreading of news using news headlines. Frontiers in artificial intelligence. 2023, vol. 6, str. 1-22, ilustr. ISSN 2624-8212
5. REI, Luis, MLADENIĆ, Dunja. Detecting fine-grained emotions in literature. Applied sciences. Jul. 2023, vol. 13, iss. 13, [article no.] 7502, str. 1-26, ilustr. ISSN 2076-3417