NixOS-LuaLaTeX-flake/docs/usu_sem2/1/2.tex

\section{Cieľ projektu}
Primárnym cieľom tohto projektu je identifikovať skryté tematické štruktúry v kolekcii novinových dokumentov bez použitia vopred definovaných tried. Analýzou štatistického rozdelenia výrazov a sémantických vzťahov medzi dokumentami systém zoskupuje podobné články do odlišných zhlukov, pričom každý zhluk predstavuje jedinečnú tému.

\section{Matematická reprezentácia textu}
Proces objavovania začína transformáciou surového textu do vysokorozmerného vektorového priestoru. Podľa metodológie inžinierstva príznakov (kapitola 8) je každý dokument reprezentovaný pomocou vkladania TF-IDF (Term Frequency–Inverse Document Frequency).

Aby sa zabránilo neúmernému vplyvu bežných slov s vysokými počtami, frekvencia slov (TF) sa počíta pomocou logaritmickej škály: $\text{TF}(w,d) = \log(1 + f(w,d))$, kde $f(w,d)$ je počet výskytov slova $w$ v dokumente $d$. Inverzná frekvencia dokumentov (IDF) penalizuje slová, ktoré sa vyskytujú príliš často v celom korpuse: $\text{IDF}(w,D) = \log\left(\frac{N}{f(w,D) + 1}\right)$, kde $N$ je počet dokumentov a $f(w,D)$ je počet dokumentov obsahujúcich slovo $w$. Výsledné TF-IDF vkladanie je dané súčinom $\text{TF-IDF}(w,d,D) = \text{TF}(w,d) \cdot \text{IDF}(w,D)$.

\section{Optimalizácia a redukcia šumu}
Dokumentové vektory v priestore slov obsahujú značný šum a redundanciu. Na vyriešenie prekliatia dimenzionality a zlepšenie stability zhlukovania sa používa metóda hlavných komponentov (PCA) podľa kapitoly 8.3.

Tento krok transformuje pôvodné príznaky na množinu hlavných komponentov, ktoré zachytávajú maximálny rozptyl v dátach. Projekciou dokumentov do redukovaného priestoru sa odstránia menej informatívne dimenzie a systém sa sústredí na najvýznamnejšie tematické smery. Táto redukcia dimenzie je kľúčová pre odhalenie skrytých vzorov, ktoré môžu byť v pôvodnej vysokorozmernej reprezentácii zakryté.

\section{Zhlukovací rámec}
Jadrom objavovania tém je K-means algoritmus (kapitola 13), iteračná metóda zhlukovania, ktorá rozdeľuje dáta do $k$ zhlukov. Každý zhluk je definovaný centroidom $\theta_m$, ktorý predstavuje jeho stred. Algoritmus minimalizuje funkciu nehodnovernosti $l_\Theta^k(x) = \min_{m=1,\dots,k} \|x - \theta_m\|_2^2$, kde $\Theta = [\theta_1, \dots, \theta_k]$ je matica centier.

Proces začína náhodnou inicializáciou centier. Aby sa predišlo konvergencii do suboptimálnych lokálnych miním, používa sa stratégia viacnásobnej inicializácie: algoritmus sa spustí niekoľkokrát s rôznymi počiatočnými centrami a vyberie sa riešenie s najnižšou celkovou vnútrozhlukovou sumou štvorcov.

\section{Stanovenie granularity tém}
Výber vhodného počtu zhlukov $k$ sa realizuje metódou lakťa, ktorá je založená na vnútrozhlukovej sume štvorcov (WSS). WSS sa definuje ako súčet funkcií nehodnovernosti pre všetky body: $\text{WSS} = \sum_{i=1}^n l_\Theta^k(x_i)$. So zvyšujúcim sa $k$ hodnota WSS klesá. Metóda lakťa hľadá bod, v ktorom sa zlepšenie (pokles WSS) výrazne spomalí; tento bod určuje optimálny kompromis medzi jednoduchosťou modelu a jeho presnosťou.

\section{Interpretácia objavených tém}
Pre interpretáciu objavených tém sa centroidy zhlukov premapujú späť do pôvodného priestoru slov pomocou inverznej transformácie. V tomto priestore sa identifikujú výrazy s najvyššími váhami v každom centroide, ktoré charakterizujú danú tému. Tento postup umožňuje kvalitatívne zhodnotenie objavených tém a ich preklad do zrozumiteľných kľúčových slov.

\section{Teoretické základy}
Navrhnutý pipeline dôsledne vychádza z teoretických rámcov uvedených v učebnici. Vektorizácia a škálovanie sú založené na kapitole 8, konkrétne na metodike mapovania príznakov a vážení TF-IDF. Redukcia dimenzie a inverzná transformácia sa riadia postupmi PCA opísanými v kapitole 8.3. Logika zhlukovania, vrátane iteračného priraďovania, výpočtu WSS a diagnostického použitia metódy lakťa, je odvodená z princípov učenia bez učiteľa v kapitole 13.