Files
2026-02-26 14:18:04 +01:00

44 lines
3.4 KiB
TeX
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

\section{Cieľ}
Primárnym cieľom je identifikovať tématické celky v kolekcii bez použitia vopred definovaných tried. Ide o úlohu učenia bez učiteľa. Analýzou štatistického rozdelenia výrazov a vzťahov medzi dokumentmi systém zoskupuje podobné články do odlišných zhlukov, pričom každý zhluk reprezentuje špecifickú tému.
\section{Matematická reprezentácia textu}
Proces začína transformáciou textu do vektorového priestoru. Každý dokument je reprezentovaný pomocou vkladania TF-IDF (\textit{Term FrequencyInverse Document Frequency}).
Aby sa zabránilo neúmernému vplyvu bežných slov s vysokou početnosťou, počíta sa frekvencia slov (TF):
\begin{equation}
\text{TF}(w,d) = \log(1 + f(w,d))
\end{equation}\label{eq:1}
kde $f(w,d)$ predstavuje relatívny počet výskytov slova $w$ v dokumente $d$. Inverzná frekvencia dokumentov (IDF) podľa vzťahu \ref{eq:1} vyjadruje mieru informácie, ktorú slovo poskytuje na základe jeho výskytu $D$:
\begin{equation}
\text{IDF}(w,D) = \log\left(\frac{N}{f(w,D) + 1}\right)
\end{equation}
kde $N$ je celkový počet dokumentov. Výsledné TF-IDF je definované ako súčin týchto dvoch hodnôt.
\section{Optimalizácia a redukcia šumu}
Vektory obsahujú značný šum a redundanciu. Na vyriešenie problému „prekliatia dimenzionality“ a zlepšenie stability zhlukovania bola aplikovaná Metóda hlavných komponentov (PCA).
Tento krok transformuje pôvodné príznaky na množinu hlavných komponentov, ktoré zachytávajú maximálny rozptyl v dátach. Ide o ortogonálnu lineárnu transformáciu do novej bázy, kde prvých $m$ komponentov aproximuje pôvodné dáta. Projekciou dokumentov do tohto redukovaného priestoru sa odstránia menej informatívne dimenzie.
\section{Zhlukovanie}
K-means je iteračná metóda zhlukovania. Algoritmus rozdeľuje priestor príznakov do $k$ disjunktných regiónov, pričom minimalizuje funkciu nehodnovernosti:
\begin{equation}
L(\Theta) = \frac{1}{n} \sum_{i=1}^n \min_{m=1,\dots,k} \|x_i - \theta_m\|_2^2
\end{equation}
kde $\theta_m$ predstavuje súradnice centra $m$-tého zhluku. Aby sa predišlo konvergencii do lokálnych miním, bola zvolená stratégia viacnásobnej inicializácie, kedy sa vyberá riešenie s najnižšou celkovou vnútrozhlukovou sumou štvorcov (WSS).
\section{Stanovenie granularity tém}
Výber vhodného počtu tém $k$ sa realizuje pomocou „metódy lakťa“. Tento proces analyzuje WSS ako funkciu počtu zhlukov:
\begin{equation}
\text{WSS} = \sum_{i=1}^n l_\Theta^k(x_i)
\end{equation}
S narastajúcim $k$ hodnota WSS klesá. Optimálny počet tém sa nachádza v bode, kde dochádza k výraznému zlomu v regresii poklesu (lakeť), čo predstavuje ideálny kompromis medzi komplexnosťou modelu a mierou vysvetleného rozptylu dát.
\section{Interpretácia objavených tém}
Finálna interpretácia objavených tém:
\begin{equation}
x_{ij} \approx \sum_{k=1}^m \phi_{jk} z_{ik}
\end{equation}
Pomocou tejto inverznej transformácie identifikujeme v každom centroide výrazy s najvyššími váhami. Tieto kľúčové slová definujú obsah jednotlivých zhlukov, čím umožňujú kvalitatívne zhodnotenie úspešnosti procesu objavovania tém.
\section{Záver}
Redukcia dimenzie a následná interpretácia dát sa riadia postupmi PCA. Logika zhlukovania, identifikácia optimálnej granularity a diagnostika modelu sú odvodené z princípov učenia bez učiteľa.