44 lines
3.4 KiB
TeX
44 lines
3.4 KiB
TeX
\section{Cieľ}
|
||
Primárnym cieľom je identifikovať tématické celky v kolekcii bez použitia vopred definovaných tried. Ide o úlohu učenia bez učiteľa. Analýzou štatistického rozdelenia výrazov a vzťahov medzi dokumentmi systém zoskupuje podobné články do odlišných zhlukov, pričom každý zhluk reprezentuje špecifickú tému.
|
||
|
||
\section{Matematická reprezentácia textu}
|
||
Proces začína transformáciou textu do vektorového priestoru. Každý dokument je reprezentovaný pomocou vkladania TF-IDF (\textit{Term Frequency–Inverse Document Frequency}).
|
||
|
||
Aby sa zabránilo neúmernému vplyvu bežných slov s vysokou početnosťou, počíta sa frekvencia slov (TF):
|
||
\begin{equation}
|
||
\text{TF}(w,d) = \log(1 + f(w,d))
|
||
\end{equation}\label{eq:1}
|
||
kde $f(w,d)$ predstavuje relatívny počet výskytov slova $w$ v dokumente $d$. Inverzná frekvencia dokumentov (IDF) podľa vzťahu \ref{eq:1} vyjadruje mieru informácie, ktorú slovo poskytuje na základe jeho výskytu $D$:
|
||
\begin{equation}
|
||
\text{IDF}(w,D) = \log\left(\frac{N}{f(w,D) + 1}\right)
|
||
\end{equation}
|
||
kde $N$ je celkový počet dokumentov. Výsledné TF-IDF je definované ako súčin týchto dvoch hodnôt.
|
||
|
||
\section{Optimalizácia a redukcia šumu}
|
||
Vektory obsahujú značný šum a redundanciu. Na vyriešenie problému „prekliatia dimenzionality“ a zlepšenie stability zhlukovania bola aplikovaná Metóda hlavných komponentov (PCA).
|
||
|
||
Tento krok transformuje pôvodné príznaky na množinu hlavných komponentov, ktoré zachytávajú maximálny rozptyl v dátach. Ide o ortogonálnu lineárnu transformáciu do novej bázy, kde prvých $m$ komponentov aproximuje pôvodné dáta. Projekciou dokumentov do tohto redukovaného priestoru sa odstránia menej informatívne dimenzie.
|
||
|
||
\section{Zhlukovanie}
|
||
K-means je iteračná metóda zhlukovania. Algoritmus rozdeľuje priestor príznakov do $k$ disjunktných regiónov, pričom minimalizuje funkciu nehodnovernosti:
|
||
\begin{equation}
|
||
L(\Theta) = \frac{1}{n} \sum_{i=1}^n \min_{m=1,\dots,k} \|x_i - \theta_m\|_2^2
|
||
\end{equation}
|
||
kde $\theta_m$ predstavuje súradnice centra $m$-tého zhluku. Aby sa predišlo konvergencii do lokálnych miním, bola zvolená stratégia viacnásobnej inicializácie, kedy sa vyberá riešenie s najnižšou celkovou vnútrozhlukovou sumou štvorcov (WSS).
|
||
|
||
\section{Stanovenie granularity tém}
|
||
Výber vhodného počtu tém $k$ sa realizuje pomocou „metódy lakťa“. Tento proces analyzuje WSS ako funkciu počtu zhlukov:
|
||
\begin{equation}
|
||
\text{WSS} = \sum_{i=1}^n l_\Theta^k(x_i)
|
||
\end{equation}
|
||
S narastajúcim $k$ hodnota WSS klesá. Optimálny počet tém sa nachádza v bode, kde dochádza k výraznému zlomu v regresii poklesu (lakeť), čo predstavuje ideálny kompromis medzi komplexnosťou modelu a mierou vysvetleného rozptylu dát.
|
||
|
||
\section{Interpretácia objavených tém}
|
||
Finálna interpretácia objavených tém:
|
||
\begin{equation}
|
||
x_{ij} \approx \sum_{k=1}^m \phi_{jk} z_{ik}
|
||
\end{equation}
|
||
Pomocou tejto inverznej transformácie identifikujeme v každom centroide výrazy s najvyššími váhami. Tieto kľúčové slová definujú obsah jednotlivých zhlukov, čím umožňujú kvalitatívne zhodnotenie úspešnosti procesu objavovania tém.
|
||
|
||
\section{Záver}
|
||
Redukcia dimenzie a následná interpretácia dát sa riadia postupmi PCA. Logika zhlukovania, identifikácia optimálnej granularity a diagnostika modelu sú odvodené z princípov učenia bez učiteľa. |