\section{Document topic discovery} Cieľom je identifikovať kapitoly v novinových článkoch bez použitia vopred definovaných tried. Analýzou štatistického rozdelenia medzi dokumentami systém zoskupuje podobné články do odlišných zhlukov, pričom každý zhluk reprezentuje tému(topic). \section{Matematická reprezentácia textu} Proces objavovania začína transformáciou surového textu do vysokodimenzionálneho vektorového priestoru. Podľa metodológie tvorby príznakov je každý dokument reprezentovaný pomocou vkladania TF-IDF (Term Frequency–Inverse Document Frequency). Pre zaistenie štatistickej robustnosti je komponenta term frequency (TF) vypočítaná pomocou logaritmicky škálovaného vzorca. Tento prístup zabraňuje tomu, aby bežné slová s vysokými počtami neúmerne ovplyvňovali model, a namiesto toho sa zameriava na informačnú hodnotu výrazov. Inverse Document Frequency (IDF) ďalej spresňuje túto reprezentáciu penalizáciou výrazov, ktoré sa vyskytujú príliš často v celom korpuse, čím uprednostňuje slová špecifické a charakteristické pre jednotlivé témy. \section{Optimalizácia a redukcia šumu} Dokumentové vektory v priestore surových slov často obsahujú významný šum a vysokú redundanciu. Na vyriešenie „prekliatia dimenzionality“ a zlepšenie stability zhlukovania pipeline zahŕňa metódu hlavných komponentov (PCA). Tento krok transformuje pôvodné príznaky na kompaktnú množinu hlavných komponentov, ktoré zachytávajú maximálny rozptyl v dátach. Projekciou dokumentov do tohto redukovaného priestoru systém zahadzuje menej informatívne dimenzie a sústredí sa na najvýznamnejšie tematické smery. Táto redukcia dimenzie je kľúčová pre odhalenie skrytých vzorov, ktoré by mohli byť v pôvodnej vysokodimenzionálnej reprezentácii zakryté. \section{Zhlukovací rámec} Jadrom objavovania tém je K-Means algoritmus, iteračná zhlukovacia metóda navrhnutá na rozdelenie dát do odlišných skupín. Každá skupina je definovaná centroidom, ktorý predstavuje matematický stred témy. Podľa ustálených teoretických algoritmov proces začína náhodnou inicializáciou stredov zhlukov. Na zmiernenie rizika konvergencie do suboptimálnych lokálnych miním — častého problému v zhlukovaní — systém využíva stratégiu viacerých štartov. Vykonaním niekoľkých nezávislých behov s rôznymi inicializáciami a výberom výsledku s najnižšou vnútornou varianciou pipeline zabezpečuje stabilnejšie a presnejšie tematické zoskupovanie. \section{Stanovenie granularity tém} Voľba vhodného počtu tém je riadená pomocou metódy „lakeť“ (Elbow Method), založenej na vnútrozhlukovom súčte štvorcov (WSS). So zvyšujúcim sa počtom zhlukov WSS prirodzene klesá. Systém však hľadá bod „lakťa“ — špecifický počet zhlukov, kde sa miera zlepšenia rozptylu výrazne spomalí. Tento bod predstavuje optimálny kompromis medzi jednoduchosťou modelu a jeho opisnou silou, čím sa zabezpečuje, že témy nie sú ani príliš široké, ani nadbytočne rozdelené. \section{Interpretácia objavených tém} Záverečná fáza pipeline zahŕňa preklad matematických centroidov späť do ľudsky čitateľných tém. Keďže zhlukovanie prebieha v redukovanom dimenzionálnom priestore, aplikuje sa inverzná transformácia na mapovanie centroidov späť do pôvodného priestoru slov. Identifikáciou výrazov s najvyššou váhou v každom centre systém identifikuje kľúčové slová charakterizujúce každú tému. To umožňuje kvalitatívne zhodnotenie objavených tém, čím sa efektívne premieňajú matematické súradnice na zrozumiteľné sumáre obsahu dátovej sady. \section{Teoretické základy} Pipeline je striktne prispôsobená teoretickým rámcom strojového učenia. Logika vektorizácie a škálovania je odvodená z Kapitoly 8, konkrétne sa zameriava na mapovanie príznakov a váženie TF-IDF. Redukcia dimenzie a inverzná transformácia nasledujú metodológie PCA z Kapitoly 8.3. Logika zhlukovania, vrátane iteračného priraďovania, výpočtu WSS a diagnostického použitia metódy „lakeť“, je založená na princípoch učenia bez učiteľa uvedených v Kapitole 13.