working compiled but with errors
This commit is contained in:
26
docs/usu_sem2/1/1.tex
Normal file
26
docs/usu_sem2/1/1.tex
Normal file
@@ -0,0 +1,26 @@
|
||||
\section{Document topic discovery}
|
||||
Cieľom je identifikovať kapitoly v novinových článkoch bez použitia vopred definovaných tried. Analýzou štatistického rozdelenia medzi dokumentami systém zoskupuje podobné články do odlišných zhlukov, pričom každý zhluk reprezentuje tému(topic).
|
||||
|
||||
\section{Matematická reprezentácia textu}
|
||||
Proces objavovania začína transformáciou surového textu do vysokodimenzionálneho vektorového priestoru. Podľa metodológie tvorby príznakov je každý dokument reprezentovaný pomocou vkladania TF-IDF (Term Frequency–Inverse Document Frequency).
|
||||
|
||||
Pre zaistenie štatistickej robustnosti je komponenta term frequency (TF) vypočítaná pomocou logaritmicky škálovaného vzorca. Tento prístup zabraňuje tomu, aby bežné slová s vysokými počtami neúmerne ovplyvňovali model, a namiesto toho sa zameriava na informačnú hodnotu výrazov. Inverse Document Frequency (IDF) ďalej spresňuje túto reprezentáciu penalizáciou výrazov, ktoré sa vyskytujú príliš často v celom korpuse, čím uprednostňuje slová špecifické a charakteristické pre jednotlivé témy.
|
||||
|
||||
\section{Optimalizácia a redukcia šumu}
|
||||
Dokumentové vektory v priestore surových slov často obsahujú významný šum a vysokú redundanciu. Na vyriešenie „prekliatia dimenzionality“ a zlepšenie stability zhlukovania pipeline zahŕňa metódu hlavných komponentov (PCA).
|
||||
|
||||
Tento krok transformuje pôvodné príznaky na kompaktnú množinu hlavných komponentov, ktoré zachytávajú maximálny rozptyl v dátach. Projekciou dokumentov do tohto redukovaného priestoru systém zahadzuje menej informatívne dimenzie a sústredí sa na najvýznamnejšie tematické smery. Táto redukcia dimenzie je kľúčová pre odhalenie skrytých vzorov, ktoré by mohli byť v pôvodnej vysokodimenzionálnej reprezentácii zakryté.
|
||||
|
||||
\section{Zhlukovací rámec}
|
||||
Jadrom objavovania tém je K-Means algoritmus, iteračná zhlukovacia metóda navrhnutá na rozdelenie dát do odlišných skupín. Každá skupina je definovaná centroidom, ktorý predstavuje matematický stred témy.
|
||||
|
||||
Podľa ustálených teoretických algoritmov proces začína náhodnou inicializáciou stredov zhlukov. Na zmiernenie rizika konvergencie do suboptimálnych lokálnych miním — častého problému v zhlukovaní — systém využíva stratégiu viacerých štartov. Vykonaním niekoľkých nezávislých behov s rôznymi inicializáciami a výberom výsledku s najnižšou vnútornou varianciou pipeline zabezpečuje stabilnejšie a presnejšie tematické zoskupovanie.
|
||||
|
||||
\section{Stanovenie granularity tém}
|
||||
Voľba vhodného počtu tém je riadená pomocou metódy „lakeť“ (Elbow Method), založenej na vnútrozhlukovom súčte štvorcov (WSS). So zvyšujúcim sa počtom zhlukov WSS prirodzene klesá. Systém však hľadá bod „lakťa“ — špecifický počet zhlukov, kde sa miera zlepšenia rozptylu výrazne spomalí. Tento bod predstavuje optimálny kompromis medzi jednoduchosťou modelu a jeho opisnou silou, čím sa zabezpečuje, že témy nie sú ani príliš široké, ani nadbytočne rozdelené.
|
||||
|
||||
\section{Interpretácia objavených tém}
|
||||
Záverečná fáza pipeline zahŕňa preklad matematických centroidov späť do ľudsky čitateľných tém. Keďže zhlukovanie prebieha v redukovanom dimenzionálnom priestore, aplikuje sa inverzná transformácia na mapovanie centroidov späť do pôvodného priestoru slov. Identifikáciou výrazov s najvyššou váhou v každom centre systém identifikuje kľúčové slová charakterizujúce každú tému. To umožňuje kvalitatívne zhodnotenie objavených tém, čím sa efektívne premieňajú matematické súradnice na zrozumiteľné sumáre obsahu dátovej sady.
|
||||
|
||||
\section{Teoretické základy}
|
||||
Pipeline je striktne prispôsobená teoretickým rámcom strojového učenia. Logika vektorizácie a škálovania je odvodená z Kapitoly 8, konkrétne sa zameriava na mapovanie príznakov a váženie TF-IDF. Redukcia dimenzie a inverzná transformácia nasledujú metodológie PCA z Kapitoly 8.3. Logika zhlukovania, vrátane iteračného priraďovania, výpočtu WSS a diagnostického použitia metódy „lakeť“, je založená na princípoch učenia bez učiteľa uvedených v Kapitole 13.
|
||||
Reference in New Issue
Block a user