working compiled but with errors

This commit is contained in:
Filipriec
2026-02-26 14:17:51 +01:00
parent caedb5917b
commit 575f139481
13 changed files with 1893 additions and 0 deletions

26
docs/usu_sem2/1/1.tex Normal file
View File

@@ -0,0 +1,26 @@
\section{Document topic discovery}
Cieľom je identifikovať kapitoly v novinových článkoch bez použitia vopred definovaných tried. Analýzou štatistického rozdelenia medzi dokumentami systém zoskupuje podobné články do odlišných zhlukov, pričom každý zhluk reprezentuje tému(topic).
\section{Matematická reprezentácia textu}
Proces objavovania začína transformáciou surového textu do vysokodimenzionálneho vektorového priestoru. Podľa metodológie tvorby príznakov je každý dokument reprezentovaný pomocou vkladania TF-IDF (Term FrequencyInverse Document Frequency).
Pre zaistenie štatistickej robustnosti je komponenta term frequency (TF) vypočítaná pomocou logaritmicky škálovaného vzorca. Tento prístup zabraňuje tomu, aby bežné slová s vysokými počtami neúmerne ovplyvňovali model, a namiesto toho sa zameriava na informačnú hodnotu výrazov. Inverse Document Frequency (IDF) ďalej spresňuje túto reprezentáciu penalizáciou výrazov, ktoré sa vyskytujú príliš často v celom korpuse, čím uprednostňuje slová špecifické a charakteristické pre jednotlivé témy.
\section{Optimalizácia a redukcia šumu}
Dokumentové vektory v priestore surových slov často obsahujú významný šum a vysokú redundanciu. Na vyriešenie „prekliatia dimenzionality“ a zlepšenie stability zhlukovania pipeline zahŕňa metódu hlavných komponentov (PCA).
Tento krok transformuje pôvodné príznaky na kompaktnú množinu hlavných komponentov, ktoré zachytávajú maximálny rozptyl v dátach. Projekciou dokumentov do tohto redukovaného priestoru systém zahadzuje menej informatívne dimenzie a sústredí sa na najvýznamnejšie tematické smery. Táto redukcia dimenzie je kľúčová pre odhalenie skrytých vzorov, ktoré by mohli byť v pôvodnej vysokodimenzionálnej reprezentácii zakryté.
\section{Zhlukovací rámec}
Jadrom objavovania tém je K-Means algoritmus, iteračná zhlukovacia metóda navrhnutá na rozdelenie dát do odlišných skupín. Každá skupina je definovaná centroidom, ktorý predstavuje matematický stred témy.
Podľa ustálených teoretických algoritmov proces začína náhodnou inicializáciou stredov zhlukov. Na zmiernenie rizika konvergencie do suboptimálnych lokálnych miním — častého problému v zhlukovaní — systém využíva stratégiu viacerých štartov. Vykonaním niekoľkých nezávislých behov s rôznymi inicializáciami a výberom výsledku s najnižšou vnútornou varianciou pipeline zabezpečuje stabilnejšie a presnejšie tematické zoskupovanie.
\section{Stanovenie granularity tém}
Voľba vhodného počtu tém je riadená pomocou metódy „lakeť“ (Elbow Method), založenej na vnútrozhlukovom súčte štvorcov (WSS). So zvyšujúcim sa počtom zhlukov WSS prirodzene klesá. Systém však hľadá bod „lakťa“ — špecifický počet zhlukov, kde sa miera zlepšenia rozptylu výrazne spomalí. Tento bod predstavuje optimálny kompromis medzi jednoduchosťou modelu a jeho opisnou silou, čím sa zabezpečuje, že témy nie sú ani príliš široké, ani nadbytočne rozdelené.
\section{Interpretácia objavených tém}
Záverečná fáza pipeline zahŕňa preklad matematických centroidov späť do ľudsky čitateľných tém. Keďže zhlukovanie prebieha v redukovanom dimenzionálnom priestore, aplikuje sa inverzná transformácia na mapovanie centroidov späť do pôvodného priestoru slov. Identifikáciou výrazov s najvyššou váhou v každom centre systém identifikuje kľúčové slová charakterizujúce každú tému. To umožňuje kvalitatívne zhodnotenie objavených tém, čím sa efektívne premieňajú matematické súradnice na zrozumiteľné sumáre obsahu dátovej sady.
\section{Teoretické základy}
Pipeline je striktne prispôsobená teoretickým rámcom strojového učenia. Logika vektorizácie a škálovania je odvodená z Kapitoly 8, konkrétne sa zameriava na mapovanie príznakov a váženie TF-IDF. Redukcia dimenzie a inverzná transformácia nasledujú metodológie PCA z Kapitoly 8.3. Logika zhlukovania, vrátane iteračného priraďovania, výpočtu WSS a diagnostického použitia metódy „lakeť“, je založená na princípoch učenia bez učiteľa uvedených v Kapitole 13.

26
docs/usu_sem2/1/2.tex Normal file
View File

@@ -0,0 +1,26 @@
\section{Cieľ projektu}
Primárnym cieľom tohto projektu je identifikovať skryté tematické štruktúry v kolekcii novinových dokumentov bez použitia vopred definovaných tried. Analýzou štatistického rozdelenia výrazov a sémantických vzťahov medzi dokumentami systém zoskupuje podobné články do odlišných zhlukov, pričom každý zhluk predstavuje jedinečnú tému.
\section{Matematická reprezentácia textu}
Proces objavovania začína transformáciou surového textu do vysokorozmerného vektorového priestoru. Podľa metodológie inžinierstva príznakov (kapitola 8) je každý dokument reprezentovaný pomocou vkladania TF-IDF (Term FrequencyInverse Document Frequency).
Aby sa zabránilo neúmernému vplyvu bežných slov s vysokými počtami, frekvencia slov (TF) sa počíta pomocou logaritmickej škály: $\text{TF}(w,d) = \log(1 + f(w,d))$, kde $f(w,d)$ je počet výskytov slova $w$ v dokumente $d$. Inverzná frekvencia dokumentov (IDF) penalizuje slová, ktoré sa vyskytujú príliš často v celom korpuse: $\text{IDF}(w,D) = \log\left(\frac{N}{f(w,D) + 1}\right)$, kde $N$ je počet dokumentov a $f(w,D)$ je počet dokumentov obsahujúcich slovo $w$. Výsledné TF-IDF vkladanie je dané súčinom $\text{TF-IDF}(w,d,D) = \text{TF}(w,d) \cdot \text{IDF}(w,D)$.
\section{Optimalizácia a redukcia šumu}
Dokumentové vektory v priestore slov obsahujú značný šum a redundanciu. Na vyriešenie prekliatia dimenzionality a zlepšenie stability zhlukovania sa používa metóda hlavných komponentov (PCA) podľa kapitoly 8.3.
Tento krok transformuje pôvodné príznaky na množinu hlavných komponentov, ktoré zachytávajú maximálny rozptyl v dátach. Projekciou dokumentov do redukovaného priestoru sa odstránia menej informatívne dimenzie a systém sa sústredí na najvýznamnejšie tematické smery. Táto redukcia dimenzie je kľúčová pre odhalenie skrytých vzorov, ktoré môžu byť v pôvodnej vysokorozmernej reprezentácii zakryté.
\section{Zhlukovací rámec}
Jadrom objavovania tém je K-means algoritmus (kapitola 13), iteračná metóda zhlukovania, ktorá rozdeľuje dáta do $k$ zhlukov. Každý zhluk je definovaný centroidom $\theta_m$, ktorý predstavuje jeho stred. Algoritmus minimalizuje funkciu nehodnovernosti $l_\Theta^k(x) = \min_{m=1,\dots,k} \|x - \theta_m\|_2^2$, kde $\Theta = [\theta_1, \dots, \theta_k]$ je matica centier.
Proces začína náhodnou inicializáciou centier. Aby sa predišlo konvergencii do suboptimálnych lokálnych miním, používa sa stratégia viacnásobnej inicializácie: algoritmus sa spustí niekoľkokrát s rôznymi počiatočnými centrami a vyberie sa riešenie s najnižšou celkovou vnútrozhlukovou sumou štvorcov.
\section{Stanovenie granularity tém}
Výber vhodného počtu zhlukov $k$ sa realizuje metódou lakťa, ktorá je založená na vnútrozhlukovej sume štvorcov (WSS). WSS sa definuje ako súčet funkcií nehodnovernosti pre všetky body: $\text{WSS} = \sum_{i=1}^n l_\Theta^k(x_i)$. So zvyšujúcim sa $k$ hodnota WSS klesá. Metóda lakťa hľadá bod, v ktorom sa zlepšenie (pokles WSS) výrazne spomalí; tento bod určuje optimálny kompromis medzi jednoduchosťou modelu a jeho presnosťou.
\section{Interpretácia objavených tém}
Pre interpretáciu objavených tém sa centroidy zhlukov premapujú späť do pôvodného priestoru slov pomocou inverznej transformácie. V tomto priestore sa identifikujú výrazy s najvyššími váhami v každom centroide, ktoré charakterizujú danú tému. Tento postup umožňuje kvalitatívne zhodnotenie objavených tém a ich preklad do zrozumiteľných kľúčových slov.
\section{Teoretické základy}
Navrhnutý pipeline dôsledne vychádza z teoretických rámcov uvedených v učebnici. Vektorizácia a škálovanie sú založené na kapitole 8, konkrétne na metodike mapovania príznakov a vážení TF-IDF. Redukcia dimenzie a inverzná transformácia sa riadia postupmi PCA opísanými v kapitole 8.3. Logika zhlukovania, vrátane iteračného priraďovania, výpočtu WSS a diagnostického použitia metódy lakťa, je odvodená z princípov učenia bez učiteľa v kapitole 13.

44
docs/usu_sem2/1/3.tex Normal file
View File

@@ -0,0 +1,44 @@
\section{Cieľ}
Primárnym cieľom je identifikovať tématické celky v kolekcii bez použitia vopred definovaných tried. Ide o úlohu učenia bez učiteľa. Analýzou štatistického rozdelenia výrazov a vzťahov medzi dokumentmi systém zoskupuje podobné články do odlišných zhlukov, pričom každý zhluk reprezentuje špecifickú tému.
\section{Matematická reprezentácia textu}
Proces začína transformáciou textu do vektorového priestoru. Každý dokument je reprezentovaný pomocou vkladania TF-IDF (\textit{Term FrequencyInverse Document Frequency}).
Aby sa zabránilo neúmernému vplyvu bežných slov s vysokou početnosťou, počíta sa frekvencia slov (TF):
\begin{equation}
\text{TF}(w,d) = \log(1 + f(w,d))
\end{equation}\label{eq:1}
kde $f(w,d)$ predstavuje relatívny počet výskytov slova $w$ v dokumente $d$. Inverzná frekvencia dokumentov (IDF) podľa vzťahu \ref{eq:1} vyjadruje mieru informácie, ktorú slovo poskytuje na základe jeho výskytu $D$:
\begin{equation}
\text{IDF}(w,D) = \log\left(\frac{N}{f(w,D) + 1}\right)
\end{equation}
kde $N$ je celkový počet dokumentov. Výsledné TF-IDF je definované ako súčin týchto dvoch hodnôt.
\section{Optimalizácia a redukcia šumu}
Vektory obsahujú značný šum a redundanciu. Na vyriešenie problému „prekliatia dimenzionality“ a zlepšenie stability zhlukovania bola aplikovaná Metóda hlavných komponentov (PCA).
Tento krok transformuje pôvodné príznaky na množinu hlavných komponentov, ktoré zachytávajú maximálny rozptyl v dátach. Ide o ortogonálnu lineárnu transformáciu do novej bázy, kde prvých $m$ komponentov aproximuje pôvodné dáta. Projekciou dokumentov do tohto redukovaného priestoru sa odstránia menej informatívne dimenzie.
\section{Zhlukovanie}
K-means je iteračná metóda zhlukovania. Algoritmus rozdeľuje priestor príznakov do $k$ disjunktných regiónov, pričom minimalizuje funkciu nehodnovernosti:
\begin{equation}
L(\Theta) = \frac{1}{n} \sum_{i=1}^n \min_{m=1,\dots,k} \|x_i - \theta_m\|_2^2
\end{equation}
kde $\theta_m$ predstavuje súradnice centra $m$-tého zhluku. Aby sa predišlo konvergencii do lokálnych miním, bola zvolená stratégia viacnásobnej inicializácie, kedy sa vyberá riešenie s najnižšou celkovou vnútrozhlukovou sumou štvorcov (WSS).
\section{Stanovenie granularity tém}
Výber vhodného počtu tém $k$ sa realizuje pomocou „metódy lakťa“. Tento proces analyzuje WSS ako funkciu počtu zhlukov:
\begin{equation}
\text{WSS} = \sum_{i=1}^n l_\Theta^k(x_i)
\end{equation}
S narastajúcim $k$ hodnota WSS klesá. Optimálny počet tém sa nachádza v bode, kde dochádza k výraznému zlomu v regresii poklesu (lakeť), čo predstavuje ideálny kompromis medzi komplexnosťou modelu a mierou vysvetleného rozptylu dát.
\section{Interpretácia objavených tém}
Finálna interpretácia objavených tém:
\begin{equation}
x_{ij} \approx \sum_{k=1}^m \phi_{jk} z_{ik}
\end{equation}
Pomocou tejto inverznej transformácie identifikujeme v každom centroide výrazy s najvyššími váhami. Tieto kľúčové slová definujú obsah jednotlivých zhlukov, čím umožňujú kvalitatívne zhodnotenie úspešnosti procesu objavovania tém.
\section{Záver}
Redukcia dimenzie a následná interpretácia dát sa riadia postupmi PCA. Logika zhlukovania, identifikácia optimálnej granularity a diagnostika modelu sú odvodené z princípov učenia bez učiteľa.

76
docs/usu_sem2/1/4.tex Normal file
View File

@@ -0,0 +1,76 @@
\section{Cieľ}
Hlavným cieľom je zistiť, aké tematické oblasti sa prirodzene vyskytujú v kolekcii textov bez toho, aby boli vopred určené triedy alebo kategórie. Ide teda o úlohu učenia bez učiteľa.
Na základe štatistického rozdelenia výrazov a podobností medzi dokumentmi zoskupíme články do niekoľkých zhlukov, pričom každý z nich by mal zodpovedať určitej téme.
\section{Matematická reprezentácia textu}
Na to, aby bolo možné texty matematicky spracovať, je potrebné ich previesť do vektorovej podoby.
Využitá bola reprezentácia TF-IDF (\textit{Term FrequencyInverse Document Frequency}), ktorá priraďuje vyššiu váhu slovám, ktoré sú pre daný dokument typické, ale nie príliš časté.
Frekvencia slov (TF) sa počíta pomocou logaritmickej mierky:
\begin{equation}
\text{TF}(w,d) = \log(1 + f(w,d)) \label{eq:tf}
\end{equation}
kde $f(w,d)$ označuje počet výskytov slova $w$ v dokumente $d$.
Inverzná frekvencia dokumentov (IDF) vyjadruje, ako informačne je slovo prínosné vzhľadom na svoj výskyt v súbore dokumentov $D$:
\begin{equation}
\text{IDF}(w,D) = \log\left(\frac{N}{f(w,D) + 1}\right) \label{eq:idf}
\end{equation}
kde $N$ predstavuje celkový počet dokumentov.
Finálna hodnota TF-IDF je daná súčinom týchto dvoch členov.
\section{Optimalizácia a redukcia šumu}
Vektory TF-IDF obsahujú aj značný šum a redundantné informácie, čo môže negatívne ovplyvniť kvalitu zhlukovania.
Preto bola použitá metóda hlavných komponentov (PCA), aby sa znížili rozmery dát a zároveň zachovali čo najviac variabilitu.
PCA premieta pôvodné dáta do priestoru hlavných komponentov, ktoré sú lineárne nezávislé a postupne zachytávajú najväčší rozptyl v dátach.
Projekciou na prvých niekoľko komponentov sa odstránia menej informatívne rozmery a tým sa model zjednoduší.
\section{Zhlukovanie}
Na samotné zhlukovanie bol použitý algoritmus K-means.
Ide o iteratívny algoritmus, ktorý rozdeľuje priestor príznakov do $k$ skupín a minimalizuje nasledujúcu funkciu nezhody:
\begin{equation}
L(\Theta) = \frac{1}{n} \sum_{i=1}^n \min_{m=1,\dots,k} \|x_i - \theta_m\|_2^2
\end{equation}
kde $\theta_m$ označuje vektor súradníc $m$-tého centra.
Aby algoritmus neskončil v lokálnom minime, bola zvolená viacnásobná inicializácia a výsledok s najnižšou vnútrozhlukovou sumou štvorcov WSS.
\section{Stanovenie granularity tém}
Počet výsledných zhlukov $k$ nebol určený dopredu, ale bol odhadovaný pomocou metódy lakťa.
Sleduje sa pritom pokles hodnoty WSS v závislosti od počtu $k$:
\begin{equation}
\text{WSS} = \sum_{i=1}^n l_\Theta^k(x_i)
\end{equation}
Pri zvyšovaní $k$ hodnota WSS spravidla klesá.
Optimálna hodnota $k$ sa zvolí v mieste, kde sa krivka začne postupne vyrovnávať, teda v „lakti“. Tento bod predstavuje kompromis medzi presnosťou a zložitosťou modelu.
\begin{figure}[h]
\centering
\includegraphics[width=0.8\textwidth]{wss_plot.eps}
\caption{Závislosť sumy štvorcov (WSS) od počtu zhlukov $k$. Lakeť indikuje optimálnu granularitu tém.}
\label{fig:elbow}
\end{figure}
\section{Interpretácia objavených tém}
Po vykonaní zhlukovania boli centrá jednotlivých zhlukov interpretované ako reprezentanti tém.
Použitá bola inverzná transformácia:
\begin{equation}
x_{ij} \approx \sum_{k=1}^m \phi_{jk} z_{ik}
\end{equation}
Na základe hodnôt v centre sa vybrali tie výrazy, ktoré mali najvyššie váhy (koeficienty $\phi_{jk}$).
Tieto slová vystihujú obsah príslušného zhluku a umožňujú kvalitatívne posúdiť, aké témy boli v kolekcii textov objavené.
\section{Záver}
Redukcia rozmerov pomocou PCA zlepšila stabilitu a čitateľnosť výsledkov.
Zhlukovanie metódou K-means v kombinácii s výpočtom WSS poskytlo praktický nástroj na určenie počtu tém.
Pre finálny model s $k=8$ boli identifikované nasledujúce tematické oblasti (zoradené podľa dôležitosti slov v centre):
\begin{itemize}
\item Gastronómia: food, city, restaurants, new, york, restaurant, wine.
\item Biznis a správy: company, business, said, week, years, year.
\item Šéfkuchári a menu: restaurant, mr, chef, opens, news, bar, menu.
\item Literatúra a život: life, world, new, book, home, family, father.
\item Spoločnosť a ľudia: black, white, people, says, men, women, century.
\item Film a TV: movie, tv, times, film, series, story, based.
\item Dizajn a architektúra: house, designer, design, early, years, century.
\item Umenie a práca: work, artist, art, day, young, life.
\end{itemize}