working compiled but with errors
This commit is contained in:
26
docs/usu_sem2/1/1.tex
Normal file
26
docs/usu_sem2/1/1.tex
Normal file
@@ -0,0 +1,26 @@
|
||||
\section{Document topic discovery}
|
||||
Cieľom je identifikovať kapitoly v novinových článkoch bez použitia vopred definovaných tried. Analýzou štatistického rozdelenia medzi dokumentami systém zoskupuje podobné články do odlišných zhlukov, pričom každý zhluk reprezentuje tému(topic).
|
||||
|
||||
\section{Matematická reprezentácia textu}
|
||||
Proces objavovania začína transformáciou surového textu do vysokodimenzionálneho vektorového priestoru. Podľa metodológie tvorby príznakov je každý dokument reprezentovaný pomocou vkladania TF-IDF (Term Frequency–Inverse Document Frequency).
|
||||
|
||||
Pre zaistenie štatistickej robustnosti je komponenta term frequency (TF) vypočítaná pomocou logaritmicky škálovaného vzorca. Tento prístup zabraňuje tomu, aby bežné slová s vysokými počtami neúmerne ovplyvňovali model, a namiesto toho sa zameriava na informačnú hodnotu výrazov. Inverse Document Frequency (IDF) ďalej spresňuje túto reprezentáciu penalizáciou výrazov, ktoré sa vyskytujú príliš často v celom korpuse, čím uprednostňuje slová špecifické a charakteristické pre jednotlivé témy.
|
||||
|
||||
\section{Optimalizácia a redukcia šumu}
|
||||
Dokumentové vektory v priestore surových slov často obsahujú významný šum a vysokú redundanciu. Na vyriešenie „prekliatia dimenzionality“ a zlepšenie stability zhlukovania pipeline zahŕňa metódu hlavných komponentov (PCA).
|
||||
|
||||
Tento krok transformuje pôvodné príznaky na kompaktnú množinu hlavných komponentov, ktoré zachytávajú maximálny rozptyl v dátach. Projekciou dokumentov do tohto redukovaného priestoru systém zahadzuje menej informatívne dimenzie a sústredí sa na najvýznamnejšie tematické smery. Táto redukcia dimenzie je kľúčová pre odhalenie skrytých vzorov, ktoré by mohli byť v pôvodnej vysokodimenzionálnej reprezentácii zakryté.
|
||||
|
||||
\section{Zhlukovací rámec}
|
||||
Jadrom objavovania tém je K-Means algoritmus, iteračná zhlukovacia metóda navrhnutá na rozdelenie dát do odlišných skupín. Každá skupina je definovaná centroidom, ktorý predstavuje matematický stred témy.
|
||||
|
||||
Podľa ustálených teoretických algoritmov proces začína náhodnou inicializáciou stredov zhlukov. Na zmiernenie rizika konvergencie do suboptimálnych lokálnych miním — častého problému v zhlukovaní — systém využíva stratégiu viacerých štartov. Vykonaním niekoľkých nezávislých behov s rôznymi inicializáciami a výberom výsledku s najnižšou vnútornou varianciou pipeline zabezpečuje stabilnejšie a presnejšie tematické zoskupovanie.
|
||||
|
||||
\section{Stanovenie granularity tém}
|
||||
Voľba vhodného počtu tém je riadená pomocou metódy „lakeť“ (Elbow Method), založenej na vnútrozhlukovom súčte štvorcov (WSS). So zvyšujúcim sa počtom zhlukov WSS prirodzene klesá. Systém však hľadá bod „lakťa“ — špecifický počet zhlukov, kde sa miera zlepšenia rozptylu výrazne spomalí. Tento bod predstavuje optimálny kompromis medzi jednoduchosťou modelu a jeho opisnou silou, čím sa zabezpečuje, že témy nie sú ani príliš široké, ani nadbytočne rozdelené.
|
||||
|
||||
\section{Interpretácia objavených tém}
|
||||
Záverečná fáza pipeline zahŕňa preklad matematických centroidov späť do ľudsky čitateľných tém. Keďže zhlukovanie prebieha v redukovanom dimenzionálnom priestore, aplikuje sa inverzná transformácia na mapovanie centroidov späť do pôvodného priestoru slov. Identifikáciou výrazov s najvyššou váhou v každom centre systém identifikuje kľúčové slová charakterizujúce každú tému. To umožňuje kvalitatívne zhodnotenie objavených tém, čím sa efektívne premieňajú matematické súradnice na zrozumiteľné sumáre obsahu dátovej sady.
|
||||
|
||||
\section{Teoretické základy}
|
||||
Pipeline je striktne prispôsobená teoretickým rámcom strojového učenia. Logika vektorizácie a škálovania je odvodená z Kapitoly 8, konkrétne sa zameriava na mapovanie príznakov a váženie TF-IDF. Redukcia dimenzie a inverzná transformácia nasledujú metodológie PCA z Kapitoly 8.3. Logika zhlukovania, vrátane iteračného priraďovania, výpočtu WSS a diagnostického použitia metódy „lakeť“, je založená na princípoch učenia bez učiteľa uvedených v Kapitole 13.
|
||||
26
docs/usu_sem2/1/2.tex
Normal file
26
docs/usu_sem2/1/2.tex
Normal file
@@ -0,0 +1,26 @@
|
||||
\section{Cieľ projektu}
|
||||
Primárnym cieľom tohto projektu je identifikovať skryté tematické štruktúry v kolekcii novinových dokumentov bez použitia vopred definovaných tried. Analýzou štatistického rozdelenia výrazov a sémantických vzťahov medzi dokumentami systém zoskupuje podobné články do odlišných zhlukov, pričom každý zhluk predstavuje jedinečnú tému.
|
||||
|
||||
\section{Matematická reprezentácia textu}
|
||||
Proces objavovania začína transformáciou surového textu do vysokorozmerného vektorového priestoru. Podľa metodológie inžinierstva príznakov (kapitola 8) je každý dokument reprezentovaný pomocou vkladania TF-IDF (Term Frequency–Inverse Document Frequency).
|
||||
|
||||
Aby sa zabránilo neúmernému vplyvu bežných slov s vysokými počtami, frekvencia slov (TF) sa počíta pomocou logaritmickej škály: $\text{TF}(w,d) = \log(1 + f(w,d))$, kde $f(w,d)$ je počet výskytov slova $w$ v dokumente $d$. Inverzná frekvencia dokumentov (IDF) penalizuje slová, ktoré sa vyskytujú príliš často v celom korpuse: $\text{IDF}(w,D) = \log\left(\frac{N}{f(w,D) + 1}\right)$, kde $N$ je počet dokumentov a $f(w,D)$ je počet dokumentov obsahujúcich slovo $w$. Výsledné TF-IDF vkladanie je dané súčinom $\text{TF-IDF}(w,d,D) = \text{TF}(w,d) \cdot \text{IDF}(w,D)$.
|
||||
|
||||
\section{Optimalizácia a redukcia šumu}
|
||||
Dokumentové vektory v priestore slov obsahujú značný šum a redundanciu. Na vyriešenie prekliatia dimenzionality a zlepšenie stability zhlukovania sa používa metóda hlavných komponentov (PCA) podľa kapitoly 8.3.
|
||||
|
||||
Tento krok transformuje pôvodné príznaky na množinu hlavných komponentov, ktoré zachytávajú maximálny rozptyl v dátach. Projekciou dokumentov do redukovaného priestoru sa odstránia menej informatívne dimenzie a systém sa sústredí na najvýznamnejšie tematické smery. Táto redukcia dimenzie je kľúčová pre odhalenie skrytých vzorov, ktoré môžu byť v pôvodnej vysokorozmernej reprezentácii zakryté.
|
||||
|
||||
\section{Zhlukovací rámec}
|
||||
Jadrom objavovania tém je K-means algoritmus (kapitola 13), iteračná metóda zhlukovania, ktorá rozdeľuje dáta do $k$ zhlukov. Každý zhluk je definovaný centroidom $\theta_m$, ktorý predstavuje jeho stred. Algoritmus minimalizuje funkciu nehodnovernosti $l_\Theta^k(x) = \min_{m=1,\dots,k} \|x - \theta_m\|_2^2$, kde $\Theta = [\theta_1, \dots, \theta_k]$ je matica centier.
|
||||
|
||||
Proces začína náhodnou inicializáciou centier. Aby sa predišlo konvergencii do suboptimálnych lokálnych miním, používa sa stratégia viacnásobnej inicializácie: algoritmus sa spustí niekoľkokrát s rôznymi počiatočnými centrami a vyberie sa riešenie s najnižšou celkovou vnútrozhlukovou sumou štvorcov.
|
||||
|
||||
\section{Stanovenie granularity tém}
|
||||
Výber vhodného počtu zhlukov $k$ sa realizuje metódou lakťa, ktorá je založená na vnútrozhlukovej sume štvorcov (WSS). WSS sa definuje ako súčet funkcií nehodnovernosti pre všetky body: $\text{WSS} = \sum_{i=1}^n l_\Theta^k(x_i)$. So zvyšujúcim sa $k$ hodnota WSS klesá. Metóda lakťa hľadá bod, v ktorom sa zlepšenie (pokles WSS) výrazne spomalí; tento bod určuje optimálny kompromis medzi jednoduchosťou modelu a jeho presnosťou.
|
||||
|
||||
\section{Interpretácia objavených tém}
|
||||
Pre interpretáciu objavených tém sa centroidy zhlukov premapujú späť do pôvodného priestoru slov pomocou inverznej transformácie. V tomto priestore sa identifikujú výrazy s najvyššími váhami v každom centroide, ktoré charakterizujú danú tému. Tento postup umožňuje kvalitatívne zhodnotenie objavených tém a ich preklad do zrozumiteľných kľúčových slov.
|
||||
|
||||
\section{Teoretické základy}
|
||||
Navrhnutý pipeline dôsledne vychádza z teoretických rámcov uvedených v učebnici. Vektorizácia a škálovanie sú založené na kapitole 8, konkrétne na metodike mapovania príznakov a vážení TF-IDF. Redukcia dimenzie a inverzná transformácia sa riadia postupmi PCA opísanými v kapitole 8.3. Logika zhlukovania, vrátane iteračného priraďovania, výpočtu WSS a diagnostického použitia metódy lakťa, je odvodená z princípov učenia bez učiteľa v kapitole 13.
|
||||
44
docs/usu_sem2/1/3.tex
Normal file
44
docs/usu_sem2/1/3.tex
Normal file
@@ -0,0 +1,44 @@
|
||||
\section{Cieľ}
|
||||
Primárnym cieľom je identifikovať tématické celky v kolekcii bez použitia vopred definovaných tried. Ide o úlohu učenia bez učiteľa. Analýzou štatistického rozdelenia výrazov a vzťahov medzi dokumentmi systém zoskupuje podobné články do odlišných zhlukov, pričom každý zhluk reprezentuje špecifickú tému.
|
||||
|
||||
\section{Matematická reprezentácia textu}
|
||||
Proces začína transformáciou textu do vektorového priestoru. Každý dokument je reprezentovaný pomocou vkladania TF-IDF (\textit{Term Frequency–Inverse Document Frequency}).
|
||||
|
||||
Aby sa zabránilo neúmernému vplyvu bežných slov s vysokou početnosťou, počíta sa frekvencia slov (TF):
|
||||
\begin{equation}
|
||||
\text{TF}(w,d) = \log(1 + f(w,d))
|
||||
\end{equation}\label{eq:1}
|
||||
kde $f(w,d)$ predstavuje relatívny počet výskytov slova $w$ v dokumente $d$. Inverzná frekvencia dokumentov (IDF) podľa vzťahu \ref{eq:1} vyjadruje mieru informácie, ktorú slovo poskytuje na základe jeho výskytu $D$:
|
||||
\begin{equation}
|
||||
\text{IDF}(w,D) = \log\left(\frac{N}{f(w,D) + 1}\right)
|
||||
\end{equation}
|
||||
kde $N$ je celkový počet dokumentov. Výsledné TF-IDF je definované ako súčin týchto dvoch hodnôt.
|
||||
|
||||
\section{Optimalizácia a redukcia šumu}
|
||||
Vektory obsahujú značný šum a redundanciu. Na vyriešenie problému „prekliatia dimenzionality“ a zlepšenie stability zhlukovania bola aplikovaná Metóda hlavných komponentov (PCA).
|
||||
|
||||
Tento krok transformuje pôvodné príznaky na množinu hlavných komponentov, ktoré zachytávajú maximálny rozptyl v dátach. Ide o ortogonálnu lineárnu transformáciu do novej bázy, kde prvých $m$ komponentov aproximuje pôvodné dáta. Projekciou dokumentov do tohto redukovaného priestoru sa odstránia menej informatívne dimenzie.
|
||||
|
||||
\section{Zhlukovanie}
|
||||
K-means je iteračná metóda zhlukovania. Algoritmus rozdeľuje priestor príznakov do $k$ disjunktných regiónov, pričom minimalizuje funkciu nehodnovernosti:
|
||||
\begin{equation}
|
||||
L(\Theta) = \frac{1}{n} \sum_{i=1}^n \min_{m=1,\dots,k} \|x_i - \theta_m\|_2^2
|
||||
\end{equation}
|
||||
kde $\theta_m$ predstavuje súradnice centra $m$-tého zhluku. Aby sa predišlo konvergencii do lokálnych miním, bola zvolená stratégia viacnásobnej inicializácie, kedy sa vyberá riešenie s najnižšou celkovou vnútrozhlukovou sumou štvorcov (WSS).
|
||||
|
||||
\section{Stanovenie granularity tém}
|
||||
Výber vhodného počtu tém $k$ sa realizuje pomocou „metódy lakťa“. Tento proces analyzuje WSS ako funkciu počtu zhlukov:
|
||||
\begin{equation}
|
||||
\text{WSS} = \sum_{i=1}^n l_\Theta^k(x_i)
|
||||
\end{equation}
|
||||
S narastajúcim $k$ hodnota WSS klesá. Optimálny počet tém sa nachádza v bode, kde dochádza k výraznému zlomu v regresii poklesu (lakeť), čo predstavuje ideálny kompromis medzi komplexnosťou modelu a mierou vysvetleného rozptylu dát.
|
||||
|
||||
\section{Interpretácia objavených tém}
|
||||
Finálna interpretácia objavených tém:
|
||||
\begin{equation}
|
||||
x_{ij} \approx \sum_{k=1}^m \phi_{jk} z_{ik}
|
||||
\end{equation}
|
||||
Pomocou tejto inverznej transformácie identifikujeme v každom centroide výrazy s najvyššími váhami. Tieto kľúčové slová definujú obsah jednotlivých zhlukov, čím umožňujú kvalitatívne zhodnotenie úspešnosti procesu objavovania tém.
|
||||
|
||||
\section{Záver}
|
||||
Redukcia dimenzie a následná interpretácia dát sa riadia postupmi PCA. Logika zhlukovania, identifikácia optimálnej granularity a diagnostika modelu sú odvodené z princípov učenia bez učiteľa.
|
||||
76
docs/usu_sem2/1/4.tex
Normal file
76
docs/usu_sem2/1/4.tex
Normal file
@@ -0,0 +1,76 @@
|
||||
\section{Cieľ}
|
||||
Hlavným cieľom je zistiť, aké tematické oblasti sa prirodzene vyskytujú v kolekcii textov bez toho, aby boli vopred určené triedy alebo kategórie. Ide teda o úlohu učenia bez učiteľa.
|
||||
Na základe štatistického rozdelenia výrazov a podobností medzi dokumentmi zoskupíme články do niekoľkých zhlukov, pričom každý z nich by mal zodpovedať určitej téme.
|
||||
|
||||
\section{Matematická reprezentácia textu}
|
||||
Na to, aby bolo možné texty matematicky spracovať, je potrebné ich previesť do vektorovej podoby.
|
||||
Využitá bola reprezentácia TF-IDF (\textit{Term Frequency–Inverse Document Frequency}), ktorá priraďuje vyššiu váhu slovám, ktoré sú pre daný dokument typické, ale nie príliš časté.
|
||||
|
||||
Frekvencia slov (TF) sa počíta pomocou logaritmickej mierky:
|
||||
\begin{equation}
|
||||
\text{TF}(w,d) = \log(1 + f(w,d)) \label{eq:tf}
|
||||
\end{equation}
|
||||
kde $f(w,d)$ označuje počet výskytov slova $w$ v dokumente $d$.
|
||||
Inverzná frekvencia dokumentov (IDF) vyjadruje, ako informačne je slovo prínosné vzhľadom na svoj výskyt v súbore dokumentov $D$:
|
||||
\begin{equation}
|
||||
\text{IDF}(w,D) = \log\left(\frac{N}{f(w,D) + 1}\right) \label{eq:idf}
|
||||
\end{equation}
|
||||
kde $N$ predstavuje celkový počet dokumentov.
|
||||
Finálna hodnota TF-IDF je daná súčinom týchto dvoch členov.
|
||||
|
||||
\section{Optimalizácia a redukcia šumu}
|
||||
Vektory TF-IDF obsahujú aj značný šum a redundantné informácie, čo môže negatívne ovplyvniť kvalitu zhlukovania.
|
||||
Preto bola použitá metóda hlavných komponentov (PCA), aby sa znížili rozmery dát a zároveň zachovali čo najviac variabilitu.
|
||||
|
||||
PCA premieta pôvodné dáta do priestoru hlavných komponentov, ktoré sú lineárne nezávislé a postupne zachytávajú najväčší rozptyl v dátach.
|
||||
Projekciou na prvých niekoľko komponentov sa odstránia menej informatívne rozmery a tým sa model zjednoduší.
|
||||
|
||||
\section{Zhlukovanie}
|
||||
Na samotné zhlukovanie bol použitý algoritmus K-means.
|
||||
Ide o iteratívny algoritmus, ktorý rozdeľuje priestor príznakov do $k$ skupín a minimalizuje nasledujúcu funkciu nezhody:
|
||||
\begin{equation}
|
||||
L(\Theta) = \frac{1}{n} \sum_{i=1}^n \min_{m=1,\dots,k} \|x_i - \theta_m\|_2^2
|
||||
\end{equation}
|
||||
kde $\theta_m$ označuje vektor súradníc $m$-tého centra.
|
||||
Aby algoritmus neskončil v lokálnom minime, bola zvolená viacnásobná inicializácia a výsledok s najnižšou vnútrozhlukovou sumou štvorcov WSS.
|
||||
|
||||
\section{Stanovenie granularity tém}
|
||||
Počet výsledných zhlukov $k$ nebol určený dopredu, ale bol odhadovaný pomocou metódy lakťa.
|
||||
Sleduje sa pritom pokles hodnoty WSS v závislosti od počtu $k$:
|
||||
\begin{equation}
|
||||
\text{WSS} = \sum_{i=1}^n l_\Theta^k(x_i)
|
||||
\end{equation}
|
||||
Pri zvyšovaní $k$ hodnota WSS spravidla klesá.
|
||||
Optimálna hodnota $k$ sa zvolí v mieste, kde sa krivka začne postupne vyrovnávať, teda v „lakti“. Tento bod predstavuje kompromis medzi presnosťou a zložitosťou modelu.
|
||||
|
||||
\begin{figure}[h]
|
||||
\centering
|
||||
\includegraphics[width=0.8\textwidth]{wss_plot.eps}
|
||||
\caption{Závislosť sumy štvorcov (WSS) od počtu zhlukov $k$. Lakeť indikuje optimálnu granularitu tém.}
|
||||
\label{fig:elbow}
|
||||
\end{figure}
|
||||
|
||||
\section{Interpretácia objavených tém}
|
||||
Po vykonaní zhlukovania boli centrá jednotlivých zhlukov interpretované ako reprezentanti tém.
|
||||
Použitá bola inverzná transformácia:
|
||||
\begin{equation}
|
||||
x_{ij} \approx \sum_{k=1}^m \phi_{jk} z_{ik}
|
||||
\end{equation}
|
||||
Na základe hodnôt v centre sa vybrali tie výrazy, ktoré mali najvyššie váhy (koeficienty $\phi_{jk}$).
|
||||
Tieto slová vystihujú obsah príslušného zhluku a umožňujú kvalitatívne posúdiť, aké témy boli v kolekcii textov objavené.
|
||||
|
||||
\section{Záver}
|
||||
Redukcia rozmerov pomocou PCA zlepšila stabilitu a čitateľnosť výsledkov.
|
||||
Zhlukovanie metódou K-means v kombinácii s výpočtom WSS poskytlo praktický nástroj na určenie počtu tém.
|
||||
|
||||
Pre finálny model s $k=8$ boli identifikované nasledujúce tematické oblasti (zoradené podľa dôležitosti slov v centre):
|
||||
\begin{itemize}
|
||||
\item Gastronómia: food, city, restaurants, new, york, restaurant, wine.
|
||||
\item Biznis a správy: company, business, said, week, years, year.
|
||||
\item Šéfkuchári a menu: restaurant, mr, chef, opens, news, bar, menu.
|
||||
\item Literatúra a život: life, world, new, book, home, family, father.
|
||||
\item Spoločnosť a ľudia: black, white, people, says, men, women, century.
|
||||
\item Film a TV: movie, tv, times, film, series, story, based.
|
||||
\item Dizajn a architektúra: house, designer, design, early, years, century.
|
||||
\item Umenie a práca: work, artist, art, day, young, life.
|
||||
\end{itemize}
|
||||
Reference in New Issue
Block a user