working compiled but with errors
This commit is contained in:
2
.gitignore
vendored
Normal file
2
.gitignore
vendored
Normal file
@@ -0,0 +1,2 @@
|
|||||||
|
*.aux
|
||||||
|
*.log
|
||||||
5
docs/.gitignore
vendored
Normal file
5
docs/.gitignore
vendored
Normal file
@@ -0,0 +1,5 @@
|
|||||||
|
*.aux
|
||||||
|
*.log
|
||||||
|
*.toc
|
||||||
|
*.lof
|
||||||
|
*.out
|
||||||
26
docs/usu_sem2/1/1.tex
Normal file
26
docs/usu_sem2/1/1.tex
Normal file
@@ -0,0 +1,26 @@
|
|||||||
|
\section{Document topic discovery}
|
||||||
|
Cieľom je identifikovať kapitoly v novinových článkoch bez použitia vopred definovaných tried. Analýzou štatistického rozdelenia medzi dokumentami systém zoskupuje podobné články do odlišných zhlukov, pričom každý zhluk reprezentuje tému(topic).
|
||||||
|
|
||||||
|
\section{Matematická reprezentácia textu}
|
||||||
|
Proces objavovania začína transformáciou surového textu do vysokodimenzionálneho vektorového priestoru. Podľa metodológie tvorby príznakov je každý dokument reprezentovaný pomocou vkladania TF-IDF (Term Frequency–Inverse Document Frequency).
|
||||||
|
|
||||||
|
Pre zaistenie štatistickej robustnosti je komponenta term frequency (TF) vypočítaná pomocou logaritmicky škálovaného vzorca. Tento prístup zabraňuje tomu, aby bežné slová s vysokými počtami neúmerne ovplyvňovali model, a namiesto toho sa zameriava na informačnú hodnotu výrazov. Inverse Document Frequency (IDF) ďalej spresňuje túto reprezentáciu penalizáciou výrazov, ktoré sa vyskytujú príliš často v celom korpuse, čím uprednostňuje slová špecifické a charakteristické pre jednotlivé témy.
|
||||||
|
|
||||||
|
\section{Optimalizácia a redukcia šumu}
|
||||||
|
Dokumentové vektory v priestore surových slov často obsahujú významný šum a vysokú redundanciu. Na vyriešenie „prekliatia dimenzionality“ a zlepšenie stability zhlukovania pipeline zahŕňa metódu hlavných komponentov (PCA).
|
||||||
|
|
||||||
|
Tento krok transformuje pôvodné príznaky na kompaktnú množinu hlavných komponentov, ktoré zachytávajú maximálny rozptyl v dátach. Projekciou dokumentov do tohto redukovaného priestoru systém zahadzuje menej informatívne dimenzie a sústredí sa na najvýznamnejšie tematické smery. Táto redukcia dimenzie je kľúčová pre odhalenie skrytých vzorov, ktoré by mohli byť v pôvodnej vysokodimenzionálnej reprezentácii zakryté.
|
||||||
|
|
||||||
|
\section{Zhlukovací rámec}
|
||||||
|
Jadrom objavovania tém je K-Means algoritmus, iteračná zhlukovacia metóda navrhnutá na rozdelenie dát do odlišných skupín. Každá skupina je definovaná centroidom, ktorý predstavuje matematický stred témy.
|
||||||
|
|
||||||
|
Podľa ustálených teoretických algoritmov proces začína náhodnou inicializáciou stredov zhlukov. Na zmiernenie rizika konvergencie do suboptimálnych lokálnych miním — častého problému v zhlukovaní — systém využíva stratégiu viacerých štartov. Vykonaním niekoľkých nezávislých behov s rôznymi inicializáciami a výberom výsledku s najnižšou vnútornou varianciou pipeline zabezpečuje stabilnejšie a presnejšie tematické zoskupovanie.
|
||||||
|
|
||||||
|
\section{Stanovenie granularity tém}
|
||||||
|
Voľba vhodného počtu tém je riadená pomocou metódy „lakeť“ (Elbow Method), založenej na vnútrozhlukovom súčte štvorcov (WSS). So zvyšujúcim sa počtom zhlukov WSS prirodzene klesá. Systém však hľadá bod „lakťa“ — špecifický počet zhlukov, kde sa miera zlepšenia rozptylu výrazne spomalí. Tento bod predstavuje optimálny kompromis medzi jednoduchosťou modelu a jeho opisnou silou, čím sa zabezpečuje, že témy nie sú ani príliš široké, ani nadbytočne rozdelené.
|
||||||
|
|
||||||
|
\section{Interpretácia objavených tém}
|
||||||
|
Záverečná fáza pipeline zahŕňa preklad matematických centroidov späť do ľudsky čitateľných tém. Keďže zhlukovanie prebieha v redukovanom dimenzionálnom priestore, aplikuje sa inverzná transformácia na mapovanie centroidov späť do pôvodného priestoru slov. Identifikáciou výrazov s najvyššou váhou v každom centre systém identifikuje kľúčové slová charakterizujúce každú tému. To umožňuje kvalitatívne zhodnotenie objavených tém, čím sa efektívne premieňajú matematické súradnice na zrozumiteľné sumáre obsahu dátovej sady.
|
||||||
|
|
||||||
|
\section{Teoretické základy}
|
||||||
|
Pipeline je striktne prispôsobená teoretickým rámcom strojového učenia. Logika vektorizácie a škálovania je odvodená z Kapitoly 8, konkrétne sa zameriava na mapovanie príznakov a váženie TF-IDF. Redukcia dimenzie a inverzná transformácia nasledujú metodológie PCA z Kapitoly 8.3. Logika zhlukovania, vrátane iteračného priraďovania, výpočtu WSS a diagnostického použitia metódy „lakeť“, je založená na princípoch učenia bez učiteľa uvedených v Kapitole 13.
|
||||||
26
docs/usu_sem2/1/2.tex
Normal file
26
docs/usu_sem2/1/2.tex
Normal file
@@ -0,0 +1,26 @@
|
|||||||
|
\section{Cieľ projektu}
|
||||||
|
Primárnym cieľom tohto projektu je identifikovať skryté tematické štruktúry v kolekcii novinových dokumentov bez použitia vopred definovaných tried. Analýzou štatistického rozdelenia výrazov a sémantických vzťahov medzi dokumentami systém zoskupuje podobné články do odlišných zhlukov, pričom každý zhluk predstavuje jedinečnú tému.
|
||||||
|
|
||||||
|
\section{Matematická reprezentácia textu}
|
||||||
|
Proces objavovania začína transformáciou surového textu do vysokorozmerného vektorového priestoru. Podľa metodológie inžinierstva príznakov (kapitola 8) je každý dokument reprezentovaný pomocou vkladania TF-IDF (Term Frequency–Inverse Document Frequency).
|
||||||
|
|
||||||
|
Aby sa zabránilo neúmernému vplyvu bežných slov s vysokými počtami, frekvencia slov (TF) sa počíta pomocou logaritmickej škály: $\text{TF}(w,d) = \log(1 + f(w,d))$, kde $f(w,d)$ je počet výskytov slova $w$ v dokumente $d$. Inverzná frekvencia dokumentov (IDF) penalizuje slová, ktoré sa vyskytujú príliš často v celom korpuse: $\text{IDF}(w,D) = \log\left(\frac{N}{f(w,D) + 1}\right)$, kde $N$ je počet dokumentov a $f(w,D)$ je počet dokumentov obsahujúcich slovo $w$. Výsledné TF-IDF vkladanie je dané súčinom $\text{TF-IDF}(w,d,D) = \text{TF}(w,d) \cdot \text{IDF}(w,D)$.
|
||||||
|
|
||||||
|
\section{Optimalizácia a redukcia šumu}
|
||||||
|
Dokumentové vektory v priestore slov obsahujú značný šum a redundanciu. Na vyriešenie prekliatia dimenzionality a zlepšenie stability zhlukovania sa používa metóda hlavných komponentov (PCA) podľa kapitoly 8.3.
|
||||||
|
|
||||||
|
Tento krok transformuje pôvodné príznaky na množinu hlavných komponentov, ktoré zachytávajú maximálny rozptyl v dátach. Projekciou dokumentov do redukovaného priestoru sa odstránia menej informatívne dimenzie a systém sa sústredí na najvýznamnejšie tematické smery. Táto redukcia dimenzie je kľúčová pre odhalenie skrytých vzorov, ktoré môžu byť v pôvodnej vysokorozmernej reprezentácii zakryté.
|
||||||
|
|
||||||
|
\section{Zhlukovací rámec}
|
||||||
|
Jadrom objavovania tém je K-means algoritmus (kapitola 13), iteračná metóda zhlukovania, ktorá rozdeľuje dáta do $k$ zhlukov. Každý zhluk je definovaný centroidom $\theta_m$, ktorý predstavuje jeho stred. Algoritmus minimalizuje funkciu nehodnovernosti $l_\Theta^k(x) = \min_{m=1,\dots,k} \|x - \theta_m\|_2^2$, kde $\Theta = [\theta_1, \dots, \theta_k]$ je matica centier.
|
||||||
|
|
||||||
|
Proces začína náhodnou inicializáciou centier. Aby sa predišlo konvergencii do suboptimálnych lokálnych miním, používa sa stratégia viacnásobnej inicializácie: algoritmus sa spustí niekoľkokrát s rôznymi počiatočnými centrami a vyberie sa riešenie s najnižšou celkovou vnútrozhlukovou sumou štvorcov.
|
||||||
|
|
||||||
|
\section{Stanovenie granularity tém}
|
||||||
|
Výber vhodného počtu zhlukov $k$ sa realizuje metódou lakťa, ktorá je založená na vnútrozhlukovej sume štvorcov (WSS). WSS sa definuje ako súčet funkcií nehodnovernosti pre všetky body: $\text{WSS} = \sum_{i=1}^n l_\Theta^k(x_i)$. So zvyšujúcim sa $k$ hodnota WSS klesá. Metóda lakťa hľadá bod, v ktorom sa zlepšenie (pokles WSS) výrazne spomalí; tento bod určuje optimálny kompromis medzi jednoduchosťou modelu a jeho presnosťou.
|
||||||
|
|
||||||
|
\section{Interpretácia objavených tém}
|
||||||
|
Pre interpretáciu objavených tém sa centroidy zhlukov premapujú späť do pôvodného priestoru slov pomocou inverznej transformácie. V tomto priestore sa identifikujú výrazy s najvyššími váhami v každom centroide, ktoré charakterizujú danú tému. Tento postup umožňuje kvalitatívne zhodnotenie objavených tém a ich preklad do zrozumiteľných kľúčových slov.
|
||||||
|
|
||||||
|
\section{Teoretické základy}
|
||||||
|
Navrhnutý pipeline dôsledne vychádza z teoretických rámcov uvedených v učebnici. Vektorizácia a škálovanie sú založené na kapitole 8, konkrétne na metodike mapovania príznakov a vážení TF-IDF. Redukcia dimenzie a inverzná transformácia sa riadia postupmi PCA opísanými v kapitole 8.3. Logika zhlukovania, vrátane iteračného priraďovania, výpočtu WSS a diagnostického použitia metódy lakťa, je odvodená z princípov učenia bez učiteľa v kapitole 13.
|
||||||
44
docs/usu_sem2/1/3.tex
Normal file
44
docs/usu_sem2/1/3.tex
Normal file
@@ -0,0 +1,44 @@
|
|||||||
|
\section{Cieľ}
|
||||||
|
Primárnym cieľom je identifikovať tématické celky v kolekcii bez použitia vopred definovaných tried. Ide o úlohu učenia bez učiteľa. Analýzou štatistického rozdelenia výrazov a vzťahov medzi dokumentmi systém zoskupuje podobné články do odlišných zhlukov, pričom každý zhluk reprezentuje špecifickú tému.
|
||||||
|
|
||||||
|
\section{Matematická reprezentácia textu}
|
||||||
|
Proces začína transformáciou textu do vektorového priestoru. Každý dokument je reprezentovaný pomocou vkladania TF-IDF (\textit{Term Frequency–Inverse Document Frequency}).
|
||||||
|
|
||||||
|
Aby sa zabránilo neúmernému vplyvu bežných slov s vysokou početnosťou, počíta sa frekvencia slov (TF):
|
||||||
|
\begin{equation}
|
||||||
|
\text{TF}(w,d) = \log(1 + f(w,d))
|
||||||
|
\end{equation}\label{eq:1}
|
||||||
|
kde $f(w,d)$ predstavuje relatívny počet výskytov slova $w$ v dokumente $d$. Inverzná frekvencia dokumentov (IDF) podľa vzťahu \ref{eq:1} vyjadruje mieru informácie, ktorú slovo poskytuje na základe jeho výskytu $D$:
|
||||||
|
\begin{equation}
|
||||||
|
\text{IDF}(w,D) = \log\left(\frac{N}{f(w,D) + 1}\right)
|
||||||
|
\end{equation}
|
||||||
|
kde $N$ je celkový počet dokumentov. Výsledné TF-IDF je definované ako súčin týchto dvoch hodnôt.
|
||||||
|
|
||||||
|
\section{Optimalizácia a redukcia šumu}
|
||||||
|
Vektory obsahujú značný šum a redundanciu. Na vyriešenie problému „prekliatia dimenzionality“ a zlepšenie stability zhlukovania bola aplikovaná Metóda hlavných komponentov (PCA).
|
||||||
|
|
||||||
|
Tento krok transformuje pôvodné príznaky na množinu hlavných komponentov, ktoré zachytávajú maximálny rozptyl v dátach. Ide o ortogonálnu lineárnu transformáciu do novej bázy, kde prvých $m$ komponentov aproximuje pôvodné dáta. Projekciou dokumentov do tohto redukovaného priestoru sa odstránia menej informatívne dimenzie.
|
||||||
|
|
||||||
|
\section{Zhlukovanie}
|
||||||
|
K-means je iteračná metóda zhlukovania. Algoritmus rozdeľuje priestor príznakov do $k$ disjunktných regiónov, pričom minimalizuje funkciu nehodnovernosti:
|
||||||
|
\begin{equation}
|
||||||
|
L(\Theta) = \frac{1}{n} \sum_{i=1}^n \min_{m=1,\dots,k} \|x_i - \theta_m\|_2^2
|
||||||
|
\end{equation}
|
||||||
|
kde $\theta_m$ predstavuje súradnice centra $m$-tého zhluku. Aby sa predišlo konvergencii do lokálnych miním, bola zvolená stratégia viacnásobnej inicializácie, kedy sa vyberá riešenie s najnižšou celkovou vnútrozhlukovou sumou štvorcov (WSS).
|
||||||
|
|
||||||
|
\section{Stanovenie granularity tém}
|
||||||
|
Výber vhodného počtu tém $k$ sa realizuje pomocou „metódy lakťa“. Tento proces analyzuje WSS ako funkciu počtu zhlukov:
|
||||||
|
\begin{equation}
|
||||||
|
\text{WSS} = \sum_{i=1}^n l_\Theta^k(x_i)
|
||||||
|
\end{equation}
|
||||||
|
S narastajúcim $k$ hodnota WSS klesá. Optimálny počet tém sa nachádza v bode, kde dochádza k výraznému zlomu v regresii poklesu (lakeť), čo predstavuje ideálny kompromis medzi komplexnosťou modelu a mierou vysvetleného rozptylu dát.
|
||||||
|
|
||||||
|
\section{Interpretácia objavených tém}
|
||||||
|
Finálna interpretácia objavených tém:
|
||||||
|
\begin{equation}
|
||||||
|
x_{ij} \approx \sum_{k=1}^m \phi_{jk} z_{ik}
|
||||||
|
\end{equation}
|
||||||
|
Pomocou tejto inverznej transformácie identifikujeme v každom centroide výrazy s najvyššími váhami. Tieto kľúčové slová definujú obsah jednotlivých zhlukov, čím umožňujú kvalitatívne zhodnotenie úspešnosti procesu objavovania tém.
|
||||||
|
|
||||||
|
\section{Záver}
|
||||||
|
Redukcia dimenzie a následná interpretácia dát sa riadia postupmi PCA. Logika zhlukovania, identifikácia optimálnej granularity a diagnostika modelu sú odvodené z princípov učenia bez učiteľa.
|
||||||
76
docs/usu_sem2/1/4.tex
Normal file
76
docs/usu_sem2/1/4.tex
Normal file
@@ -0,0 +1,76 @@
|
|||||||
|
\section{Cieľ}
|
||||||
|
Hlavným cieľom je zistiť, aké tematické oblasti sa prirodzene vyskytujú v kolekcii textov bez toho, aby boli vopred určené triedy alebo kategórie. Ide teda o úlohu učenia bez učiteľa.
|
||||||
|
Na základe štatistického rozdelenia výrazov a podobností medzi dokumentmi zoskupíme články do niekoľkých zhlukov, pričom každý z nich by mal zodpovedať určitej téme.
|
||||||
|
|
||||||
|
\section{Matematická reprezentácia textu}
|
||||||
|
Na to, aby bolo možné texty matematicky spracovať, je potrebné ich previesť do vektorovej podoby.
|
||||||
|
Využitá bola reprezentácia TF-IDF (\textit{Term Frequency–Inverse Document Frequency}), ktorá priraďuje vyššiu váhu slovám, ktoré sú pre daný dokument typické, ale nie príliš časté.
|
||||||
|
|
||||||
|
Frekvencia slov (TF) sa počíta pomocou logaritmickej mierky:
|
||||||
|
\begin{equation}
|
||||||
|
\text{TF}(w,d) = \log(1 + f(w,d)) \label{eq:tf}
|
||||||
|
\end{equation}
|
||||||
|
kde $f(w,d)$ označuje počet výskytov slova $w$ v dokumente $d$.
|
||||||
|
Inverzná frekvencia dokumentov (IDF) vyjadruje, ako informačne je slovo prínosné vzhľadom na svoj výskyt v súbore dokumentov $D$:
|
||||||
|
\begin{equation}
|
||||||
|
\text{IDF}(w,D) = \log\left(\frac{N}{f(w,D) + 1}\right) \label{eq:idf}
|
||||||
|
\end{equation}
|
||||||
|
kde $N$ predstavuje celkový počet dokumentov.
|
||||||
|
Finálna hodnota TF-IDF je daná súčinom týchto dvoch členov.
|
||||||
|
|
||||||
|
\section{Optimalizácia a redukcia šumu}
|
||||||
|
Vektory TF-IDF obsahujú aj značný šum a redundantné informácie, čo môže negatívne ovplyvniť kvalitu zhlukovania.
|
||||||
|
Preto bola použitá metóda hlavných komponentov (PCA), aby sa znížili rozmery dát a zároveň zachovali čo najviac variabilitu.
|
||||||
|
|
||||||
|
PCA premieta pôvodné dáta do priestoru hlavných komponentov, ktoré sú lineárne nezávislé a postupne zachytávajú najväčší rozptyl v dátach.
|
||||||
|
Projekciou na prvých niekoľko komponentov sa odstránia menej informatívne rozmery a tým sa model zjednoduší.
|
||||||
|
|
||||||
|
\section{Zhlukovanie}
|
||||||
|
Na samotné zhlukovanie bol použitý algoritmus K-means.
|
||||||
|
Ide o iteratívny algoritmus, ktorý rozdeľuje priestor príznakov do $k$ skupín a minimalizuje nasledujúcu funkciu nezhody:
|
||||||
|
\begin{equation}
|
||||||
|
L(\Theta) = \frac{1}{n} \sum_{i=1}^n \min_{m=1,\dots,k} \|x_i - \theta_m\|_2^2
|
||||||
|
\end{equation}
|
||||||
|
kde $\theta_m$ označuje vektor súradníc $m$-tého centra.
|
||||||
|
Aby algoritmus neskončil v lokálnom minime, bola zvolená viacnásobná inicializácia a výsledok s najnižšou vnútrozhlukovou sumou štvorcov WSS.
|
||||||
|
|
||||||
|
\section{Stanovenie granularity tém}
|
||||||
|
Počet výsledných zhlukov $k$ nebol určený dopredu, ale bol odhadovaný pomocou metódy lakťa.
|
||||||
|
Sleduje sa pritom pokles hodnoty WSS v závislosti od počtu $k$:
|
||||||
|
\begin{equation}
|
||||||
|
\text{WSS} = \sum_{i=1}^n l_\Theta^k(x_i)
|
||||||
|
\end{equation}
|
||||||
|
Pri zvyšovaní $k$ hodnota WSS spravidla klesá.
|
||||||
|
Optimálna hodnota $k$ sa zvolí v mieste, kde sa krivka začne postupne vyrovnávať, teda v „lakti“. Tento bod predstavuje kompromis medzi presnosťou a zložitosťou modelu.
|
||||||
|
|
||||||
|
\begin{figure}[h]
|
||||||
|
\centering
|
||||||
|
\includegraphics[width=0.8\textwidth]{wss_plot.eps}
|
||||||
|
\caption{Závislosť sumy štvorcov (WSS) od počtu zhlukov $k$. Lakeť indikuje optimálnu granularitu tém.}
|
||||||
|
\label{fig:elbow}
|
||||||
|
\end{figure}
|
||||||
|
|
||||||
|
\section{Interpretácia objavených tém}
|
||||||
|
Po vykonaní zhlukovania boli centrá jednotlivých zhlukov interpretované ako reprezentanti tém.
|
||||||
|
Použitá bola inverzná transformácia:
|
||||||
|
\begin{equation}
|
||||||
|
x_{ij} \approx \sum_{k=1}^m \phi_{jk} z_{ik}
|
||||||
|
\end{equation}
|
||||||
|
Na základe hodnôt v centre sa vybrali tie výrazy, ktoré mali najvyššie váhy (koeficienty $\phi_{jk}$).
|
||||||
|
Tieto slová vystihujú obsah príslušného zhluku a umožňujú kvalitatívne posúdiť, aké témy boli v kolekcii textov objavené.
|
||||||
|
|
||||||
|
\section{Záver}
|
||||||
|
Redukcia rozmerov pomocou PCA zlepšila stabilitu a čitateľnosť výsledkov.
|
||||||
|
Zhlukovanie metódou K-means v kombinácii s výpočtom WSS poskytlo praktický nástroj na určenie počtu tém.
|
||||||
|
|
||||||
|
Pre finálny model s $k=8$ boli identifikované nasledujúce tematické oblasti (zoradené podľa dôležitosti slov v centre):
|
||||||
|
\begin{itemize}
|
||||||
|
\item Gastronómia: food, city, restaurants, new, york, restaurant, wine.
|
||||||
|
\item Biznis a správy: company, business, said, week, years, year.
|
||||||
|
\item Šéfkuchári a menu: restaurant, mr, chef, opens, news, bar, menu.
|
||||||
|
\item Literatúra a život: life, world, new, book, home, family, father.
|
||||||
|
\item Spoločnosť a ľudia: black, white, people, says, men, women, century.
|
||||||
|
\item Film a TV: movie, tv, times, film, series, story, based.
|
||||||
|
\item Dizajn a architektúra: house, designer, design, early, years, century.
|
||||||
|
\item Umenie a práca: work, artist, art, day, young, life.
|
||||||
|
\end{itemize}
|
||||||
54
docs/usu_sem2/compiled/4.tex
Normal file
54
docs/usu_sem2/compiled/4.tex
Normal file
@@ -0,0 +1,54 @@
|
|||||||
|
\relax
|
||||||
|
\providecommand\hyper@newdestlabel[2]{}
|
||||||
|
\@writefile{toc}{\contentsline {section}{\numberline {1}Cieľ}{1}{section.1}\protected@file@percent }
|
||||||
|
\@writefile{toc}{\contentsline {section}{\numberline {2}Matematická reprezentácia textu}{1}{section.2}\protected@file@percent }
|
||||||
|
\newlabel{eq:tf}{{1}{1}{Matematická reprezentácia textu}{equation.1}{}}
|
||||||
|
\newlabel{eq:idf}{{2}{1}{Matematická reprezentácia textu}{equation.2}{}}
|
||||||
|
\@writefile{toc}{\contentsline {section}{\numberline {3}Optimalizácia a redukcia šumu}{1}{section.3}\protected@file@percent }
|
||||||
|
\@writefile{toc}{\contentsline {section}{\numberline {4}Zhlukovanie}{1}{section.4}\protected@file@percent }
|
||||||
|
\@writefile{toc}{\contentsline {section}{\numberline {5}Stanovenie granularity tém}{2}{section.5}\protected@file@percent }
|
||||||
|
\@writefile{lof}{\contentsline {figure}{\numberline {1}{\ignorespaces Závislosť sumy štvorcov (WSS) od počtu zhlukov $k$. Lakeť indikuje optimálnu granularitu tém.}}{2}{figure.caption.3}\protected@file@percent }
|
||||||
|
\providecommand*\caption@xref[2]{\@setref\relax\@undefined{#1}}
|
||||||
|
\newlabel{fig:elbow}{{1}{2}{Závislosť sumy štvorcov (WSS) od počtu zhlukov $k$. Lakeť indikuje optimálnu granularitu tém}{figure.caption.3}{}}
|
||||||
|
\@writefile{toc}{\contentsline {section}{\numberline {6}Interpretácia objavených tém}{2}{section.6}\protected@file@percent }
|
||||||
|
\@writefile{toc}{\contentsline {section}{\numberline {7}Záver}{3}{section.7}\protected@file@percent }
|
||||||
|
\@setckpt{1/4}{
|
||||||
|
\setcounter{page}{4}
|
||||||
|
\setcounter{equation}{5}
|
||||||
|
\setcounter{enumi}{0}
|
||||||
|
\setcounter{enumii}{0}
|
||||||
|
\setcounter{enumiii}{0}
|
||||||
|
\setcounter{enumiv}{0}
|
||||||
|
\setcounter{footnote}{0}
|
||||||
|
\setcounter{mpfootnote}{0}
|
||||||
|
\setcounter{part}{0}
|
||||||
|
\setcounter{section}{7}
|
||||||
|
\setcounter{subsection}{0}
|
||||||
|
\setcounter{subsubsection}{0}
|
||||||
|
\setcounter{paragraph}{0}
|
||||||
|
\setcounter{subparagraph}{0}
|
||||||
|
\setcounter{figure}{1}
|
||||||
|
\setcounter{table}{0}
|
||||||
|
\setcounter{section@level}{1}
|
||||||
|
\setcounter{Item}{0}
|
||||||
|
\setcounter{Hfootnote}{0}
|
||||||
|
\setcounter{bookmark@seq@number}{7}
|
||||||
|
\setcounter{AM@survey}{0}
|
||||||
|
\setcounter{caption@flags}{2}
|
||||||
|
\setcounter{continuedfloat}{0}
|
||||||
|
\setcounter{KVtest}{0}
|
||||||
|
\setcounter{subfigure}{0}
|
||||||
|
\setcounter{subfigure@save}{0}
|
||||||
|
\setcounter{lofdepth}{1}
|
||||||
|
\setcounter{subtable}{0}
|
||||||
|
\setcounter{subtable@save}{0}
|
||||||
|
\setcounter{lotdepth}{1}
|
||||||
|
\setcounter{float@type}{64}
|
||||||
|
\setcounter{graph}{0}
|
||||||
|
\setcounter{pic}{0}
|
||||||
|
\setcounter{tabulka}{0}
|
||||||
|
\setcounter{lstnumber}{1}
|
||||||
|
\setcounter{parentequation}{0}
|
||||||
|
\setcounter{imagecounter}{0}
|
||||||
|
\setcounter{lstlisting}{0}
|
||||||
|
}
|
||||||
BIN
docs/usu_sem2/compiled/main.pdf
Normal file
BIN
docs/usu_sem2/compiled/main.pdf
Normal file
Binary file not shown.
176
docs/usu_sem2/main.tex
Normal file
176
docs/usu_sem2/main.tex
Normal file
@@ -0,0 +1,176 @@
|
|||||||
|
\documentclass[12pt,a4paper]{article}
|
||||||
|
\usepackage[utf8]{inputenc}
|
||||||
|
\usepackage[slovak,shorthands=off]{babel}
|
||||||
|
\usepackage[T1]{fontenc}
|
||||||
|
\usepackage{indentfirst}
|
||||||
|
\usepackage[top=2.5cm, bottom=2cm, left=2cm, right=2cm]{geometry}
|
||||||
|
\setlength{\headheight}{13.0721pt}
|
||||||
|
\usepackage[unicode]{hyperref}
|
||||||
|
\usepackage[medium]{titlesec}
|
||||||
|
\usepackage{tikz}
|
||||||
|
\usetikzlibrary{positioning}
|
||||||
|
|
||||||
|
%bakalarka
|
||||||
|
%\usepackage{fontspec}
|
||||||
|
%\setmainfont{Times} % Sets the font to Times New Roman
|
||||||
|
%\usepackage[a4paper, margin=3.5cm, top=2.5cm, bottom=2.5cm, right=2cm, left=3.5cm]{geometry} % Sets the page margins and size
|
||||||
|
\usepackage{setspace} % Provides \setstretch command for line spacing
|
||||||
|
\setstretch{1.2} % Sets the line spacing to 1.5
|
||||||
|
|
||||||
|
%\usepackage[margin=3.5cm, top=2.5cm, bottom=2.5cm, right=2.5cm, left=3.5cm]{geometry} % Sets the page margins and size
|
||||||
|
|
||||||
|
%SECTION FONT SIZE
|
||||||
|
%SECTION FONT SIZE
|
||||||
|
%SECTION FONT SIZE
|
||||||
|
\usepackage{titlesec}
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
\usepackage[rightcaption]{sidecap}
|
||||||
|
%ked napises \frac, dostanes zlomocek, ked napises \ddfrac
|
||||||
|
%tak mas formatovanie pre zlozeny zlomok
|
||||||
|
\newcommand\ddfrac[2]{\frac{\displaystyle #1}{\displaystyle #2}}
|
||||||
|
\usepackage{multirow}
|
||||||
|
\usepackage[table,xcdraw]{xcolor}
|
||||||
|
% \usepackage[demo]{graphicx}
|
||||||
|
\usepackage{siunitx}
|
||||||
|
\usepackage{setspace}
|
||||||
|
\usepackage{wrapfig}
|
||||||
|
\usepackage{enumerate}
|
||||||
|
\usepackage{enumitem}
|
||||||
|
\usepackage{calc}
|
||||||
|
\usepackage{pdfpages}
|
||||||
|
\usepackage{graphicx}
|
||||||
|
\usepackage{subfig}
|
||||||
|
\usepackage{chngcntr}
|
||||||
|
\usepackage{textcomp}
|
||||||
|
\usepackage{gensymb}
|
||||||
|
\usepackage{float}
|
||||||
|
\usepackage{caption}
|
||||||
|
\newfloat{graph}{htbp}{grp}
|
||||||
|
\floatname{graph}{Graf}
|
||||||
|
\newfloat{pic}{htbp}{pic}
|
||||||
|
\floatname{pic}{Obrázok}
|
||||||
|
\newfloat{tabulka}{htbp}{tbl}
|
||||||
|
\floatname{tabulka}{Tabulka}
|
||||||
|
\usepackage{caption}
|
||||||
|
|
||||||
|
\DeclareCaptionFormat{lstlisting}{Príloha \thelstlisting: #3}
|
||||||
|
\captionsetup[lstlisting]{format=lstlisting}
|
||||||
|
|
||||||
|
% \counterwithin{graph}{section}
|
||||||
|
% \counterwithin{figure}{section}
|
||||||
|
% \counterwithin{table}{section}
|
||||||
|
% \counterwithin{equation}{section}
|
||||||
|
|
||||||
|
%\RequirePackage[backend=bibtex, style=trad-abbrv, citestyle=numeric, sorting=none, natbib=true, doi=false, backref=true, defernumbers=true]{biblatex}
|
||||||
|
\usepackage[
|
||||||
|
backend=biber,
|
||||||
|
natbib=true,
|
||||||
|
style=numeric,
|
||||||
|
sorting=none
|
||||||
|
]{biblatex}
|
||||||
|
\usepackage{csquotes}
|
||||||
|
\bibliography{zdroje.bib}
|
||||||
|
% Set the language-specific strings
|
||||||
|
\DeclareFieldFormat{labeldate}{\mknumalph{#1}} % Remove parentheses around the year
|
||||||
|
|
||||||
|
\DefineBibliographyStrings{slovak}{%
|
||||||
|
andothers = {et al.},
|
||||||
|
and = {a},
|
||||||
|
in = {}
|
||||||
|
}
|
||||||
|
|
||||||
|
\usepackage{listings}
|
||||||
|
\usepackage{csquotes}
|
||||||
|
\usepackage{steinmetz}
|
||||||
|
\usepackage{amssymb}
|
||||||
|
\usepackage{amsmath}
|
||||||
|
\usepackage{matlab-prettifier}
|
||||||
|
\usepackage{bm}
|
||||||
|
\usepackage[italicdiff]{physics}
|
||||||
|
\usepackage{array}
|
||||||
|
\usepackage{tabu}
|
||||||
|
\usepackage{comment}
|
||||||
|
\usepackage{setspace}
|
||||||
|
|
||||||
|
\usepackage{fancyhdr}
|
||||||
|
\usepackage{lmodern}
|
||||||
|
\pagestyle{fancy}
|
||||||
|
|
||||||
|
\rhead{USU}
|
||||||
|
|
||||||
|
%OBRAZKY
|
||||||
|
\usepackage{caption}
|
||||||
|
\usepackage{tocloft}
|
||||||
|
\newcounter{imagecounter}
|
||||||
|
\usepackage[table]{xcolor}
|
||||||
|
\usepackage{tabularx}
|
||||||
|
\usepackage{booktabs}
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
\usepackage{geometry}
|
||||||
|
\usepackage{enumitem}
|
||||||
|
|
||||||
|
% Custom checklist
|
||||||
|
\newlist{checklist}{itemize}{1}
|
||||||
|
\setlist[checklist]{
|
||||||
|
label=$\square$,
|
||||||
|
leftmargin=*,
|
||||||
|
nosep
|
||||||
|
}
|
||||||
|
|
||||||
|
% Code listing setup
|
||||||
|
\usepackage{listings}
|
||||||
|
\lstset{
|
||||||
|
basicstyle=\ttfamily\small,
|
||||||
|
breaklines=true,
|
||||||
|
frame=single,
|
||||||
|
framerule=0pt,
|
||||||
|
framesep=3pt,
|
||||||
|
xleftmargin=10pt
|
||||||
|
}
|
||||||
|
|
||||||
|
|
||||||
|
\begin{document}
|
||||||
|
|
||||||
|
%vlozi PDFko s nazvom 1.pdf
|
||||||
|
|
||||||
|
\include{titulka}
|
||||||
|
\pagenumbering{gobble}
|
||||||
|
\pagestyle{empty}
|
||||||
|
|
||||||
|
%\includepdf[pages=-]{Priečinský.pdf}\label{pdf:1}
|
||||||
|
|
||||||
|
%\newpage
|
||||||
|
|
||||||
|
\tableofcontents
|
||||||
|
|
||||||
|
\listoffigures
|
||||||
|
|
||||||
|
%\newpage
|
||||||
|
|
||||||
|
%\listoftables
|
||||||
|
|
||||||
|
%vlozi list 1.tex
|
||||||
|
|
||||||
|
\newpage
|
||||||
|
\pagenumbering{arabic}
|
||||||
|
\pagestyle{fancy}
|
||||||
|
\setcounter{page}{1}
|
||||||
|
|
||||||
|
|
||||||
|
\include{1/4}
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
\end{document}
|
||||||
|
|
||||||
|
|
||||||
|
VELKOSTI NADPISOV
|
||||||
|
section = 16pt CAPITAL
|
||||||
|
subsection = 14pt normal
|
||||||
|
subsubsection = 12pt normal
|
||||||
|
subsubsubsection = 11pt normal
|
||||||
32
docs/usu_sem2/titulka.tex
Normal file
32
docs/usu_sem2/titulka.tex
Normal file
@@ -0,0 +1,32 @@
|
|||||||
|
\thispagestyle{empty}
|
||||||
|
\begin{center}
|
||||||
|
|
||||||
|
{\LARGE\textbf{Žilinská univerzita v Žiline}}
|
||||||
|
|
||||||
|
\medskip
|
||||||
|
{\large \textbf{Fakulta riadenia a informatiky}}
|
||||||
|
|
||||||
|
\medskip
|
||||||
|
{\large \textbf{Úvod do strojového učenia}}
|
||||||
|
|
||||||
|
\vfill
|
||||||
|
{\bfseries \LARGE{Semestrálna práca č. 2}}
|
||||||
|
|
||||||
|
\vspace{0.25cm}
|
||||||
|
{\large \textbf{Document topic discovery}}
|
||||||
|
|
||||||
|
\vfill
|
||||||
|
\vfill
|
||||||
|
|
||||||
|
|
||||||
|
\noindent
|
||||||
|
\textbf{Školský rok:} 2025/26
|
||||||
|
\hspace*{\fill}
|
||||||
|
\textbf{Skupina:} 5ZIF11
|
||||||
|
\hspace*{\fill}
|
||||||
|
\textbf{Meno:} Filip Priečinský
|
||||||
|
|
||||||
|
\end{center}
|
||||||
|
|
||||||
|
\newpage
|
||||||
|
\setcounter{page}{1}
|
||||||
BIN
docs/usu_sem2/usu_semestralka2.zip
Normal file
BIN
docs/usu_sem2/usu_semestralka2.zip
Normal file
Binary file not shown.
BIN
docs/usu_sem2/wss_plot-eps-converted-to.pdf
Normal file
BIN
docs/usu_sem2/wss_plot-eps-converted-to.pdf
Normal file
Binary file not shown.
1452
docs/usu_sem2/wss_plot.eps
Normal file
1452
docs/usu_sem2/wss_plot.eps
Normal file
File diff suppressed because it is too large
Load Diff
Reference in New Issue
Block a user