Skip to content

Převedení textu na čísla (vektorizace)

Výukový materiál pro pochopení toho, jak umělá inteligence pracuje s textem.
Vše je napsáno jednoduše – zvládne to každý, kdo umí trochu Python.


Jak začít

1. Klonování (nebo stažení) repozitáře

bash
git clone https://github.com/bubilem/dev-zapisnik.git
cd dev-zapisnik/docs/ai/word-embeding

2. Instalace závislostí

Pro příklady 01, 02 a 04 nejsou potřeba žádné knihovny (čistý Python 3).

Pro příklad 03 (Word2Vec + vizualizace) je potřeba nainstalovat:

bash
pip install gensim matplotlib scikit-learn

3. Spuštění příkladů

bash
# Přejdi do složky s příklady
cd src

# Spusť postupně:
python 01_one_hot_encoding.py
python 02_bag_of_words_tfidf.py
python 03_word_embedding.py       # vyžaduje: gensim, matplotlib, scikit-learn
python 04_cosine_similarity.py

Doporučené pořadí studia

KrokSouborCo se naučíš
1word-to-vector.mdProč AI potřebuje čísla, základní metody převodu
201_one_hot_encoding.pyOne-Hot Encoding v praxi
302_bag_of_words_tfidf.pyBag of Words a TF-IDF v praxi
4word-embedding.mdJak funguje Word2Vec (teorie)
503_word_embedding.pyWord2Vec trénování a vizualizace
6cosine-similarity.mdJak měřit podobnost vektorů (teorie)
704_cosine_similarity.pyKosinova podobnost + mini vyhledávač

Přehled metod

MetodaCo děláZachycuje smysl slov?
One-Hot EncodingKaždé slovo = jeden 1 v dlouhém seznamu nulNe
Bag of WordsText = počty výskytů slovNe
TF-IDFJako BoW, ale vzácná slova mají vyšší váhuNe
Word EmbeddingSlovo = krátký hustý vektor naučený z datAno
Kosinova podobnostMěří úhel mezi dvěma vektory (0 = různé, 1 = stejné)

Použité technologie

  • Python 3.x – základní příklady (bez instalace)
  • Gensim – Word2Vec trénování
  • Matplotlib – vizualizace grafů
  • scikit-learn – PCA redukce dimenzí

Tipy pro učitele

  • Příklady 01 a 02 lze spustit i v online Python interpretu (např. repl.it) bez instalace.
  • Příklad 03 vytvoří soubor word2vec_plot.png – studenti ho mohou porovnat a diskutovat o tom, proč jsou slova rozmístěna tak, jak jsou.
  • Doporučujeme začít s malým corpusem (jako v ukázkách) a pak experimentovat s přidáváním vlastních vět.