Podstawy Uczenia Maszynowego (Machine Learning - ML)

1. Czym jest Uczenie Maszynowe?

Uczenie maszynowe (ML) to poddziedzina sztucznej inteligencji, która koncentruje się na budowaniu systemów uczących się na podstawie danych. Zamiast być explicitnie programowanym do wykonania konkretnego zadania (np. "jeśli kliknięto przycisk A, to pokaż okno B"), algorytm ML samodzielnie znajduje w danych wzorce i reguły, które pozwalają mu podejmować decyzje lub (prognozować).

Kluczowym założeniem ML jest: Im więcej i im lepszych danych dostarczymy, tym "mądrzejszy" i dokładniejszy stanie się model.

2. Dane, Cechy i Etykiety – Co to jest Dataset?

Aby maszyna mogła się uczyć, potrzebuje danych. Zbiór tych danych nazywamy datasetem (zbiorem danych). Możemy go sobie wyobrazić jako ogromną tabelę, np. w Excelu.

Dataset (Zbiór Danych): To strukturalny zbiór przykładów, na których uczy się model. Każdy wiersz w tej tabeli to jeden przykład (lub obserwacja), a każda kolumna to jedna cecha (lub atrybut).
Cechy (Features): To są wejściowe, mierzalne właściwości lub charakterystyki zjawiska, które badamy. Są to dane, na podstawie których model się uczy.
- Przykład:
  - Chcąc przewidzieć cenę domu, cechami mogą być: metraż, liczba pokoi, dzielnica, rok budowy.
  - Rozpoznając zwierzęta, cechami mogą być: wysokość, waga, obecność futra, kolor, kształt uszu.
Etykiety (Labels): To jest pożądane wyjście lub odpowiedź, której chcemy się nauczyć przewidywać. Etykiety są obecne tylko w przypadku uczenia nadzorowanego (Supervised Learning).
- Przykład:
  - Dla cen domów, etykietą jest cena.
  - D dla zwierząt, etykietą jest nazwa gatunku (np. "kot", "pies", "koń").

Podsumowanie: Dataset to jak podręcznik dla komputera. Cechy to pytania i zadania w podręczniku, a etykiety to poprawne odpowiedzi znajdujące się w kluczu na końcu książki.

3. Czym jest Model i jak się "uczy"?

Model: To jest "mózg" lub serce całego systemu ML. Model to matematyczna funkcja (lub zbiór reguł), która przyjmuje na wejściu dane (cechy) i zwraca na wyjściu przewidywanie. Proces uczenia polega na dostrojeniu parametrów tej funkcji tak, aby jej przewidywania były jak najbliższe prawdzie (etykietom).
Jak się uczy? (Analogia z dzieckiem uczącym się rozpoznawać zwierzęta) Wyobraźmy sobie, że uczymy małe dziecko, jak odróżnić kota od psa.
- Pokazujemy przykłady (Dane Treningowe): Pokazujemy dziecku wiele zdjęć, mówiąc: "To jest kot", "To jest pies", "To też jest kot".
- Dziecko wypatruje wzorców (Proces Uczenia): Jego mózg (który jest "modelem") zaczyna dostrzegać pewne prawidłowości: "Koty mają zazwyczaj bardziej pionowe źrenice", "Psy są często większe", "Koty mają kocie uszy, a psy psie".
- Poprawianie błędów (Optymalizacja): Gdy dziecko pomyli wilka z psem, poprawiamy je: "To nie pies, to wilk. Zwróć uwagę na kształt pyska i ogon". Dziecko koryguje swój wewnętrzny model.
- Stosowanie wiedzy (Predykcja): Po obejrzeniu setek zdjęć, dziecko widzi nowe, nieznane mu wcześniej zwierzę i mówi: "To jest pies!". Na podstawie wyuczonych cech (kształt uszu, nosa, sylwetka) potrafi dokonać generalizacji – czyli zastosować wiedzę do nowej, niewidzianej wcześniej sytuacji.

W ML dzieje się bardzo podobnie: Algorytm (np. sieć neuronowa) "przegląda" dane treningowe (krok 1), szuka matematycznych wzorców pomiędzy cechami a etykietami (krok 2), a specjalny mechanizm (tzw. funkcja straty i optymalizator) ciągle go poprawia, minimalizując liczbę błędów (krok 3). Finalnie, wytrenowany model jest gotowy do przewidywania na nowych danych (krok 4).

4. Podział na Zbiór Treningowy, Walidacyjny i Testowy

Aby mieć pewność, że nasz model naprawdę się czegoś nauczył, a nie tylko zapamiętał dane na pamięć (jak uczeń, który "wykuł" odpowiedzi, ale nie zrozumiał materiału), dzielimy nasz dataset na trzy oddzielne części:

Zbiór Treningowy (Training Set)
- Cel: Nauczenie modelu. To są dane, na których model bezpośrednio się uczy. To jego "podręcznik".
- Wielkość: Zazwyczaj 60-80% wszystkich danych.
- W analogii: To wszystkie zdjęcia, które pokazaliśmy dziecku, podając nazwy zwierząt.
Zbiór Walidacyjny (Validation Set)
- Cel: Dostrojenie parametrów i wybór najlepszego modelu. Używamy go podczas uczenia, aby sprawdzić, jak dobrze radzi sobie model na danych, których nie widział podczas trenowania. Pomaga wybrać optymalne ustawienia (tzw. hiperparametry).
- Wielkość: Zazwyczaj 10-20% wszystkich danych.
- W analogii: To nowy zestaw zdjęć, które pokazujemy dziecku w trakcie nauki, aby je przetestować i zdecydować, czy potrzebuje więcej ćwiczeń z psami, a mniej z kotami. Na podstawie wyników "walidacyjnych" dostrajamy proces uczenia.
Zbiór Testowy (Test Set)
- Cel: Ostateczna ocena modelu. Ten zbiór jest używany TYLKO RAZ, na samym końcu, po zakończeniu całego procesu uczenia i dostrajania. Ma on sprawdzić, jak model będzie radził sobie w prawdziwym, niespotkanym świecie. Symuluje rzeczywiste wdrożenie.
- Wielkość: Zazwyczaj 10-20% wszystkich danych.
- W analogii: To egzamin końcowy. Dajemy dziecku zupełnie nowy album ze zdjęciami, których wcześniej nie widziało. Jego wynik na tym egzaminie jest miarą jego prawdziwej wiedzy i zdolności do rozpoznawania nowych zwierząt. Egzaminu nie można powtarzać w kółko, bo wtedy straciłby swoją wiarygodność.

Dlaczego ten podział jest taki ważny? Zapobiega przetrenowaniu (overfitting). To sytuacja, w której model idealnie pamięta dane treningowe (łącznie z ich błędami i szumem), ale jest bezużyteczny w kontakcie z nowymi danymi – jak uczeń, który bezbłędnie recytuje podręcznik, ale nie potrafi rozwiązać zadania, które wymaga zrozumienia idei.