Pravděpodobnost a statistika 1 (NMAI059) - LS 2024/25
Vyučující Robert Šámal
- Souřadnice
-
Přednáška se koná v pondělí 15:40 v N1. V daném čase ji budu též nabízet
streamem.
S jistým zpožděním budou videa vystavena.
Rád vás uvidím na přednášce v co největším počtu. Pokud vám to nevyjde, tak si příslušné video
pusťte co nejdříve, na cvičení se bude očekávat, že jste ty věci už slyšeli.
Odkaz na online kvízy (funkční během přednášky).
(Nebo tento odkaz a zadat jméno roomu PRAVDASTAT.)
- Sylabus přednášky
-
najdete v SISu.
- Statistický projekt
-
- Vzory z minula
- Podmínky: vlastní data, která vás zajímají (získaná vlastním pozorováním, nějakým zajímavým vygenerováním na počítači, nebo
na internetu viz níže).
- Na nich použijete nějakou statistickou metodu z přednášky (např. intervalový test, nebo testování hypotéz).
- Obrázky, které data znázorní jsou vhodnou části projektu, ale samy o sobě nestačí.
Tj. nestačí explorační analýza, je třeba aspoň jednoduchou konfirmační.
- Zajímavé zdroje dat na internetu (pokud nemáte nějaké vlastní zdroje).
-
Vhodná forma: Jupyterový notebook. Eventuálně možno i jinak, ale odevzdávejte nejen
text s tím, co jste udělali a jak vám to vyšlo, ale i použitá data a kód. (Pokud by data byla tajná, tak je můžete
anonymizovat.
-
Odevzdávejte v Sově.
Nejpozději do 30.6. napište svoje upřesnění zadání -- na jaká data se chcete podívat a co o nich zjistit.
Váš cvičící vám případně napíše komentář o vhodnosti vašeho zadání. Také se tím dozví, že práci máte v úmyslu odevzdávat ...
Termín odevzdání finální verze vám potvrdí váš cvičící -- ale nenechávejte na poslední chvíli.
- Zkoušky
-
-
Zkoušky se můžete zúčastnit i před ziskem zápočtu, zejména za účelem poskytnutí více času
pro zpracování statistické úlohy. Nicméně i tak doporučuji neodkládat splnění
podmínek k zápočtu na poslední chvíli -- pokud váš cvičící nebude mít dost času
nebo si třeba zlomí nohu, riskujete komplikace.
Každopádně dbejte na termín 30.6. -- do té doby v Sově napište upřesnění tématu -- na
jaká data se chcete dívat a co na nich testovat.
-
Podrobnosti o zkoušce:
-
Zkouška je písemná s možností ústního dozkoušení.
-
Termíny písemné části budou vypsané v SISu do konce semestru, doba trvání 150 minut čistého času.
Jeden termín ještě přibude v září (datum bude upřesněno během léta).
-
Ke zkoušce můžete mít tahák -- papír formátu A4 oboustranně (vlastnoručně) popsaný libovolnými poznámkami.
-
Bude zkoušena látka v rozsahu, ve kterém byla přednesena.
-
Ke zkoušce si přineste průkaz totožnosti.
-
Po opravení písemky bude všem navržena známka 1-5 (tabulku s výsledky zašlu emailem přes SIS).
-
V tabulce budou uvedeny vaše iniciály. Pokud nechcete, aby ostatní zapsaní na termínu viděli vaše iniciály s vašimi
výsledky, napište výrazně na vaši písemku zvolený pseudonym, pod kterým vás mám v tabulce uvést.
-
Navržená známka může být finální, nebo si ji můžete při ústní části vylepšit
o jeden stupeň -- tj. 4 lze zlepšit na 3, 3 na 2, 2 na 1, ale 5 znamená neúspěch u tohoto termínu zkoušky.
-
Termíny pro ústní část budou vypsány v SISu současně s odesláním výsledků. Budou vypsány na stejný týden,
kapacita podle počtu studentů účastnících se písemné části.
- Loňská verze
-
Pokud budete chtít získat představu o tom, co budeme probírat, můžete se podívat na
webové stránky
minulých ročníků případně ještě starší
Moodle stránku.
(Letos ale asi některé věci budeme probírat v trochu jiném rozsahu a lépe :-).)
- Literatura
-
V knihovně najdete mnoho knih a skript k tématu,
v SISu najdete seznam doporučených knih.
Nový zdroj, k dispozici i na webu autorky je
Introduction to Probability for Computing
od Mor Harchol-Balter.
Žádná kniha ale neodpovídá probírané látce přesně.
Na tomto webu budu postupně uveřejňovat skripta odpovídající probrané látce.
Aktuální verze (update 18.2.2025 -- několik překlepů).
- Konzultační hodiny
-
Pokud vám není něco z přednášky jasné, přijďte se zeptat na vysvětlení.
- Cvičení
-
Aktivní účast na cvičení vám umožní si z předmětu odnést užitečné dovednosti a také usnadní skládání zkoušky.
Podmínky k získání zápočtu vám sdělí příslušný cvičící.
Odkazy na stránky jednotlivých cvičení:
Jiří Kalvoda,
Tereza Klimošová,
David Mikšaník,
Josef Tkadlec.
Co se dělo na přednáškách
- 1. přednáška 17.2.2025
-
Organizační poznámky, úvod. Definice, motivace, příklady pravděpodobnostních prostorů. Věta o základních vlastnostech.
Podmíněná pravděpodobnost.
video
o podmíněné pravděpodobnosti
- 2. přednáška 24.2.2025
-
Pravidlo pro výpočet pomocí zřetězení podmíněné pravděpodobnosti.
Věta o úplné pravděpodobnosti s příklady užití (Gambler's ruin).
Bayesova věta.
Ilustrace promítané během přednášky
video
- 3. přednáška 3.3.2025
-
Nezávislost jevů.
Diskrétní náhodné veličiny: popis pomocí pravděpodobnostni funkce.
Příklady diskrétních rozdělení: Bernoulliho, geometrické, binomické,
Poissonovo, zmínka o hypergeometrickém. Ilustrace samplování náhodných veličin.
Hezká vizualizace toho, co jsou to náhodné veličiny
Ilustrace promítané během přednášky
Notebook se samplováním náhodných veličin
Jupyter a html.
video
- 4. přednáška 10.3.2025
-
Střední hodnota: motivace, definice.
Střední hodnota: hodnoty pro Bernoulliho, geometrické, binomické a Poissonovo rozdělení.
(Odbočka: Poissonovo paradigma.)
Alternativní definice pro diskrétní pravděpodobnostní prostor.
Střední hodnota diskrétní náhodné veličiny: vlastnosti (linearita), výpočet pro různá rozdělení.
Aplikace vlastností střední hodnoty: MAXCUT je vždy aspoň polovina počtu hran.
video
- 5. přednáška 17.3.2025
-
Podmíněná střední hodnota, věta o celkové střední hodnotě.
Alternativní vzorec střední hodnoty pomocí survival funkce, aplikace na geometrické rozdělení.
Rozptyl a jeho vlastnosti. Výpočty pro Bernoulliho, Binomické a (trochu) Geometrické rozdělení
(různými metodami).
Náhodný vektor: sdružená pravděpodobnostní funkce a její vztah s funkcemi marginálními.
Nezávislost náhodných veličin.
video
- 6. přednáška 24.3.2025
-
Rozdělení libovolné funkce dvou náhodných veličin.
Příklad náhodných vektorů: multinomické rozdělení.
PNS pro funkci náhodného vektoru.
Střední hodnota součtu n.v., součinu nezávislých n.v.
Kovariance a její vlastnosti. Korelace vs kauzalita. Rozptyl součtu náhodných veličin.
Obecné náhodné veličiny -- motivace, definice distribuční funkce a hustoty.
korelace vs kauzalita
video -- bohužel s rušivými zvuky v části přednášky
(dejte vědět, jestli s tím něco umíte udělat)
loňské video bez ruchů
- 7. přednáška 31.3.2025
-
Vlastnosti distribuční funkce.
Spojité náhodné veličiny a jejich popis pomocí hustoty.
Využití hustoty -- výpočet pravděpodobnosti intervalu, každý bod má pravděpodobnost nula.
Hustota jako limita histogramů.
Definice střední hodnoty.
Výpočty se spojitými veličinami (Pravidlo naivního statistika, rozptyl, linearita).
Příklady spojitých rozdělení: uniformní a exponenciální.
Jejich střední hodnota a rozptyl.
Souvislost s geometrickým rozdělením.
Normální rozdělení -- hustota a pravidlo 68-95-99.7 \%.
Slajdy s histogramy, grafy hustoty, atd.
video
- 8. přednáška 7.4.2025
-
Střední hodnota $N(0,1)$ a jeho rozptyl.
Výpočet pomocí $\Phi$. Odolnost vůči součtu.
Cauchyho rozdělení (jako varování).
Paretovo rozdělení.
Mix diskrétního a spojitého rozdělení vs. jejich součet.
Spojité náhodné vektory -- sdružená distribuční funkce
Pravděpodobnost obdélníku pomocí sdružené distribuční funkce.
Slajdy s histogramy, grafy hustoty, atd.
Ilustrace spojitého náhodného vektoru -- tipněte, jaké je to rozdělení
Další ilustrace spojitého náhodného vektoru
A ještě jedna
video
- 9. přednáška 14.4.2025
-
Hustota. Nezávislost (pomocí distribuční funkce i pomocí hustoty).
Příklady na výpočty se združenou hustotou: 1) dvě nezávislé $U(0,t)$
2) jejich maximum a minimum.
Konvoluce pro spojité náhodné veličiny, příklad (součet normálních rozdělení je normální).
Důležitý příklad: vícerozměrné normální rozdělení a jeho vlastnosti (použití pro generování bodu na sféře).
Markovova nerovnost.
Zákony velkých čísel: zatím jen znění.
Ukázky výpočtů:
video
`
- není přednáška 21.4.2025
-
Užijte si velikonoční prázdniny.
- 10. přednáška 28.4.2025
-
Aplikace zákonů velkých čísel -- Monte Carlo integrování (kruhu).
Čebyševova a (bez důkazu) Chernoffova nerovnost.
Slabý zákon velkých čísel (zlepšení přesnosti opakovaným měřením).
Centrální limitní věta -- znění, vysvětlení.
Galtonova deska -- ilustrace centrální limitní věty,
detailní vysvětlení na wiki stránce.
Statistika -- základní principy. Explorační vs. konfirmační analýza.
Přehled obvyklých úloh: bodové a intervalové odhady, testování hypotéz.
Ilustrace zákona velkých čísel a CLV
Totéž v pdf
Totéž jako R-kový notebook, můžete experimentovat sami
o nutnosti náhodného výběru
promítané obrázky
video
- 11. přednáška 5.5.2025
-
Bodové ohady: výběrový průměr a výběrový rozptyl (rozdíl proti populačnímu průměru a rozptylu).
Odhady konzistentní a (asymptoticky) nevychýlené.
Vychýlení (bias) a střední kvadratická chyba (MSE).
Konstrukce odhadů pomocí metody momentů i maximální věrohodnosti.
Výběrový rozptyl je nestranný odhad rozptylu ("má se dělit $n-1$, ne $n$") -- bez důkazu.
Nicméně odhad kde se dělí $n$ má nižší MSE!
Intervalové odhady. -- úvod a popis obecné metody založené na normálním rozdělení.
promítaná prezentace
Experimentální výpočet pro bodové odhady: jupyter notebook,
google colab (netřeba nic instalovat, jen se přihlásit do google účtu)
a html verze.
video
- 12. přednáška 12.5.2025
-
Intervalové odhady: příklady použití se známým i neznámým rozptylem
Testování hypotéz.
Ilustrační příklady na úvod.
Co znamená hladina významnosti
Obecné schéma: nulová hypotéza, alternativní hypotéza, hladina významnosti, atd.
Příklad: testování mince.
Testování střední hodnoty normálního rozdělení (známý vs. neznámý rozptyl, neboli z-test vs. t-test).
video
Na konci videa říkám, že na zapsání ke zkoušce je potřeba zápočet. To byl omyl, není.
- 13. přednáška 19.5.2025 -- PLAN
-
Numerická/ordinální/kategorická data. Multinomické rozdělení.
Test dobré shody (G-test, $\chi^2$-test) -- předvedení a částečné zdůvodnění.
Lineární regrese (a možné komplikace).
Generování náhodných veličin (inverzní transformace, rejection sampling).
Přehled navazujících přednášek.
zatím loňské video