Datové struktury I - NTIN066 - ZS 2015/2016 - 5. úkol

Termín odevzdání: 19. leden 2016.
Způsob odevzdání: Odesláním v příloze emailem na ds1@kam.mff.cuni.cz.

Pravidla

Veškerý odevzdaný kód musí být originální tedy vytvořen vámi bez jakékoliv vedlejší "inspirace".
Svůj kód s nikým nesdílejte, aby se váš kód nestal něčí "inspirací". Výjimku tvoří odevzdání kódu.
Úkol a možné postupy řešení můžete probírat s ostatními, avšak respektuje výše uvedené o nesdílení kódu. To znamená - společná diskuse je povolena, ale programujte sami.
Povolené jsou řešení v jazycích C/C++ (doporučený jazyk), Java a C#.
Používejte standardní konstrukce vašeho programovacího jazyka, ale už ne speciální knihovní funkce.
Řešení, která nejsou ve shodě s těmito pravidly, nebudou hodnocená.

Popis problému

Implementujte dvě hašovací tabulky a dva systémy hašovacích funkcích. Následně je srovnejte na dvou variantách operací složených z vložení a vyhledávání. Operace Insert vytváří množinu, tedy Insert s duplicitním klíčem nezmění tabulku, jen se započítá do statistik. První varianta operací, Insert, je zvolena tak, že vyhledávání tvoří 20 % operací. Druhá varianta, Find, tak, že vyhledání tvoří 80 % operací.

Implementujte lineární přidávávaní (linear probing) dle prědnášky. Implementujte variantu kukaččího hašování z přednášky s jedinou tabulkou. Velikost tabulky zvolte rovnou parametru M, který je popsán v sekci o generování dat. Pro generovaní dat pro kukačkové hašování použijte parametr C, který omezí faktor naplnění.

Systémy funkcí

Nechť U = {0, ..., 2^u - 1} je univerzum a m=2^k je velikost hašovací tabulky. Popsané systémy funkcí hašují univerzum U do prostoru {0, ..., m - 1}. Pro účely zadaní použijte jako univerzum množinu {0, ..., 2³² - 1}. Generátor dat generuje hodnoty z množiny {0, ..., 2³¹ - 1}.

Tabulační funkce. Nechť x je prvek univerza U, představme si jej jako bitový řetězec rozdělený na c stejně dlouhých částí, t.j. x = x₁x₂...x_c. Pro každou z těchto c částí uniformně náhodně inicializujme její tabulku, která obsahuje 2^u/c bitových řetězců délky k. Pak h(x) = T₁(x₁) ⊕ T₂(x₂) ⊕ ... ⊕ T_c(x_c). Tedy pro každou část získáme index do tabulky, kde je uloženo číslo z množiny {0, ..., m - 1}. Výsledek hašovací funkce je XOR takhle získaných hodnot. Rychlá implementace spoléhá na fixní volbu c, například c = 4.

Multiplikativní funkce. Nechť x je prvek z univerza U, a nechť a ∈ U - {0} je uniformně náhodně zvolené číslo. Pak h(x) = ((a * x) mod |U|) / (|U| / m).. Pro 32-bitové univerzum lze tutu funkci implementovat efektivně pomocí posunů a zanedbání přetečení při násobení.

Výsledek měření

Pro každou variantu dat udělejte dva grafy. První graf bude ukazovat průměrný počet operací na jednu operaci Insert nebo Find vzhledem k faktoru naplnění, druhý graf bude ukazovat průměrný čas (zvolte milisekundy nebo mikrosekundy tak, aby byl graf přehledný) na operaci Insert nebo Find vzhledem k faktoru naplnění.

Linear Probing: Počet operací pro Insert nebo Find je 1 + délka sekvence, kterou bylo nutné projít k nalezení nebo vložení prvku.
Kukačkové hašování: Find potřebuje jednu nebo dvě operace. Insert zkusí nejdřív vyhledat prvek, tohle vyžaduje jednu nebo dvě operace. Když vkládaný prvek není nalezen, pak udělá několik "swap" operací. Také započítejte i operace swap z případných rehash operací. Maximální počet rehashů v jedné operaci Insert nastavte na 15. V případě, že některý Insert tento limit překročí, daný běh do výsledku nezapočítavejte. V případě, že každý běh pro daný faktor naplnění skončí selháním, load factor do grafu nezahrnujte/neho ho zakreslete jako nulu.

Sepište zprávu, v níž bude:

čtyři grafy s naměřenými výsledky. V každém grafu vykreslete 4 funkce. V grafu operací pro daný faktor naplnění sečtěte celkový počet operací a vydělte jej počtem operací Find a Insert. Obdobně v grafe časů zakreslete závislost průměrného času na operaci Find/Insert.
Komentář shrnující chování algoritmu.

Generování dat

Pro vygenerování testovacích dat použijte už zkompilovaný generátor /afs/ms.mff.cuni.cz/u/b/babkm5am/ds1/hw5/hashgen dostupný v unixové laboratoři Rotunda. Spusťte ho s následujícími parametry:

-s XX, kde XX jsou poslední dvě číslice vašeho studentského čísla;
--short, pro kratší data;
I, pokud chcete vygenerovat data, v kterých převládá operace Insert;
F, pokud chcete vygenerovat data, v kterých převládá operace Find;
C, pokud chcete generovat data pro Cuckoo Hashing přidejte tenhle argument, maximální faktor naplnění bude omezen na 55 %.

Generátor produkuje textový výstup, každý řádek je tvaru:

# N M: začátek běhu pro množinu velikosti N uložené do tabulky velikosti M – zrušte starou tabulku a založte novou. Velikost množin se vám může hodit při kreslení grafů. Navíc velikost M bude během generovaní dat pořád stejná a bude to mocnina dvojky. N určuje velikost množiny, kterou tenhle běh vytvoří, t.j. počet úspěšných Insert operací v běhu.
I X: vložení klíče X do tabulky;
F X: vyhledání klíče X v tabulce.

Na jedno spuštění generátor vytvoří sadu testů s faktorem naplnění od 30 do 90% (nebo 55 %, pokud jste zadali i parameter C). Pro každý faktor naplnění jsou vygenerovány čtyři běhy. Výsledky zakreslete zprůměrovány přes tyto běhy.

Příklad vstupu

# 2 4
I 1
I 2
I 1
I 3
F 1
# 3 4
I 2
I 3
I 7
I 3
I 2
F 2
F 0

Odevzdání

Pošlete e-mail s předmětem tvaru 'HW5-55973318' (t.j. HW5-studentské číslo) s těmito přílohami:

zdrojový text, na kterém jste vše naměřili (pokud je složen z více souborů, zabalte je ZIPem nebo TARem do jednoho),
PDF s grafy a komentáři.

Tělo e-mailu nechť obsahuje údaje podle tohoto vzoru:


Jmeno: Martin Babka
Pseudonym pro vysledky na webu: Babočka Admirál
Cviceni: pondeli-12:20-lichy