Sémantika a jak poznat relevantní materiál

Sedím nad projektem, jehož zadání jsem ještě před měsícem ne zcela chápal. Teda ne, že by nebylo jasné, to zas cíle a timeframe a všechno bylo zadáno dost konkrétně, ale dosah a problémy, které budu řešit, jsem nedovedl domyslet.   Vtipný je, že ač jsem utekl z PR a marketingu k data analýze a vývoji… Continue reading Sémantika a jak poznat relevantní materiál

Applied Machine Learning in Python – w1

Moje oblíbené školící centrum Coursera spustilo s University of Michigan kurz Applied Machine Learning in Python. Protože se tomu furt nějak věnuju, začal jsem plnit zadaný úkoly. No, první týden je o jednoduchosti jménem k-NN. Což o to, nic komplikovanýho to není, ale teda furt si nemůžu zvyknout na tyhlety známkovací automaty. Měl jsem velkej zásek… Continue reading Applied Machine Learning in Python – w1

Spark slow AF

Strávil jsem víkend tuněním mýho localhostu, protože když jsem ve spustil job, který sestával z prostého vyhození duplicitních záznamů v datasetu, trvalo vykonání tohoto úkolu 22h. No, nechal jsem to doběhnout ze zvědavosti, jak se to bude chovat na konci. Nic moc. Screenshot ze soboty 3.6. K posrání. Ale co naplat.   Do /conf/spark-env.sh jsem… Continue reading Spark slow AF

CSV v PySpark

Včerejší bojování s HDF5 a konverzí do CSV nese dnešní plody. Protože jde o skoro 3GB dataset, nejsem schopný s ním provést cokoliv v rámci klasického pythonu - natož skrze Pandas nebo Numpy. Cesty by byly, ale když už v zadání mám pracovat s Hadoopem a PySparkem, tak jak na to. Prve: nahrál jsem pomocí… Continue reading CSV v PySpark

HDF5 a PySpark? Peklíčko…

Pracuju teď na jednom pracovním úkolu, který nebudu rozebírat. Nicméně součástí zadání je zpracování dat, která byla předána v HDF5 formátu (v tomto formátu bylo předáno mnoho souborů). Což je supr dupr formát pro předání dat, nicméně Spark, respektive PySpark si s ním neumí pořádně poradit. Strávil jsem skoro 20 hodin tím, že jsem načítal… Continue reading HDF5 a PySpark? Peklíčko…

Doporučovací systém se Sparkem

Protože se učím PySpark, respektive Spark jako takovej, dostal jsem se k základnímu zadání: napsat doporučovací systém. Ten na základě hodnocení filmů vybere takové filmy, které se uživateli budou nejpravděpodobněji líbit. Zde popsaná implementace je hodně jednoduchá, pro učební účely ale dostatečná. A pochází z tutorialu na Codementor.io. Podobný systém jsem již jednou tvořil. Vznikal… Continue reading Doporučovací systém se Sparkem

Game of Life – smrt vítězí

Výsledek dnešní prokrastinace na poradě? Game of Life! Hra, která má jednoduchý pravidlo: vezmi buňku a pokud jsou její sousedi živi, buňka bude živá (0->1, 1->1), pokud jediný její soused je mrtvý, buňka umře (1->0, 0->0). Testuje se na kříž, tedy vpravo, vlevo, nahoře, dole. Takže tady kód v pythonu: http://ideone.com/m8HuxF Názorná ukázka, že stačí… Continue reading Game of Life – smrt vítězí