Sémantika a jak poznat relevantní materiál

Sedím nad projektem, jehož zadání jsem ještě před měsícem ne zcela chápal. Teda ne, že by nebylo jasné, to zas cíle a timeframe a všechno bylo zadáno dost konkrétně, ale dosah a problémy, které budu řešit, jsem nedovedl domyslet.   Vtipný je, že ač jsem utekl z PR a marketingu k data analýze a vývoji… Continue reading Sémantika a jak poznat relevantní materiál

Reklamy

Database systems – the complete book

Přišla knížka, kterou jsem vyhlížel netrpělivěji, než pětiletej Ježíška. Database Systems - The Complete Book. Je brzo psát nějakou recenzi, protože ji nemám pročtenou, ale kupoval jsem ji, protože vím, co v ní je a jak je použitelná. Skvělá příručka, která pokrývá tématiku databázových systémů - od A do Z. Návrh databáze, struktura,  data procesing,… Continue reading Database systems – the complete book

Applied Machine Learning in Python – w1

Moje oblíbené školící centrum Coursera spustilo s University of Michigan kurz Applied Machine Learning in Python. Protože se tomu furt nějak věnuju, začal jsem plnit zadaný úkoly. No, první týden je o jednoduchosti jménem k-NN. Což o to, nic komplikovanýho to není, ale teda furt si nemůžu zvyknout na tyhlety známkovací automaty. Měl jsem velkej zásek… Continue reading Applied Machine Learning in Python – w1

Spark slow AF

Strávil jsem víkend tuněním mýho localhostu, protože když jsem ve spustil job, který sestával z prostého vyhození duplicitních záznamů v datasetu, trvalo vykonání tohoto úkolu 22h. No, nechal jsem to doběhnout ze zvědavosti, jak se to bude chovat na konci. Nic moc. Screenshot ze soboty 3.6. K posrání. Ale co naplat.   Do /conf/spark-env.sh jsem… Continue reading Spark slow AF

CSV v PySpark

Včerejší bojování s HDF5 a konverzí do CSV nese dnešní plody. Protože jde o skoro 3GB dataset, nejsem schopný s ním provést cokoliv v rámci klasického pythonu - natož skrze Pandas nebo Numpy. Cesty by byly, ale když už v zadání mám pracovat s Hadoopem a PySparkem, tak jak na to. Prve: nahrál jsem pomocí… Continue reading CSV v PySpark

HDF5 a PySpark? Peklíčko…

Pracuju teď na jednom pracovním úkolu, který nebudu rozebírat. Nicméně součástí zadání je zpracování dat, která byla předána v HDF5 formátu (v tomto formátu bylo předáno mnoho souborů). Což je supr dupr formát pro předání dat, nicméně Spark, respektive PySpark si s ním neumí pořádně poradit. Strávil jsem skoro 20 hodin tím, že jsem načítal… Continue reading HDF5 a PySpark? Peklíčko…

Doporučovací systém se Sparkem

Protože se učím PySpark, respektive Spark jako takovej, dostal jsem se k základnímu zadání: napsat doporučovací systém. Ten na základě hodnocení filmů vybere takové filmy, které se uživateli budou nejpravděpodobněji líbit. Zde popsaná implementace je hodně jednoduchá, pro učební účely ale dostatečná. A pochází z tutorialu na Codementor.io. Podobný systém jsem již jednou tvořil. Vznikal… Continue reading Doporučovací systém se Sparkem