Sémantika a jak poznat relevantní materiál

Sedím nad projektem, jehož zadání jsem ještě před měsícem ne zcela chápal. Teda ne, že by nebylo jasné, to zas cíle a timeframe a všechno bylo zadáno dost konkrétně, ale dosah a problémy, které budu řešit, jsem nedovedl domyslet.   Vtipný je, že ač jsem utekl z PR a marketingu k data analýze a vývoji… Continue reading Sémantika a jak poznat relevantní materiál

Database systems – the complete book

Přišla knížka, kterou jsem vyhlížel netrpělivěji, než pětiletej Ježíška. Database Systems - The Complete Book. Je brzo psát nějakou recenzi, protože ji nemám pročtenou, ale kupoval jsem ji, protože vím, co v ní je a jak je použitelná. Skvělá příručka, která pokrývá tématiku databázových systémů - od A do Z. Návrh databáze, struktura,  data procesing,… Continue reading Database systems – the complete book

Spark slow AF

Strávil jsem víkend tuněním mýho localhostu, protože když jsem ve spustil job, který sestával z prostého vyhození duplicitních záznamů v datasetu, trvalo vykonání tohoto úkolu 22h. No, nechal jsem to doběhnout ze zvědavosti, jak se to bude chovat na konci. Nic moc. Screenshot ze soboty 3.6. K posrání. Ale co naplat.   Do /conf/spark-env.sh jsem… Continue reading Spark slow AF

CSV v PySpark

Včerejší bojování s HDF5 a konverzí do CSV nese dnešní plody. Protože jde o skoro 3GB dataset, nejsem schopný s ním provést cokoliv v rámci klasického pythonu - natož skrze Pandas nebo Numpy. Cesty by byly, ale když už v zadání mám pracovat s Hadoopem a PySparkem, tak jak na to. Prve: nahrál jsem pomocí… Continue reading CSV v PySpark

HDF5 a PySpark? Peklíčko…

Pracuju teď na jednom pracovním úkolu, který nebudu rozebírat. Nicméně součástí zadání je zpracování dat, která byla předána v HDF5 formátu (v tomto formátu bylo předáno mnoho souborů). Což je supr dupr formát pro předání dat, nicméně Spark, respektive PySpark si s ním neumí pořádně poradit. Strávil jsem skoro 20 hodin tím, že jsem načítal… Continue reading HDF5 a PySpark? Peklíčko…

Doporučovací systém se Sparkem

Protože se učím PySpark, respektive Spark jako takovej, dostal jsem se k základnímu zadání: napsat doporučovací systém. Ten na základě hodnocení filmů vybere takové filmy, které se uživateli budou nejpravděpodobněji líbit. Zde popsaná implementace je hodně jednoduchá, pro učební účely ale dostatečná. A pochází z tutorialu na Codementor.io. Podobný systém jsem již jednou tvořil. Vznikal… Continue reading Doporučovací systém se Sparkem

Konfigurace hadoop+hive+spark

Jsem si teď začal hrát s Hadoopem, Sparkem a Hivem. Takže si zaarchivuju konfiguraci toolů. Prvně: Na Ubuntu je nutný mít nainstalovaný ssh a Javu Pak si z spark.apache.org/ stáhnout aktuální distribuci Sparku, z hive.apache.org/  aktuální distribuci Hive a z hadoop.apache.org/ patřičný Hadoop. Následně pak Derby: https://db.apache.org/derby/ Pozor, kam je přesuneš, protože podle toho bude třeba používat roota. Pro pohodlnější chod… Continue reading Konfigurace hadoop+hive+spark