Spark slow AF

Strávil jsem víkend tuněním mýho localhostu, protože když jsem ve spustil job, který sestával z prostého vyhození duplicitních záznamů v datasetu, trvalo vykonání tohoto úkolu 22h. No, nechal jsem to doběhnout ze zvědavosti, jak se to bude chovat na konci. Nic moc. Screenshot ze soboty 3.6. K posrání. Ale co naplat.   Do /conf/spark-env.sh jsem… Continue reading Spark slow AF

HDF5 a PySpark? Peklíčko…

Pracuju teď na jednom pracovním úkolu, který nebudu rozebírat. Nicméně součástí zadání je zpracování dat, která byla předána v HDF5 formátu (v tomto formátu bylo předáno mnoho souborů). Což je supr dupr formát pro předání dat, nicméně Spark, respektive PySpark si s ním neumí pořádně poradit. Strávil jsem skoro 20 hodin tím, že jsem načítal… Continue reading HDF5 a PySpark? Peklíčko…

Konfigurace hadoop+hive+spark

Jsem si teď začal hrát s Hadoopem, Sparkem a Hivem. Takže si zaarchivuju konfiguraci toolů. Prvně: Na Ubuntu je nutný mít nainstalovaný ssh a Javu Pak si z spark.apache.org/ stáhnout aktuální distribuci Sparku, z hive.apache.org/  aktuální distribuci Hive a z hadoop.apache.org/ patřičný Hadoop. Následně pak Derby: https://db.apache.org/derby/ Pozor, kam je přesuneš, protože podle toho bude třeba používat roota. Pro pohodlnější chod… Continue reading Konfigurace hadoop+hive+spark