CSV v PySpark

Včerejší bojování s HDF5 a konverzí do CSV nese dnešní plody. Protože jde o skoro 3GB dataset, nejsem schopný s ním provést cokoliv v rámci klasického pythonu - natož skrze Pandas nebo Numpy. Cesty by byly, ale když už v zadání mám pracovat s Hadoopem a PySparkem, tak jak na to. Prve: nahrál jsem pomocí… Continue reading CSV v PySpark

HDF5 a PySpark? Peklíčko…

Pracuju teď na jednom pracovním úkolu, který nebudu rozebírat. Nicméně součástí zadání je zpracování dat, která byla předána v HDF5 formátu (v tomto formátu bylo předáno mnoho souborů). Což je supr dupr formát pro předání dat, nicméně Spark, respektive PySpark si s ním neumí pořádně poradit. Strávil jsem skoro 20 hodin tím, že jsem načítal… Continue reading HDF5 a PySpark? Peklíčko…

Konfigurace hadoop+hive+spark

Jsem si teď začal hrát s Hadoopem, Sparkem a Hivem. Takže si zaarchivuju konfiguraci toolů. Prvně: Na Ubuntu je nutný mít nainstalovaný ssh a Javu Pak si z spark.apache.org/ stáhnout aktuální distribuci Sparku, z hive.apache.org/  aktuální distribuci Hive a z hadoop.apache.org/ patřičný Hadoop. Následně pak Derby: https://db.apache.org/derby/ Pozor, kam je přesuneš, protože podle toho bude třeba používat roota. Pro pohodlnější chod… Continue reading Konfigurace hadoop+hive+spark