Spark slow AF

Strávil jsem víkend tuněním mýho localhostu, protože když jsem ve spustil job, který sestával z prostého vyhození duplicitních záznamů v datasetu, trvalo vykonání tohoto úkolu 22h. No, nechal jsem to doběhnout ze zvědavosti, jak se to bude chovat na konci.

Nic moc.

Screenshot ze soboty 3.6.

screenshot-chajim-4040-2017-06-03-16-46-30

K posrání.

Ale co naplat.

 

Do /conf/spark-env.sh jsem zapsal:

 


export SPARK_WORKER_MEMORY=2g
export SPARK_EXECUTOR_MEMORY=2g
export SPARK_WORKER_INSTANCES=4
export SPARK_WORKER_CORES=1
export SPARK_WORKER_DIR="C:\datatools\workdir"

Což se tváří, že by mohlo vést ke zrychlení. Ale teda nevím nevím.

screenshot-chajim-4040-2017-06-05-18-47-26.png

No, tohle není zrovna dvakrát skvělý. Ale je to o něco málo lepší, než předchozí verze. Akorát teda v tuto chvíli moc nevím, jak na dellím localhostu s 4jádrovým i7 procesorem s 8GB RAM zlepšit výpočetní výkon. Docela rád bych to přenesl na GPU, ale to nevím, zatím, jak se dělá:-/

 

 

Advertisements

Zanechat Odpověď

Vyplňte detaily níže nebo klikněte na ikonu pro přihlášení:

WordPress.com Logo

Komentujete pomocí vašeho WordPress.com účtu. Odhlásit / Změnit )

Twitter picture

Komentujete pomocí vašeho Twitter účtu. Odhlásit / Změnit )

Facebook photo

Komentujete pomocí vašeho Facebook účtu. Odhlásit / Změnit )

Google+ photo

Komentujete pomocí vašeho Google+ účtu. Odhlásit / Změnit )

Připojování k %s