Įdiekite „Apache Hadoop“ į „Ubuntu 17“.10!

„Apache Hadoop“ yra didelis duomenų sprendimas, skirtas kaupti ir analizuoti didelius duomenų kiekius. Šiame straipsnyje mes išsamiai aprašysime sudėtingus „Apache Hadoop“ sąrankos veiksmus, kad kuo greičiau pradėtumėte jį naudoti „Ubuntu“. Šiame įraše mes įdiegsime „Apache Hadoop“ „Ubuntu 17“.10 mašina.

„Ubuntu“ versija

Šiame vadove naudosime „Ubuntu 17“ versiją.10 (GNU / Linux 4.13.0-38-bendras x86_64).

Esamų paketų atnaujinimas

Norint pradėti diegti „Hadoop“, būtina atnaujinti savo mašiną naujausiais programinės įrangos paketais. Tai galime padaryti:

sudo apt-get update && sudo apt-get -y dist-upgrade

Kadangi „Hadoop“ yra pagrįstas „Java“, turime jį įdiegti savo kompiuteryje. Mes galime naudoti bet kurią „Java“ versiją virš „Java 6“. Čia mes naudosime „Java 8“:

sudo apt-get -y įdiekite openjdk-8-jdk-headless

Hadoop failų atsisiuntimas

Dabar visi reikalingi paketai yra mūsų mašinoje. Esame pasirengę atsisiųsti reikalingus „Hadoop TAR“ failus, kad galėtume pradėti juos nustatyti ir paleisti programos pavyzdį su „Hadoop“.

Šiame vadove mes įdiegsime „Hadoop v3“.0.1. Atsisiųskite atitinkamus failus naudodami šią komandą:

wget http: // veidrodis.cc.Kolumbija.edu / pub / programinė įranga / apache / hadoop / common / hadoop-3.0.1 / hadoop-3.0.1.degutas.gz

Atsižvelgiant į tinklo greitį, tai gali užtrukti kelias minutes, nes failas yra didelis:

Atsisiunčiama „Hadoop“

Čia rasite naujausius „Hadoop“ dvejetainius failus. Dabar, kai turime atsisiųstą TAR failą, galime išskleisti dabartiniame kataloge:

derva xvzf hadoop-3.0.1.degutas.gz

Tai užtruks kelias sekundes dėl didelio archyvo failo dydžio:

„Hadoop“ išarchyvuotas

Pridėta nauja „Hadoop“ vartotojų grupė

Kadangi „Hadoop“ veikia per HDFS, nauja failų sistema taip pat gali sutrikdyti mūsų pačių failų sistemą „Ubuntu“ kompiuteryje. Kad išvengtume šio susidūrimo, sukursime visiškai atskirą vartotojų grupę ir priskirsime ją „Hadoop“, kad joje būtų savi leidimai. Naudodami šią komandą galime pridėti naują vartotojų grupę:

papildoma grupė hadoop

Pamatysime kažką panašaus:

Pridedama „Hadoop“ vartotojų grupė

Esame pasirengę įtraukti naują vartotoją į šią grupę:

useradd -G hadoop hadoopuser

Atkreipkite dėmesį, kad visos mūsų vykdomos komandos yra pačios šakninio vartotojo. Naudodami komandą „aove“, prie savo sukurtos grupės galėjome pridėti naują vartotoją.

Kad „Hadoop“ vartotojas galėtų atlikti operacijas, turime suteikti jam ir root prieigą. Atidaryk / etc / sudoers failas su šia komanda:

sudo visudo

Prieš ką nors pridėdami, failas atrodys taip:

Sudoers failą, prieš ką nors pridėdami

Į failo pabaigą įtraukite šią eilutę:

hadoopuser VISI = (VISI) VISI

Dabar failas atrodys taip:

Sudoers failas pridėjus Hadoop vartotoją

Tai buvo pagrindinė sąranka, suteikiant „Hadoop“ platformą veiksmams atlikti. Dabar esame pasirengę nustatyti vieno mazgo „Hadoop“ grupę.

„Hadoop“ vieno mazgo sąranka: autonominis režimas

Kalbant apie tikrąją „Hadoop“ galią, jis paprastai nustatomas keliuose serveriuose, kad jis galėtų mastelį keisti ant didelio duomenų rinkinio, esančio „Hadoop“ paskirstyta failų sistema (HDFS). Paprastai tai tinka derinant aplinkas ir nenaudojama gamybai. Kad procesas būtų paprastas, paaiškinsime, kaip čia galime atlikti vieno mazgo nustatymą „Hadoop“.

Baigę įdiegti „Hadoop“, taip pat paleisime pavyzdinę programą „Hadoop“. Nuo šiol „Hadoop“ failas vadinamas „hadoop-3“.0.1. pavadinkime jį „hadoop“, kad būtų paprasčiau:

mv hadoop-3.0.1 hadoopas

Dabar failas atrodo taip:

Judantis Hadoopas

Laikas pasinaudoti anksčiau sukurtu „hadoop“ vartotoju ir priskirti šiam vartotojui šio failo nuosavybės teises:

chown -R hadoopuser: hadoopas / šaknis / hadoopas

Geresnė „Hadoop“ vieta bus / usr / local / katalogas, todėl perkelkime ją ten:

mv hadoop / usr / local /
CD / usr / vietinis /

Hadoopo pridėjimas prie kelio

Norėdami vykdyti „Hadoop“ scenarijus, mes dabar jį pridėsime prie kelio. Norėdami tai padaryti, atidarykite failą bashrc:

vi ~ /.bashrc

Pridėkite šias eilutes prie pabaigos .„bashrc“ failą, kad kelyje būtų „Hadoop“ vykdomojo failo kelias:

# Konfigūruokite „Hadoop“ ir „Java Home“
eksportuoti HADOOP_HOME = / usr / local / hadoop
eksportuoti JAVA_HOME = / usr / lib / jvm / java-8-openjdk-amd64
eksportuoti PATH = $ PATH: $ HADOOP_HOME / bin

Failas atrodo taip:

Hadoopo pridėjimas prie kelio

Kadangi „Hadoop“ naudoja „Java“, turime pasakyti „Hadoop“ aplinkos failui hadoop-env.sh kur jis yra. Šio failo vieta gali skirtis priklausomai nuo „Hadoop“ versijų. Norėdami lengvai rasti, kur yra šis failas, paleiskite šią komandą tiesiai už „Hadoop“ katalogo:

rasti hadoop / -name hadoop-env.sh

Mes gausime failo vietos išvestį:

Aplinkos failo vieta

Redaguokime šį failą, kad „Hadoop“ būtų informuotas apie „Java JDK“ vietą, įterpkite jį paskutinėje failo eilutėje ir išsaugokite:

eksportuoti JAVA_HOME = / usr / lib / jvm / java-8-openjdk-amd64

„Hadoop“ diegimas ir sąranka baigta. Dabar esame pasirengę vykdyti pavyzdinę programą. Bet palaukite, mes niekada nepateikėme pavyzdinės paraiškos!

„Hadoop“ veikia pavyzdinė programa

Tiesą sakant, „Hadoop“ diegimas yra su įmontuota pavyzdine programa, kuri yra parengta paleisti, kai baigsime įdiegti „Hadoop“. Skamba gerai, tiesa?

Paleiskite šią komandą, kad paleistumėte JAR pavyzdį:

hadoop jar / root / hadoop / share / hadoop / mapreduce / hadoop-mapreduce-pavyzdžiai-3.0.1.jar wordcount / root / hadoop / README.txt / root / Output

Hadoopas parodys, kiek apdorojo mazge:

„Hadoop“ apdoroja statistiką

Kai atliksite šią komandą, failą part-r-00000 matysime kaip išvestį. Pažvelk į išvesties turinį:

katės dalis-r-00000

Jūs gausite kažką panašaus:

Žodžių skaičiaus išvestis iš Hadoopo

Išvada

Šioje pamokoje mes apžvelgėme, kaip galime įdiegti „Apache Hadoop“ ir pradėti jį naudoti „Ubuntu 17“.10 mašina. „Hadoop“ puikiai tinka saugoti ir analizuoti didžiulį duomenų kiekį ir tikiuosi, kad šis straipsnis padės greitai pradėti naudoti „Ubuntu“.