„Apache Hadoop“ yra didelis duomenų sprendimas, skirtas kaupti ir analizuoti didelius duomenų kiekius. Šiame straipsnyje mes išsamiai aprašysime sudėtingus „Apache Hadoop“ sąrankos veiksmus, kad kuo greičiau pradėtumėte jį naudoti „Ubuntu“. Šiame įraše mes įdiegsime „Apache Hadoop“ „Ubuntu 17“.10 mašina.
„Ubuntu“ versija
Šiame vadove naudosime „Ubuntu 17“ versiją.10 (GNU / Linux 4.13.0-38-bendras x86_64).
Esamų paketų atnaujinimas
Norint pradėti diegti „Hadoop“, būtina atnaujinti savo mašiną naujausiais programinės įrangos paketais. Tai galime padaryti:
sudo apt-get update && sudo apt-get -y dist-upgradeKadangi „Hadoop“ yra pagrįstas „Java“, turime jį įdiegti savo kompiuteryje. Mes galime naudoti bet kurią „Java“ versiją virš „Java 6“. Čia mes naudosime „Java 8“:
sudo apt-get -y įdiekite openjdk-8-jdk-headlessHadoop failų atsisiuntimas
Dabar visi reikalingi paketai yra mūsų mašinoje. Esame pasirengę atsisiųsti reikalingus „Hadoop TAR“ failus, kad galėtume pradėti juos nustatyti ir paleisti programos pavyzdį su „Hadoop“.
Šiame vadove mes įdiegsime „Hadoop v3“.0.1. Atsisiųskite atitinkamus failus naudodami šią komandą:
wget http: // veidrodis.cc.Kolumbija.edu / pub / programinė įranga / apache / hadoop / common / hadoop-3.0.1 / hadoop-3.0.1.degutas.gzAtsižvelgiant į tinklo greitį, tai gali užtrukti kelias minutes, nes failas yra didelis:
Atsisiunčiama „Hadoop“
Čia rasite naujausius „Hadoop“ dvejetainius failus. Dabar, kai turime atsisiųstą TAR failą, galime išskleisti dabartiniame kataloge:
derva xvzf hadoop-3.0.1.degutas.gzTai užtruks kelias sekundes dėl didelio archyvo failo dydžio:
„Hadoop“ išarchyvuotas
Pridėta nauja „Hadoop“ vartotojų grupė
Kadangi „Hadoop“ veikia per HDFS, nauja failų sistema taip pat gali sutrikdyti mūsų pačių failų sistemą „Ubuntu“ kompiuteryje. Kad išvengtume šio susidūrimo, sukursime visiškai atskirą vartotojų grupę ir priskirsime ją „Hadoop“, kad joje būtų savi leidimai. Naudodami šią komandą galime pridėti naują vartotojų grupę:
papildoma grupė hadoopPamatysime kažką panašaus:
Pridedama „Hadoop“ vartotojų grupė
Esame pasirengę įtraukti naują vartotoją į šią grupę:
useradd -G hadoop hadoopuserAtkreipkite dėmesį, kad visos mūsų vykdomos komandos yra pačios šakninio vartotojo. Naudodami komandą „aove“, prie savo sukurtos grupės galėjome pridėti naują vartotoją.
Kad „Hadoop“ vartotojas galėtų atlikti operacijas, turime suteikti jam ir root prieigą. Atidaryk / etc / sudoers failas su šia komanda:
sudo visudoPrieš ką nors pridėdami, failas atrodys taip:
Sudoers failą, prieš ką nors pridėdami
Į failo pabaigą įtraukite šią eilutę:
hadoopuser VISI = (VISI) VISIDabar failas atrodys taip:
Sudoers failas pridėjus Hadoop vartotoją
Tai buvo pagrindinė sąranka, suteikiant „Hadoop“ platformą veiksmams atlikti. Dabar esame pasirengę nustatyti vieno mazgo „Hadoop“ grupę.
„Hadoop“ vieno mazgo sąranka: autonominis režimas
Kalbant apie tikrąją „Hadoop“ galią, jis paprastai nustatomas keliuose serveriuose, kad jis galėtų mastelį keisti ant didelio duomenų rinkinio, esančio „Hadoop“ paskirstyta failų sistema (HDFS). Paprastai tai tinka derinant aplinkas ir nenaudojama gamybai. Kad procesas būtų paprastas, paaiškinsime, kaip čia galime atlikti vieno mazgo nustatymą „Hadoop“.
Baigę įdiegti „Hadoop“, taip pat paleisime pavyzdinę programą „Hadoop“. Nuo šiol „Hadoop“ failas vadinamas „hadoop-3“.0.1. pavadinkime jį „hadoop“, kad būtų paprasčiau:
mv hadoop-3.0.1 hadoopasDabar failas atrodo taip:
Judantis Hadoopas
Laikas pasinaudoti anksčiau sukurtu „hadoop“ vartotoju ir priskirti šiam vartotojui šio failo nuosavybės teises:
chown -R hadoopuser: hadoopas / šaknis / hadoopasGeresnė „Hadoop“ vieta bus / usr / local / katalogas, todėl perkelkime ją ten:
mv hadoop / usr / local /CD / usr / vietinis /
Hadoopo pridėjimas prie kelio
Norėdami vykdyti „Hadoop“ scenarijus, mes dabar jį pridėsime prie kelio. Norėdami tai padaryti, atidarykite failą bashrc:
vi ~ /.bashrcPridėkite šias eilutes prie pabaigos .„bashrc“ failą, kad kelyje būtų „Hadoop“ vykdomojo failo kelias:
# Konfigūruokite „Hadoop“ ir „Java Home“eksportuoti HADOOP_HOME = / usr / local / hadoop
eksportuoti JAVA_HOME = / usr / lib / jvm / java-8-openjdk-amd64
eksportuoti PATH = $ PATH: $ HADOOP_HOME / bin
Failas atrodo taip:
Hadoopo pridėjimas prie kelio
Kadangi „Hadoop“ naudoja „Java“, turime pasakyti „Hadoop“ aplinkos failui hadoop-env.sh kur jis yra. Šio failo vieta gali skirtis priklausomai nuo „Hadoop“ versijų. Norėdami lengvai rasti, kur yra šis failas, paleiskite šią komandą tiesiai už „Hadoop“ katalogo:
rasti hadoop / -name hadoop-env.shMes gausime failo vietos išvestį:
Aplinkos failo vieta
Redaguokime šį failą, kad „Hadoop“ būtų informuotas apie „Java JDK“ vietą, įterpkite jį paskutinėje failo eilutėje ir išsaugokite:
eksportuoti JAVA_HOME = / usr / lib / jvm / java-8-openjdk-amd64„Hadoop“ diegimas ir sąranka baigta. Dabar esame pasirengę vykdyti pavyzdinę programą. Bet palaukite, mes niekada nepateikėme pavyzdinės paraiškos!
„Hadoop“ veikia pavyzdinė programa
Tiesą sakant, „Hadoop“ diegimas yra su įmontuota pavyzdine programa, kuri yra parengta paleisti, kai baigsime įdiegti „Hadoop“. Skamba gerai, tiesa?
Paleiskite šią komandą, kad paleistumėte JAR pavyzdį:
hadoop jar / root / hadoop / share / hadoop / mapreduce / hadoop-mapreduce-pavyzdžiai-3.0.1.jar wordcount / root / hadoop / README.txt / root / OutputHadoopas parodys, kiek apdorojo mazge:
„Hadoop“ apdoroja statistiką
Kai atliksite šią komandą, failą part-r-00000 matysime kaip išvestį. Pažvelk į išvesties turinį:
katės dalis-r-00000Jūs gausite kažką panašaus:
Žodžių skaičiaus išvestis iš Hadoopo
Išvada
Šioje pamokoje mes apžvelgėme, kaip galime įdiegti „Apache Hadoop“ ir pradėti jį naudoti „Ubuntu 17“.10 mašina. „Hadoop“ puikiai tinka saugoti ir analizuoti didžiulį duomenų kiekį ir tikiuosi, kad šis straipsnis padės greitai pradėti naudoti „Ubuntu“.