సెంటొస్ 7 లో హడూప్ సింగిల్ నోడ్ క్లస్టర్ (సూడోనోడ్) ను ఎలా ఇన్స్టాల్ చేయాలి


హడూప్ అనేది ఓపెన్ సోర్స్ ఫ్రేమ్uవర్క్, ఇది బిగ్uడేటాతో వ్యవహరించడానికి విస్తృతంగా ఉపయోగించబడుతుంది. చాలా బిగ్uడేటా/డేటా అనలిటిక్స్ ప్రాజెక్టులు హడూప్ ఎకో-సిస్టమ్ పైన నిర్మించబడుతున్నాయి. ఇది రెండు పొరలను కలిగి ఉంటుంది, ఒకటి డేటాను నిల్వ చేయడానికి మరియు మరొకటి డేటాను ప్రాసెస్ చేయడానికి.

నిల్వను హెచ్uడిఎఫ్uఎస్ (హడూప్ డిస్ట్రిబ్యూటెడ్ ఫైల్uసిస్టమ్) అని పిలిచే దాని స్వంత ఫైల్uసిస్టమ్ చూసుకుంటుంది మరియు ప్రాసెసింగ్uను YARN (ఇంకా మరొక వనరుల నెగోషియేటర్) చూసుకుంటుంది. మ్యాప్రెడ్యూస్ హడూప్ ఎకో-సిస్టమ్ యొక్క డిఫాల్ట్ ప్రాసెసింగ్ ఇంజిన్.

ఈ వ్యాసం హడూప్ యొక్క సూడోనోడ్ సంస్థాపనను వ్యవస్థాపించే విధానాన్ని వివరిస్తుంది, ఇక్కడ అన్ని డెమోన్లు (జెవిఎంలు) సెంటొస్ 7 లో సింగిల్ నోడ్ క్లస్టర్uను అమలు చేస్తాయి.

ఇది ప్రారంభకులకు హడూప్ నేర్చుకోవడం. నిజ సమయంలో, హడూప్ మల్టీనోడ్ క్లస్టర్uగా ఇన్uస్టాల్ చేయబడుతుంది, ఇక్కడ డేటా సర్వర్uల మధ్య బ్లాక్uలుగా పంపిణీ చేయబడుతుంది మరియు ఉద్యోగం సమాంతర పద్ధతిలో అమలు చేయబడుతుంది.

  • CentOS 7 సర్వర్ యొక్క కనీస సంస్థాపన.
  • జావా v1.8 విడుదల.
  • హడూప్ 2.x స్థిరమైన విడుదల.

ఈ పేజీలో

  • CentOS 7 లో జావాను ఎలా ఇన్uస్టాల్ చేయాలి
  • సెంటొస్ 7 లో పాస్uవర్డ్ లేని లాగిన్uను సెటప్ చేయండి
  • సెంటొస్ 7 లో హడూప్ సింగిల్ నోడ్uను ఎలా ఇన్uస్టాల్ చేయాలి
  • సెంటొస్ 7 లో హడూప్uను ఎలా కాన్ఫిగర్ చేయాలి
  • నేమ్uనోడ్ ద్వారా HDFS ఫైల్ సిస్టమ్uను ఫార్మాట్ చేస్తోంది

1. హడూప్ అనేది జావాతో రూపొందించిన పర్యావరణ వ్యవస్థ. హడూప్uను ఇన్uస్టాల్ చేయడానికి మా సిస్టమ్uలో జావా తప్పనిసరిగా ఇన్uస్టాల్ చేయాలి.

# yum install java-1.8.0-openjdk

2. తరువాత, సిస్టమ్uలో జావా యొక్క ఇన్uస్టాల్ చేసిన సంస్కరణను ధృవీకరించండి.

# java -version

మన మెషీన్లో ssh కాన్ఫిగర్ చేయబడాలి, హడూప్ SSH వాడకంతో నోడ్లను నిర్వహిస్తుంది. మాస్టర్ నోడ్ దాని బానిస నోడ్uలను కనెక్ట్ చేయడానికి మరియు ప్రారంభ మరియు ఆపు వంటి ఆపరేషన్ చేయడానికి SSH కనెక్షన్uను ఉపయోగిస్తుంది.

మేము పాస్వర్డ్-తక్కువ ssh ను సెటప్ చేయాలి, తద్వారా మాస్టర్ పాస్వర్డ్ లేకుండా ssh ను ఉపయోగించి బానిసలతో కమ్యూనికేట్ చేయవచ్చు. లేకపోతే ప్రతి కనెక్షన్ స్థాపన కోసం, పాస్వర్డ్ను నమోదు చేయాలి.

ఈ సింగిల్ నోడ్uలో, మాస్టర్ సర్వీసెస్ (నేమ్uనోడ్, సెకండరీ నేమ్uనోడ్ & రిసోర్స్ మేనేజర్) మరియు స్లేవ్ సర్వీసెస్ (డాటానోడ్ & నోడ్uమేనేజర్) ప్రత్యేక జెవిఎంలుగా నడుస్తాయి. ఇది సింగే నోడ్ అయినప్పటికీ, ప్రామాణీకరణ లేకుండా బానిసను కమ్యూనికేట్ చేయడానికి మాస్టర్uను చేయడానికి పాస్uవర్డ్-తక్కువ ssh ఉండాలి.

3. సర్వర్uలో కింది ఆదేశాలను ఉపయోగించి పాస్uవర్డ్-తక్కువ SSH లాగిన్uను సెటప్ చేయండి.

# ssh-keygen
# ssh-copy-id -i localhost

4. మీరు పాస్uవర్డ్ లేని SSH లాగిన్uను కాన్ఫిగర్ చేసిన తర్వాత, మళ్ళీ లాగిన్ అవ్వడానికి ప్రయత్నించండి, మీరు పాస్uవర్డ్ లేకుండా కనెక్ట్ అవుతారు.

# ssh localhost

5. అపాచీ హడూప్ వెబ్uసైట్uకి వెళ్లి, కింది wget ఆదేశాన్ని ఉపయోగించి హడూప్ యొక్క స్థిరమైన విడుదలను డౌన్uలోడ్ చేయండి.

# wget https://archive.apache.org/dist/hadoop/core/hadoop-2.10.1/hadoop-2.10.1.tar.gz
# tar xvpzf hadoop-2.10.1.tar.gz

6. తరువాత, చూపిన విధంగా ~/.bashrc ఫైల్uలో హడూప్ ఎన్విరాన్మెంట్ వేరియబుల్స్ జోడించండి.

HADOOP_PREFIX=/root/hadoop-2.10.1
PATH=$PATH:$HADOOP_PREFIX/bin
export PATH JAVA_HOME HADOOP_PREFIX

7. ~/.bashrc ఫైల్uకు ఎన్విరాన్మెంట్ వేరియబుల్స్ జోడించిన తరువాత, ఫైల్uను సోర్స్ చేయండి మరియు కింది ఆదేశాలను అమలు చేయడం ద్వారా హడూప్uను ధృవీకరించండి.

# source ~/.bashrc
# cd $HADOOP_PREFIX
# bin/hadoop version

మీ మెషీన్uకు సరిపోయేలా మేము హడూప్ కాన్ఫిగరేషన్ ఫైల్uల క్రింద కాన్ఫిగర్ చేయాలి. హడూప్uలో, ప్రతి సేవకు దాని స్వంత పోర్ట్ నంబర్ మరియు డేటాను నిల్వ చేయడానికి దాని స్వంత డైరెక్టరీ ఉంటుంది.

  • హడూప్ కాన్ఫిగరేషన్ ఫైల్స్ - core-site.xml, hdfs-site.xml, mapred-site.xml & yarn-site.xml

8. మొదట, మేము చూపిన విధంగా hadoop-env.sh ఫైల్uలోని JAVA_HOME మరియు హడూప్ మార్గాన్ని నవీకరించాలి.

# cd $HADOOP_PREFIX/etc/hadoop
# vi hadoop-env.sh

ఫైల్ ప్రారంభంలో ఈ క్రింది పంక్తిని నమోదు చేయండి.

export JAVA_HOME=/usr/lib/jvm/java-1.8.0/jre
export HADOOP_PREFIX=/root/hadoop-2.10.1

9. తరువాత, core-site.xml ఫైల్uను సవరించండి.

# cd $HADOOP_PREFIX/etc/hadoop
# vi core-site.xml

చూపిన విధంగా <configuration> ట్యాగ్uల మధ్య క్రింది వాటిని అతికించండి.

<configuration>
            <property>
                   <name>fs.defaultFS</name>
                   <value>hdfs://localhost:9000</value>
           </property>
</configuration>

10. ఈ క్రింది డైరెక్టరీలను tecmint యూజర్ హోమ్ డైరెక్టరీ క్రింద సృష్టించండి, ఇది NN మరియు DN నిల్వ కోసం ఉపయోగించబడుతుంది.

# mkdir -p /home/tecmint/hdata/
# mkdir -p /home/tecmint/hdata/data
# mkdir -p /home/tecmint/hdata/name

10. తరువాత, hdfs-site.xml ఫైల్uను సవరించండి.

# cd $HADOOP_PREFIX/etc/hadoop
# vi hdfs-site.xml

చూపిన విధంగా <configuration> ట్యాగ్uల మధ్య క్రింది వాటిని అతికించండి.

<configuration>
<property>
        <name>dfs.replication</name>
        <value>1</value>
 </property>
  <property>
        <name>dfs.namenode.name.dir</name>
        <value>/home/tecmint/hdata/name</value>
  </property>
  <property>
          <name>dfs .datanode.data.dir</name>
          <value>home/tecmint/hdata/data</value>
  </property>
</configuration>

11. మళ్ళీ, mapred-site.xml ఫైల్uను సవరించండి.

# cd $HADOOP_PREFIX/etc/hadoop
# cp mapred-site.xml.template mapred-site.xml
# vi mapred-site.xml

చూపిన విధంగా <configuration> ట్యాగ్uల మధ్య క్రింది వాటిని అతికించండి.

<configuration>
                <property>
                        <name>mapreduce.framework.name</name>
                        <value>yarn</value>
                </property>
</configuration>

12. చివరగా, yarn-site.xml ఫైల్uను సవరించండి.

# cd $HADOOP_PREFIX/etc/hadoop
# vi yarn-site.xml

చూపిన విధంగా <configuration> ట్యాగ్uల మధ్య క్రింది వాటిని అతికించండి.

<configuration>
                <property>
                       <name>yarn.nodemanager.aux-services</name>
                       <value>mapreduce_shuffle</value>
                </property>
</configuration>

13. క్లస్టర్uను ప్రారంభించే ముందు, మన స్థానిక వ్యవస్థలో హడూప్ ఎన్ఎన్uను ఇన్uస్టాల్ చేసిన చోట ఫార్మాట్ చేయాలి. సాధారణంగా, క్లస్టర్uను మొదటిసారి ప్రారంభించే ముందు ఇది ప్రారంభ దశలో చేయబడుతుంది.

NN ను ఫార్మాట్ చేయడం వలన NN మెటాస్టోర్uలో డేటా కోల్పోతుంది, కాబట్టి మనం మరింత జాగ్రత్తగా ఉండాలి, ఉద్దేశపూర్వకంగా అవసరమైతే తప్ప క్లస్టర్ నడుస్తున్నప్పుడు మేము NN ను ఫార్మాట్ చేయకూడదు.

# cd $HADOOP_PREFIX
# bin/hadoop namenode -format

14. నేమ్uనోడ్ డెమోన్ మరియు డేటానోడ్ డీమన్ ప్రారంభించండి: (పోర్ట్ 50070).

# cd $HADOOP_PREFIX
# sbin/start-dfs.sh

15. రిసోర్స్ మేనేజర్ డీమన్ మరియు నోడ్ మేనేజర్ డీమన్ ప్రారంభించండి: (పోర్ట్ 8088).

# sbin/start-yarn.sh

16. అన్ని సేవలను ఆపడానికి.

# sbin/stop-dfs.sh
# sbin/stop-dfs.sh

సారాంశం
ఈ వ్యాసంలో, హడూప్ సూడోనోడ్ (సింగిల్ నోడ్) క్లస్టర్uను సెటప్ చేయడానికి దశల వారీ ప్రక్రియ ద్వారా వెళ్ళాము. మీకు లైనక్స్ గురించి ప్రాథమిక జ్ఞానం ఉంటే మరియు ఈ దశలను అనుసరిస్తే, క్లస్టర్ 40 నిమిషాల్లో యుపి అవుతుంది.

హడూప్ నేర్చుకోవడం మరియు ప్రాక్టీస్ చేయడం ప్రారంభించడానికి ఇది చాలా ఉపయోగకరంగా ఉంటుంది లేదా హడూప్ యొక్క ఈ వనిల్లా వెర్షన్uను అభివృద్ధి ప్రయోజనాల కోసం ఉపయోగించవచ్చు. మేము రియల్ టైమ్ క్లస్టర్uను కలిగి ఉండాలనుకుంటే, మనకు కనీసం 3 భౌతిక సర్వర్uలు అవసరం లేదా బహుళ సర్వర్uలను కలిగి ఉండటానికి క్లౌడ్uను అందించాలి.