【大数据技术基础 | 实验四】HDFS实验：读写HDFS文件

25-03-07 10:21

3324

8647

blog.csdn.net

id="article_content" class="article_content clearfix"> id="content_views" class="markdown_views prism-atom-one-dark">

在这里插入图片描述

class="toc">

文章目录

一、实验目的

会在Linux环境下编写读写HDFS文件的代码；
会使用jar命令打包代码；
会在master服务器上运行HDFS读写程序；
会在Windows上安装Eclipse Hadoop插件；
会在Eclipse环境编写读写HDFS文件的代码；
会使用Eclipse打包代码；
会使用Xftp工具将实验电脑上的文件上传至master服务器。

二、实验要求

实验结束时，每位学生均已搭建HDFS开发环境；编写了HDFS写、读代码；在master机上执行了该写、读程序。通过实验了解HDFS读写文件的调用流程，理解HDFS读写文件的原理。

三、实验原理

（一）Java Classpath

Classpath设置的目的，在于告诉Java执行环境，在哪些目录下可以找到您所要执行的Java程序所需要的类或者包。

Java执行环境本身就是一个平台，执行于这个平台上的程序是已编译完成的Java程序（后面会介绍到Java程序编译完成之后，会以.class文件存在）。如果将Java执行环境比喻为操作系统，如果设置Path变量是为了让操作系统找到指定的工具程序（以Windows来说就是找到.exe文件），则设置Classpath的目的就是让Java执行环境找到指定的Java程序（也就是.class文件）。

有几个方法可以设置Classpath，较简单的方法是在系统变量中新增Classpath环境变量。以Windows 7操作系统为例，右键点击计算机→属性→高级系统设置→环境变量，在弹出菜单的“系统变量”下单击“新建”按钮，在“变量名”文本框中输入Classpath，在“变量值”文本框中输入Java类文件的位置。例如可以输入.; D:\Java\jdk1.7.0_79\lib\tools.jar; D:\Java\jdk1.7.0_79\lib\rt.jar，每一路径中间必须以英文;作为分隔。

在这里插入图片描述
事实上JDK 7.0默认就会到当前工作目录（上面的.设置），以及JDK的lib目（这里假设是D:\Java\jdk1.7.0_796\lib）中寻找Java程序。所以如果Java程序是在这两个目录中，则不必设置Classpath变量也可以找得到，将来如果Java程序不是放置在这两个目录时，则可以按上述设置Classpath。

如果所使用的JDK工具程序具有Classpath命令选项，则可以在执行工具程序时一并指定Classpath。例如：javac -classpath classpath1;classpath2...其中classpath1、classpath 2是实际要指定的路径。也可以在命令符模式下执行以下的命令，直接设置环境变量，包括Classpath变量（这个设置在下次重新打开命令符模式时就不再有效）：set CLASSPATH=%CLASSPATH%;classpath1;classpath2...总而言之，设置Classpath的目的，在于告诉Java执行环境，在哪些目录下可以找到您所要执行的Java程序（.class文件）。

（二）Eclipse Hadoop插件

Eclipse是一个跨平台的自由集成开发环境（IDE）。通过安装不同的插件，Eclipse可以支持不同的计算机语言，比如C++和Python等开发工具，亦可以通过hadoop插件来扩展开发Hadoop相关程序。

实际工作中，Eclipse Hadoop插件需要根据hadoop集群的版本号进行下载并编译，过程较为繁琐。为了节约时间，将更多的精力用于实现读写HDFS文件，在大数据实验一体机的相关下载页面中已经提供了2.7.1版本的hadoop插件和相关的hadoop包下载，实验人员可以直接下载这些插件，快速在Eclipse中进行安装，开发自己的hadoop程序。

四、实验环境

云创大数据实验平台：
Java 版本：jdk1.7.0_79
Hadoop 版本：hadoop-2.7.1
Eclipse 版本：eclipse-jee-luna-SR2-win32-x86_64

五、实验内容和步骤

该实验的前提是部署HDFS，具体步骤可参考：【大数据技术基础 | 实验三】HDFS实验：部署HDFS

这里采用一键搭建的方式，将HDFS部署完成并启动Hadoop集群（包括hdfs和yarn），使用jps命令查看进程：

在这里插入图片描述

（一）配置master服务器classpath

使用SSH工具登录master服务器，执行命令：

vim /etc/profile
 class="hljs-button signin active" data-title="登录复制" data-report-click="{"spm":"1001.2101.3001.4334"}">

JAVA_HOME=/usr/local/jdk1.7.0_79/ export HADOOP_HOME=/usr/cstor/hadoop export JRE_HOME=/usr/local/jdk1.7.0_79//jre export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$HADOOP_HOME/share/hadoop/common/*:$HADOOP_HOME/share/hadoop/common/lib/* export PATH=$PATH:$HADOOP_HOME/bin export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib:$HADOOP_HOME/lib/native" class="hljs-button signin active" data-title="登录复制" data-report-click="{"spm":"1001.2101.3001.4334"}">

import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataOutputStream; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; public class WriteFile { public static void main(String[] args)throws Exception{ Configuration conf=new Configuration(); FileSystem hdfs = FileSystem.get(conf); Path dfs = new Path("/weather.txt"); FSDataOutputStream outputStream = hdfs.create(dfs); outputStream.writeUTF("nj 20161009 23\n"); outputStream.close(); } } class="hljs-button signin active" data-title="登录复制" data-report-click="{"spm":"1001.2101.3001.4334"}">

import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; public class ReadFile { public static void main(String[] args) throws IOException { Configuration conf = new Configuration(); Path inFile = new Path("/weather.txt"); FileSystem hdfs = FileSystem.get(conf); FSDataInputStream inputStream = hdfs.open(inFile); System.out.println("myfile: " + inputStream.readUTF()); inputStream.close(); } } class="hljs-button signin active" data-title="登录复制" data-report-click="{"spm":"1001.2101.3001.4334"}"> class="hide-preCode-box">