centos6.5下部署用于生产的hadoop，并使用C语言API连接hadoop

##### #####hadoop-2.6.0完全分布式集群基本操作 ##### hdfs dfs -mkdir /input echo "hello hadoop" > test1.txt 把当前目录的所有文件导入hdfs的in目录： hadoop dfs -put / in hadoop dfs -ls /in/* hadoop dfs -cp /in/test1.txt /in/test1.txt.bak hadoop dfs -ls /in/* hadoop dfs -rm /in/test1.txt.bak mkdir dir_from_hdfs 从hdfs下载目录in中的全部文件放到dir_from_hdfs中： hadoop dfs -get /in/* /dir_from_hdfs cd /home/hadoop/Cloud/hadoop-1.2.1 以空格为分隔，统计in目录中的所有文本文件的单词数目（注意output/wordcount目录不可以为存在的目录）： hadoop jar hadoop-examples-2.6.0.jar wordcount in /output/wordcount 查看统计结果： hadoop fs -cat output/wordcount/part-r-00000 #### ####管理 #### 1.集群相关管理： edit log：修改日志，当文件系统客户端client进行写操作的时候，我们就要把这条记录放在修改日志中。在记录了修改日志后，NameNode则修改内存中的数据结构。每次写操作成功之前，edit log都会同步到文件系统中 fsp_w_picpath：命名空间镜像，它是内存中的元数据在硬盘上的checkpoint。当NameNode失败的时候，最新的checkpoint的元数据信息就会从fsp_w_picpath加载到内存中，然后注意重新执行修改日志中的操作。而Secondary NameNode就是用来帮助元数据节点将内存中的元数据信息checkpoint到硬盘上的。 2.集群属性：优点： 1）能够处理超大的文件； 2）流式访问数据。HDFS能够很好的处理“一次写入，多次读写”的任务。也就是说，一个数据集一旦生成了，就会被复制到不同的存储节点中，然后响应各种各样的数据分析任务请求。在多数情况下，分析任务都会涉及到数据集中的大部分数据。所以，HDFS请求读取整个数据集要比读取一条记录更加高效。缺点： 1）不适合低延迟数据访问：HDFS是为了处理大型数据集分析任务的，主要是为达到大数据分析，所以延迟时间可能会较高。 2）无法高效存储大量小文件：因为Namenode把文件系统的元数据放置在内存中，所以文件系统所能容纳的文件数目是由Namenode的内存大小来决定。 3）不支持多用户写入以及任意修改文件：在HDFS的一个文件中只有一个写入者，而且写操作只能在文件末尾完成，即只能执行追加操作。目前HDFS还不支持多个用户对同一文件的写操作，以及在文件任意位置进行修改。

相关阅读