本节将对 HDFS 的基本原理进行讲解。
文件系统是操作系统提供的磁盘空间管理服务,该服务只需要用户指定文件的存储位置及文件读取路径,而不需要用户了解文件在磁盘上是如何存放的。
但是当文件所需空间大于本机磁盘空间时,应该如何处理呢?
但是这种传动的分布式文件系统存在多个问题。
1)各个存储结点的负载不均衡,单机负载可能极高。例如,如果某个文件是热门文件,则会有很多用户经常读取这个文件,这就会造成该文件所在机器的访问压力极高。
2)数据可靠性低。如果某个文件所在的机器出现故障,那么这个文件就不能访问了,甚至会造成数据的丢失。
3)文件管理困难。如果想把一些文件的存储位置进行调整,就需要查看目标机器的空间是否够用,并且需要管理员维护文件位置,在机器非常多的情况下,这种操作就极为复杂。
HDFS 是个抽象层,底层依赖很多独立的服务器,对外提供统一的文件管理功能。HDFS 的基本架构如图 1 所示。