DFS是如何工作的?DFS的特点和好处

 

什么是 DFS – 分布式文件系统?分布式文件系统(DFS) 是一种文件系统,允许用户通过计算机网络从多个主机访问文件存储,就好像客户端正在访问本地存储一样。它允许程序以与本地文件相同的方式访问和存储远程数据。此外,它使用户能够从任何计算机或网络系统访问文件。此外,它允许网络用户以允许和规范的方式共享文件和信息。在 DFS 中,服务器控制数据并为用户提供访问控制。

嗯, DFS的主要目的是允许物理分布式系统的用户使用通用文件系统 (CFS)共享他们的信息和资源。DFS文件系统也作为操作系统的一部分运行。它的配置是局域网连接的大型机和工作站的集合。在 DFS 中,创建命名空间对用户是可见的。让我们从什么是 DFS – 分布式文件系统开始?(好处解释)。

DFS 是如何工作的?

基本上,DFS 允许您在逻辑上共享各种服务器上的数据和资源。因此,它使您能够透明地将组共享加入到一个分层命名空间中。当然,DFS使用树状结构来组织网络上的共享资源。它支持一个主机服务器名称空间、独立 DFS 名称空间和具有高可用性和多个主机服务器的基于域的名称空间。Active Directory存储基于域的命名空间拓扑数据。此数据包括 DFS 链接、DFS 目标和 DFS 根。

每个 DFS 树结构都包含一个或多个根目标。根目标是执行 DFS 服务的主机服务器。每个树结构都有一个或多个 DFS 链接。所有 DFS 链接都指向一个或多个共享文件夹。用户从命名空间添加、删除和修改 DFS 链接。

此外,DFS 链接指向一个或多个称为目标的共享文件夹。一旦用户获得对 DFS 链接的访问权限,DFS 服务器就会根据客户端的站点数据选择一组目标。客户端访问集合中的第一个可用目标。这有助于跨可能的目标分发客户端请求。此外,即使某些服务器发生故障,它也能为用户提供不间断的访问。

DFS 的组成部分是什么?

DFS 有两个主要组成部分:

  • 位置透明——命名空间组件实现了位置透明。
  • 冗余——冗余通过文件同步/复制组件实现。

在负载过重或发生故障时,这两个组件协同工作以提高数据可用性。它们使来自多个位置的数据共享能够逻辑地分组在单个文件夹下,称为 DFS 根目录。没有必要同时使用两个 DFS 组件。用户可以在不使用文件复制组件的情况下使用命名空间组件。另一方面,客户端在不使用名称空间组件的情况下使用服务器之间的文件复制组件。

分布式文件系统的实现

因此,DFS 系统旨在使用户能够共享来自公共文件系统的数据和文件。以下是 DFS 的主要实现:

Hadoop

Hadoop 是一套开源技术,它采用MapReduce编程风格来提供对大量数据的分布式管理和存储。它包含一个名为 Hadoop 分布式文件系统(HDFS)的存储组件。简而言之,它是一个基于 MapReduce 编程模型的功能组件。

网络文件系统

 

(NFS)网络文件系统是一种用于在网络上存储文件的结构。它允许客户端访问位于孤立计算机上的目录和文件,并像处理本地目录和文件一样处理这些目录和文件。例如,客户端应用操作系统命令来写入、读取、设置、创建和删除隔离目录和文件的文件属性。

NFS软件包包括用于 NIS(网络信息服务)、NFS和其他服务的守护进程和命令。尽管客户端将 NIS 和 NFS 作为一个包安装,但每个都是独立的,并且每个都由客户端单独配置和管理。

通用互联网文件系统 (CIFS)

 

同样,CIFS 是IBM 为在互联网上使用而开发的服务器消息块文件的公共迭代。基本上,它是一个独立的文件系统协议,允许集群在企业内部网或互联网上共享文档和协作。

CIFS 是一种开放的多平台技术,基于 Microsoft Windows平台的本地文件共享协议。各种平台,例如 UNIX,都支持CIFS。它支持 Unicode 文件名;用户可以使用它来将一个独立的文件系统挂载为本地机器上的驱动器或目录。CIFS 还具有 NFS 不支持的功能,例如对锁和预写的本机支持。

服务器消息块 (SMB)

服务器消息块 (SMB) 是一种文件共享协议,它使计算机应用程序能够从服务器程序请求服务并读取和写入计算机网络中的文件。客户端使用SMB协议、其 TCP/IP 协议和其他网络协议。使用 SMB 协议,应用程序的用户可以从远程 服务器访问资源或文件。然后,SMB 还与接受 SMB 客户端请求的服务器程序通信。

网件

Netware 是由 Novell, Inc 开发的计算机网络操作系统。虽然 NetWare 已不再使用,但客户最初将其用于协同多任务处理,以使用 IPX 网络协议在个人 PC 上执行多项服务。Netware 适合从大型机缩小到 PC 网络的公司使用。它具有内存保护和低硬件要求。接下来是什么是 DFS – 分布式文件系统?(Benefits Explained)是学习DFS的主要特点。

DFS 的主要特点

DFS 具有多种功能。这些包括:

透明度

透明度是一种保护文件系统免受其他文件和用户影响的安全机制。DFS 有四种透明度:

  • 结构透明。用户不需要知道文件服务器和存储设备的位置或数量。在结构透明性方面,多个文件服务器必须能够适应和执行。
  • 命名透明度。文件名中不应有文件位置的踪迹。当客户端将文件从一个节点移动到另一个节点时,文件名不应更改
  • 访问透明度。 必须以相同的方式访问本地文件和独立文件。文件系统必须自动找到访问的文件并将其发送给客户端
  • 应用透明度。当客户端跨多个节点复制文件时,它们必须将文件副本及其位置从一个节点隐藏到下一个节点。

可扩展性

随着客户端将更多机器合并到网络中或当两个网络链接在一起时,分布式系统会随着时间的推移而增加。一个好的 DFS 必须能够随着系统的用户和节点数量的增加而快速扩展。

数据的完整性

由于许多用户通常共享一个文件系统,因此文件系统需要保护传输文件中存储的数据的完整性。并发控制方法必须准确同步多个用户争相访问同一文件的并发访问请求。合适的文件系统为用户提供具有高级并发系统的原子事务,以确保数据完整性。

高可靠性

有效的 DFS 必须尽可能降低数据丢失的可能性。用户不应该因为系统不可靠而被迫创建文件备份。相反,文件系统必须备份重要文件,以便在原始文件出现问题时恢复。为了提高可靠性,许多文件系统采用稳定存储。

高可用性

一个好的DFS应该能够在出现局部故障的情况下正常工作,比如链路故障、存储设备崩溃、节点故障等。

使用方便

多道程序设计中文件系统的用户界面应该简单,文件中的命令最少。

DFS 复制和 DFS 命名空间之间的区别

DFS 由两个主要角色服务组成;复制和命名空间:

复制

DFS复制是一种Windows服务器角色服务,使用户能够跨多个站点和服务器复制文件夹。这包括与 DFS 名称空间路径关联的那些。理想情况下,它是一个多主服务器和高效的复制引擎,您可以使用它在有限带宽的网络连接上实现服务器之间的同步。DFS 复制取代文件复制服务作为 DFS 命名空间复制引擎。

显然,DFS 复制使用名为远程差分压缩 RDC 的压缩算法。RDC 识别文件中数据的更改,并允许 DFS复制复制更改的文件块而不是整个文件。要使用此复制,用户必须创建复制组并将复制的文件夹包含在组中。

什么是 DFS 命名空间?

分布式文件系统 (DFS) 命名空间是一种虚拟文件夹或角色服务,允许用户将不同服务器上的共享文件夹分组到一个或多个逻辑结构化的命名空间中。这让用户可以虚拟地查看共享文件夹,其中一个单独的路径指向不同服务器上的文件。

DFS 命名空间的组件

命名空间服务器——这是一个 ( VM)或托管 DFS 命名空间的物理服务器。命名空间服务器可以是域控制器,也可以是安装了 DFS 角色的普通服务器。

命名空间根——这是 DFS 命名空间树的起点。

文件夹——这是 DFS 命名空间中的一个链接,它指向一个包含供用户访问的内容的目标文件夹。也有不带文件夹目标的文件夹,用于组织结构和层级。

文件夹目标——文件夹目标是指向特定文件服务器上的组共享命名空间或文件夹的链接,可通过通用命名约定 (UNC) 使用。如果单个文件夹目标位于两个不同的服务器上并相互复制,则它们可以是指向一个或多个文件夹的链接。

DFS 命名空间实现

DFS有两种主要的实现方法,它们是:

  • 独立 DFS 命名空间,它在系统注册表内的根服务器上本地存储配置元数据和信息。访问根名称空间的路径以根服务器名称开头。独立的 DFS 命名空间不是容错的,只能驻留在一台服务器上。如果无法访问根服务器,则无法访问整个 DFS 命名空间。
  • Domain-based DFS Namespace ,在活动目录中存储配置信息和元数据。访问根名称空间的路径通常以域名开头。用户可以将基于域的 DFS 命名空间存储在多台服务器上,以提高命名空间的可用性。此方法使用户能够跨服务器提供负载平衡和容错。

DFS 的好处

由于其广泛的功能和强大的功能,DFS 提供了比非分布式文件系统和其他文件系统更多的优势。以下是 DFS 的一些好处。

更快的重启和更高的可靠性

使用 DCE LFS 在异常关闭后重新启动 DFS 会更快。这是因为 DCE LFS 记录影响操作的信息,这些操作影响与 DCE LFS 文件集和聚合关联的元数据。一旦客户端重新启动系统,DFS LFS 就会重放日志以重建元数据。与必须执行fsck命令的非 LFS 文件系统相比,它将系统恢复到恒定状态的速度更快。

由于各种原因,在 DFS 中访问资源要可靠得多。在分布式文件系统中,多个客户端(如缓存管理器)可以尝试同时访问相似的数据。DFS 使用令牌来确保用户始终使用文件的最新副本并跟踪当前正在使用该文件的人员。令牌精确定位客户端可以对数据执行的操作。它们还充当文件导出器的承诺,如果集中保存的数据副本发生变化,通知用户;在收到此类通知后,用户可以在下次请求时检索数据的最新副本。

DFS 还通过使用户能够在多个文件服务器机器上复制最常用的 DCE LFS 文件集来提高数据访问的可靠性。当用户复制文件集时,他们会将文件集的精确副本放置在不同的文件服务器机器上。托管文件集的单个服务器不可用不会中断对该文件集的工作,因为可以从其他机器访问该文件集。

更好地从失败中恢复

从数据丢失等严重系统故障中恢复更简单,因为 DFS备份系统使客户能够备份其用户和系统数据。备份信息存储在备份数据库中,可用于将用户和系统数据恢复到特定日期的状态。

在大多数 UNIX 文件系统中,从系统故障中恢复需要运行fsck命令。这确保没有损坏的文件系统。此外,它会纠正发生的问题,以免它们影响整个文件系统。在 DFS 中,不需要在每次重新启动时执行此类措施。在需要时,他们使用 DFS Salvager 来查找和更正 DCE LFS 在没有帮助的情况下无法恢复的严重数据损坏。在某些情况下,文件系统的基本结构可能会出现问题,或者日志可能会损坏。Salvager 允许用户检查文件系统并纠正问题,以避免损坏包含文件系统的整个 DCE LFS 聚合。

一旦用户重新启动文件服务器机器,文件导出器就会尝试恢复对机器内数据的一致访问。重启后,它会在短时间内阻止所有客户端为机器上的数据建立新的令牌。在此恢复期间,文件导出器接受重新启动前持有令牌的用户的重新建立令牌的请求。这些用户有机会在另一个用户可以请求冲突的令牌之前恢复他们的令牌——使用户能够在文件服务器机器重启后重新获得他们的令牌被称为令牌状态恢复。

提高文件可用性、网络效率和访问时间

DFS 中改进的网络效率和文件可用性是通过三种机制提供的:缓存、复制和多宿主文件服务器。

  • 本地数据缓存减少了对数据的访问时间。缓存是客户端计算机内存或本地磁盘中专用于临时数据存储的区域。缓存数据后,后续对数据的访问会更快,因为客户端不需要通过网络发送请求。因此,缓存减少了网络流量。
  • 多宿主文件服务器提高了文件的可用性并帮助管理员有效地使用他们的网络。使管理员能够在子网和文件服务器之间建立连接可以提高网络效率。每个文件服务器的多个网络连接也提高了文件可用性,因为一个网络区域中的问题不太可能导致文件服务器不可用。
  • 复制通过在多个服务器机器上复制 DCE LFS 文件集来提高文件可用性;这减少了机器停机的影响。

文件位置、透明度和高效的负载平衡

与标准的非分布式文件系统相比,DFS 中的数据负载平衡效率更高。原因之一是复制的使用,它使来自最常用的 DCE LFS 文件集的 DCE LFS 文件集能够分布在不同的机器上,确保没有一台机器因数据请求而过载。多宿主服务器功能允许每台机器与网络建立多个连接,从而可以直接连接到请求最多的子网。这些连接有助于最大限度地减少跨路由器流量。

增强的互操作性和可扩展性

可以通过 DFS 使用来自非 LFS 系统的数据。用户可以将非 LFS 磁盘分区导出到 DCE 名称空间,以供客户端用作 DCE 中的聚合。尽管在命名空间中可以访问导出的部分,但它仅包含客户端交付时包含的一个文件系统。此外,非 LFS 聚合可能不支持 DCE ACL、有关元数据的记录信息和文件集复制等功能。

DFS 中的 Basic Overseer Server(BOS 服务器)自动监视文件服务器机器上的 DFS 进程。启动和配置后,Basic Overseer Server 将继续监视 DFS 服务器进程,而系统管理员的干预最少。具有高客户端与服务器比率和性能的减少的管理义务使 DFS 成为一个可扩展的系统。用户可以将客户端和服务器计算机添加到 DFS 配置中,而对其他客户端或服务器的影响最小,并且几乎不需要额外的管理责任。

结论

总而言之,DFS是一种有价值的机制,它不仅有助于保护数据,还有助于提供高可用性和容错能力。这些功能使其成为广泛用例的理想选择,尤其是需要大量读写的工作负载。此外,它还是机器学习、计算机模拟和日志处理等数据密集型工作的理想选择。