网络技术精讲(从入门到精通)第5篇:网络存储与备份架构

摘要

本文将带你深入了解企业级存储架构的设计与实施。你将学到DAS、NAS、SAN三种存储架构的特点与应用场景、RAID技术的原理与配置、存储协议(iSCSI、FC、NFS、SMB)的工作机制、企业级备份策略的制定方法,以及超融合基础设施(HCI)的架构与价值。通过本文,你将掌握根据业务需求设计存储架构的能力,能够为不同场景选择合适的存储解决方案。

学习目标

阅读完本文后,你将能够:

  • 能力1:区分DAS、NAS、SAN三种存储架构的特点和应用场景
  • 能力2:深入理解RAID技术,能够根据需求选择合适的RAID级别
  • 能力3:掌握主流存储协议(iSCSI、FC、NFS、SMB)的工作原理
  • 能力4:制定符合业务需求的备份策略和灾难恢复计划
  • 能力5:理解超融合基础设施的架构和价值

引言:数据是企业的核心资产

在数字化时代,数据已经成为企业最重要的资产。无论是客户信息、产品数据、财务记录还是业务文档,这些数据的安全存储和高效访问直接关系到企业的正常运营。存储系统的设计不仅影响应用的性能,还决定了数据的安全性和业务的连续性。

传统的服务器本地存储(内置硬盘)已经无法满足现代企业的需求。企业需要的是可扩展、高可用、易管理的集中化存储解决方案。网络存储技术应运而生,它将存储设备从服务器中分离出来,通过网络连接,为多个服务器提供共享存储服务。

51学通信认为:“存储架构设计是数据中心设计的核心组成部分。一个精心设计的存储架构不仅能够提供高性能和可扩展性,还能简化数据管理、降低总体拥有成本。很多企业在存储上投入了大量资金,但因为没有合理设计,导致资源利用率低、管理复杂、扩展困难。“


一、存储架构类型

1.1 存储架构概述

企业级存储主要有三种架构:DAS(直连存储)、NAS(网络附加存储)和SAN(存储区域网络)。

flowchart TD
    subgraph DAS架构
        Server1[服务器1]
        Server2[服务器2]
        Storage1[存储设备1]
        Storage2[存储设备2]

        Server1 --- Storage1
        Server2 --- Storage2

        note1[存储直连到服务器<br>其他服务器无法访问]
    end

    subgraph NAS架构
        Server3[服务器3]
        Server4[服务器4]
        NAS[NAS设备]

        Server3 --- NAS
        Server4 --- NAS

        note2[存储通过以太网连接<br>使用文件协议]
    end

    subgraph SAN架构
        Server5[服务器5]
        Server6[服务器6]
        FC_SW[光纤交换机]
        SAN[存储阵列]

        Server5 --- FC_SW
        Server6 --- FC_SW
        FC_SW --- SAN

        note3[专用存储网络<br>使用块协议]
    end

    style Storage1 fill:#ffcdd2
    style Storage2 fill:#ffcdd2
    style NAS fill:#fff9c4
    style SAN fill:#c8e6c9
    style FC_SW fill:#bbdefb

图表讲解:三种企业存储架构的连接方式对比。

段落1:图中展示了DAS、NAS、SAN三种存储架构的基本连接方式。DAS(Direct-Attached Storage,直连存储)是最传统的存储方式,存储设备通过SCSI、SATA或SAS线缆直接连接到服务器,就像服务器内置硬盘一样。DAS的优点是配置简单、成本低、性能稳定。缺点是存储资源无法共享,每个服务器的存储独立管理,资源利用率低,扩展困难。

段落2:NAS(Network-Attached Storage,网络附加存储)是专门设计的文件存储设备,通过以太网连接到网络,使用NFS(Unix/Linux)或SMB/CIFS(Windows)等文件协议提供服务。NAS的优势在于部署简单(只需接入网络)、跨平台共享、易于管理。缺点是性能受限于网络带宽,不适合对延迟敏感的数据库应用。

段落3:SAN(Storage Area Network,存储区域网络)是专门为存储建立的专用高速网络,通常使用光纤通道(FC)或iSCSI(以太网)协议,将服务器和存储设备连接起来。SAN提供块级别的存储访问,性能高、延迟低、可扩展性强。SAN的缺点是成本高、配置复杂。SAN是数据库、虚拟化等高性能应用的理想选择。

1.2 DAS详解

DAS是最简单的存储架构,存储设备直接连接到服务器。

flowchart TD
    subgraph DAS连接方式
        Server[服务器]
        HBA[RAID卡/HBA]
        Enclosure[磁盘阵列 enclosure]
        Disk1[硬盘1]
        Disk2[硬盘2]
        Disk3[硬盘3]
        Disk4[硬盘4]
    end

    Server -->|SAS/SATA| HBA
    HBA --> Enclosure
    Enclosure --> Disk1
    Enclosure --> Disk2
    Enclosure --> Disk3
    Enclosure --> Disk4

    style Server fill:#4caf50
    style HBA fill:#ff9800
    style Enclosure fill:#2196f3

图表讲解:DAS的典型连接方式。

段落1:图中展示了一个典型的DAS连接场景。服务器通过RAID卡或HBA(主机总线适配器)连接到磁盘阵列enclosure,enclosure中安装多块硬盘。RAID卡负责RAID功能的实现,操作系统看到的逻辑驱动器,而不是物理硬盘。

段落2:DAS的应用场景包括:小型服务器的存储扩展,数据库服务器的本地存储,备份服务器的备份目标存储,虚拟化主机的本地存储。对于单一服务器的应用,DAS是最经济高效的选择。

段落3:DAS的局限性在于存储无法共享。如果服务器A的DAS存储空间不足,而服务器B的DAS有大量空闲空间,无法直接调配。每个服务器独立管理自己的存储,导致资源利用率低下。另外,DAS扩展需要停机,物理连接新设备会影响服务器运行。

51学通信提示:DAS虽然简单,但在某些场景下仍然是最佳选择。对于单一服务器的数据库应用,DAS提供了最高性能和最低延迟。对于中小型企业的虚拟化部署,如果只有2-3台主机,使用DAS配合虚拟化集群的共享存储功能(如vSphere的VSAN),可以实现一种经济的高可用方案。

1.3 NAS详解

NAS是专门为文件共享设计的存储设备,运行裁剪的操作系统(通常基于Linux),提供文件服务。

flowchart TD
    subgraph NAS架构
        Client1[客户端1<br>Windows]
        Client2[客户端2<br>Linux]
        Client3[客户端3<br>Mac]

        NAS[NAS设备]
        NAS_OS[NAS操作系统]
        FileSys[文件系统]

        EthSW[以太网交换机]
    end

    Client1 -->|SMB| EthSW
    Client2 -->|NFS| EthSW
    Client3 -->|SMB/AFP| EthSW
    EthSW --> NAS

    NAS --> NAS_OS
    NAS_OS --> FileSys

    style NAS fill:#4caf50
    style NAS_OS fill:#ff9800
    style EthSW fill:#2196f3

图表讲解:NAS的架构和协议使用。

段落1:图中展示了NAS的典型架构和使用场景。NAS设备通过以太网交换机连接到网络,客户端使用标准文件协议访问NAS上的文件。Windows客户端使用SMB(Server Message Block)协议,Unix/Linux客户端使用NFS(Network File System)协议,Mac客户端可以使用SMB或AFP(Apple Filing Protocol)协议。

段落2:NAS的优势包括:跨平台文件共享,Windows、Linux、Mac可以同时访问同一文件系统;易于部署,只需接入网络并配置IP地址即可;易于管理,大多数NAS提供Web管理界面;支持文件级别的快照、复制等高级功能。

段落3:NAS的典型应用场景包括:企业文件共享,员工文档的集中存储和管理,家庭媒体中心(存储电影、音乐、照片),虚拟机的备份存储,开发环境的代码共享。对于以文件共享为主的应用,NAS是理想选择。

段落4:选择NAS时需要考虑的因素:支持的协议(NFSv4、SMB3、AFP)、性能(CPU、内存、网络接口数量和速率)、扩展性(能否添加更多硬盘、能否扩展到其他设备)、冗余性(RAID支持、电源冗余、风扇冗余)、易用性(Web界面、移动App)。

1.4 SAN详解

SAN是为高性能、高可用性应用设计的专用存储网络。

flowchart TD
    subgraph FC-SAN架构
        subgraph 服务器区
            SRV1[应用服务器1<br>HBA卡]
            SRV2[应用服务器2<br>HBA卡]
            SRV3[数据库服务器<br>HBA卡]
        end

        subgraph 光纤交换机
            FC_SW1[光纤交换机1<br>16口/32口/64口]
            FC_SW2[光纤交换机2<br>冗余设计]
        end

        subgraph 存储阵列
            ARRAY[企业级存储阵列<br>多控制器<br>大量硬盘]
        end

        subgraph 磁带库
            TAPE[磁带库<br>长期备份]
        end

        SRV1 -->|光纤线缆| FC_SW1
        SRV2 -->|光纤线缆| FC_SW1
        SRV3 -->|光纤线缆| FC_SW1

        SRV1 -->|光纤线缆| FC_SW2
        SRV2 -->|光纤线缆| FC_SW2
        SRV3 -->|光纤线缆| FC_SW2

        FC_SW1 -->|光纤线缆| ARRAY
        FC_SW2 -->|光纤线缆| ARRAY

        FC_SW1 -->|光纤线缆| TAPE
        FC_SW2 -->|光纤线缆| TAPE
    end

    style FC_SW1 fill:#ff9800
    style FC_SW2 fill:#ffcc80
    style ARRAY fill:#4caf50
    style TAPE fill:#2196f3

图表讲解:典型的FC-SAN架构设计。

段落1:图中展示了一个典型的企业级FC-SAN(光纤通道存储区域网络)架构。服务器通过HBA(Host Bus Adapter,主机总线适配器)连接到光纤交换机,光纤交换机连接到存储阵列和磁带库。关键设备和链路都有冗余,任何单一组件故障都不会导致存储访问中断。

段落2:SAN的工作原理是:服务器发起SCSI命令,HBA将SCSI命令封装为FC(Fibre Channel)帧,通过光纤网络传输到存储阵列的控制器。存储控制器解析FC帧,提取SCSI命令,执行读写操作,然后将数据封装为FC帧发回服务器。从服务器的角度看,就像访问本地SCSI硬盘一样。

段落3:SAN的优势包括:高性能,专用网络提供高带宽和低延迟;高可用性,多路径冗余保证单点故障不影响访问;可扩展性,可以轻松添加更多服务器和存储;集中管理,所有存储资源在存储阵列上集中管理;支持高级功能,如快照、复制、克隆等。

段落4:SAN的典型应用场景包括:数据库存储(Oracle、SQL Server),虚拟化平台(VMware vSphere、Hyper-V),电子邮件系统(Exchange、Lotus Notes),高性能计算(HPC),核心业务系统。SAN是高端企业存储的首选架构。


二、RAID技术

2.1 RAID概述

RAID(Redundant Array of Independent Disks,独立磁盘冗余阵列)通过将多块硬盘组合起来,提供更高的性能、可靠性或两者兼得。

2.2 RAID级别详解

flowchart TD
    subgraph RAID级别对比
        subgraph RAID0
            D1[数据块1]
            D2[数据块2]
            D3[数据块3]
            D4[数据块4]

            D1 --> Disk1[磁盘1]
            D2 --> Disk2[磁盘2]
            D3 --> Disk3[磁盘3]
            D4 --> Disk4[磁盘4]
        end

        subgraph RAID1
            D1_1[数据1]
            D1_2[数据1镜像]
            D2_1[数据2]
            D2_2[数据2镜像]

            D1_1 --> Disk1_1[磁盘1]
            D1_2 --> Disk2_1[磁盘2]
            D2_1 --> Disk3_1[磁盘3]
            D2_2 --> Disk4_1[磁盘4]
        end

        subgraph RAID5
            D1_1[数据1]
            D2_1[数据2]
            D3_1[数据3]
            P1[校验1]
            D4_1[数据4]
            D5_1[数据5]
            D6_1[数据6]
            P2[校验2]

            D1_1 --> Disk1_2[磁盘1]
            D2_1 --> Disk2_2[磁盘2]
            D3_1 --> Disk3_2[磁盘3]
            P1 --> Disk4_2[磁盘4]
            D4_1 --> Disk1_2
            D5_1 --> Disk2_2
            D6_1 --> Disk3_2
            P2 --> Disk4_2
        end

        subgraph RAID10
            D1_m[数据1]
            D1_m2[数据1镜像]
            D2_m[数据2]
            D2_m2[数据2镜像]

            D1_m --> Disk1_m[磁盘1]
            D1_m2 --> Disk2_m[磁盘2]
            D2_m --> Disk3_m[磁盘3]
            D2_m2 --> Disk4_m[磁盘4]
        end
    end

    style Disk1 fill:#ffcdd2
    style Disk2 fill:#ffcdd2
    style Disk3 fill:#ffcdd2
    style Disk4 fill:#ffcdd2

图表讲解:RAID 0、1、5、10的数据分布方式。

段落1:图中展示了四种常用RAID级别的数据分布方式。RAID 0(条带化)将数据分块并行写入多个磁盘,提供最高的性能和空间利用率,但没有冗余保护,任何一块磁盘故障都会导致所有数据丢失。RAID 0适合对性能要求极高但数据价值较低的场景(如临时文件、缓存)。

段落2:RAID 1(镜像)将数据完全复制到两块磁盘上,提供完全的冗余保护。任何一块磁盘故障,数据仍然完整可用。读取性能可以提升(可以并行读取两块磁盘),写入性能略有下降(需要同时写入两块磁盘)。空间利用率只有50%。RAID 1适合关键应用,如操作系统盘、数据库事务日志。

段落3:RAID 5需要至少三块磁盘,将数据和校验信息分布在所有磁盘上。可以容忍一块磁盘故障而不丢失数据。读取性能较好(并行读取),写入性能较差(需要计算和写入校验信息)。空间利用率是(n-1)/n。RAID 5是通用应用的良好选择,但要注意磁盘重建时间(大容量磁盘重建可能需要数天)。

段落4:RAID 10是RAID 1和RAID 0的组合,先镜像再条带化。需要至少四块磁盘,可以容忍多块磁盘故障(只要不是同一镜像对的两块都故障)。提供良好的读写性能和冗余保护,但空间利用率只有50%。RAID 10是数据库应用的理想选择。

RAID级别对比

RAID级别最少磁盘冗余能力空间利用率性能应用场景
RAID 01100%极高临时数据、缓存
RAID 121块故障50%读写较好系统盘、关键数据
RAID 531块故障(n-1)/n读取好,写入差通用应用、文件服务器
RAID 642块故障(n-2)/n读取好,写入差大容量阵列、归档
RAID 104多块故障50%极高数据库、高性能应用

51学通信站长爱卫生的经验:“选择RAID级别时需要平衡性能、冗余和成本。对于数据库应用,RAID 10是最佳选择,虽然成本较高但性能和可靠性都很好。对于文件服务器,RAID 5或RAID 6提供了良好的平衡。对于系统盘,使用RAID 1即可。避免使用RAID 5存储关键业务数据,因为磁盘重建时间过长,第二块磁盘故障的风险不容忽视。“

2.3 硬件RAID与软件RAID

RAID可以通过硬件(RAID卡)或软件实现。

特性硬件RAID软件RAID
性能高(专用处理器)低(占用CPU)
成本高(需要RAID卡)低(软件实现)
兼容性依赖厂商跨平台
管理独立于OSOS集成
应用企业生产环境测试环境、小型应用

三、存储协议

3.1 块级存储协议

块级存储协议提供原始块设备的访问,性能高但管理复杂。

iSCSI协议

iSCSI(Internet Small Computer System Interface)将SCSI协议封装在TCP/IP中,允许通过以太网传输块级存储数据。

sequenceDiagram
    participant Init as iSCSI发起方<br>服务器
    participant Target as iSCSI目标<br>存储阵列
    participant Net as 以太网

    Note over Init,Target: iSCSI连接建立过程

    Init->>Net: 1. 发送登录请求<br>(目标IQN、认证信息)
    Net->>Target: 2. 转发登录请求
    Target->>Net: 3. 登录响应<br>(目标参数、会话ID)
    Net->>Init: 4. 转发登录响应

    Note over Init,Target: iSCSI会话已建立

    Init->>Net: 5. SCSI读命令<br>(封装为iSCSI PDU)
    Net->>Target: 6. 转发SCSI命令
    Target->>Net: 7. SCSI响应<br>(读数据)
    Net->>Init: 8. 转发SCSI响应

    Note over Init,Target: 对于服务器,iSCSI LUN就像本地硬盘

图表讲解:iSCSI协议的工作过程。

段落1:图中展示了iSCSI协议从连接建立到数据传输的完整过程。iSCSI发起方(通常是服务器)向iSCSI目标(存储阵列)发送登录请求,包含目标的IQN(iSCSI Qualified Name,iSCSI限定名称)和认证信息(CHAP用户名密码)。目标验证后建立会话,返回会话ID和目标参数(如最大传输单元、支持的功能)。

段落2:会话建立后,服务器可以像访问本地SCSI设备一样访问iSCSI目标。服务器发送SCSI命令(如读、写),SCSI命令被封装为iSCSI协议数据单元(PDU),通过TCP/IP网络传输到存储阵列。存储阵列解析PDU,执行SCSI命令,将结果封装为PDU发回服务器。

段落3:iSCSI的优势在于利用现有的以太网基础设施,无需专用的光纤网络,成本较低。iSCSI可以跨越长距离(只要IP网络可达),适合分布式存储。iSCSI的缺点是性能受限于网络带宽和延迟,TCP/IP的封装开销也降低了效率。

段落4:iSCSI的典型应用场景包括:中小企业的SAN部署(使用iSCSI比FC-SAN更经济),虚拟化平台的共享存储,远程数据复制,灾难恢复站点。对于10Gbps以太网环境,iSCSI可以提供与FC相媲美的性能。

光纤通道协议

光纤通道(FC)是专为存储设计的高性能协议,提供极高的带宽和极低的延迟。

特性iSCSI光纤通道
传输介质以太网(铜缆/光纤)光纤
带宽1/10/25/40/100 Gbps8/16/32/64 Gbps
延迟较高(TCP/IP开销)极低
距离无限制(IP可达)几十公里
成本
管理简单(使用IP网络工具)复杂(专用工具)

3.2 文件级存储协议

文件级存储协议直接提供文件共享,用户看到的是文件和目录,而不是块设备。

NFS协议

NFS(Network File System)是Unix/Linux系统的标准文件共享协议。

flowchart TD
    subgraph NFS客户端
        App[应用程序]
        VFS[虚拟文件系统<br>VFS]
        NFS_Client[NFS客户端]
    end

    subgraph 网络
        Eth[以太网]
    end

    subgraph NFS服务器
        NFS_Server[NFS服务器]
        Export[导出配置]
        FS[文件系统]
    end

    App --> VFS
    VFS --> NFS_Client
    NFS_Client --> Eth
    Eth --> NFS_Server
    NFS_Server --> Export
    Export --> FS

    style App fill:#c8e6c9
    style VFS fill:#fff9c4
    style NFS_Client fill:#ffcdd2
    style NFS_Server fill:#bbdefb
    style FS fill:#e1bee7

图表讲解:NFS的客户端-服务器架构。

段落1:图中展示了NFS的工作架构。应用程序访问文件时,通过虚拟文件系统(VFS)抽象层。VFS判断文件是本地还是远程,如果是远程NFS文件,将请求传递给NFS客户端。NFS客户端将文件操作封装为NFS协议包,通过以太网发送给NFS服务器。

段落2:NFS服务器接收到NFS请求后,根据导出(export)配置检查客户端是否有权限访问该文件系统。如果有权限,NFS服务器在本地文件系统上执行文件操作,然后将结果封装为NFS响应发回客户端。

段落3:NFS有多个版本。NFSv2是早期版本,功能简单。NFSv3增加了对64位文件大小、异步写入的支持,性能更好。NFSv4增加了安全性(Kerberos认证、加密)、状态化操作(锁、委托)、跨协议访问(通过NFSv4可以同时访问NFS和CIFS资源)等高级功能。NFSv4.1增加了pNFS(并行NFS),支持元数据和数据路径分离,提高性能。

段落4:NFS的典型应用场景包括:Unix/Linux环境的文件共享,高性能计算的数据共享,虚拟化平台的网络存储(如VMware NFS datastore),用户home目录的集中存储。选择NFS时建议使用NFSv4,因为其安全性更好,功能更丰富。

SMB协议

SMB(Server Message Block,服务器消息块)是Windows系统的标准文件共享协议,也称为CIFS(Common Internet File System)。

特性NFSSMB/CIFS
主要平台Unix/LinuxWindows
认证Kerberos、UID/GIDNTLM、Kerberos
加密NFSv4支持SMB3支持
锁定AdvisoryMandatory
性能高(无状态设计)较高(有状态)
互操作性Windows/Linux原生Windows

四、备份架构与策略

4.1 备份概述

备份是数据保护的最后一道防线,当所有其他保护措施(如RAID、复制、高可用)都失效时,备份是恢复数据的唯一途径。

4.2 备份类型

flowchart TD
    subgraph 备份类型
        Full[全量备份<br>备份所有数据<br>时间最长、空间最大]
        Inc[增量备份<br>备份自上次备份<br>以来的变化]
        Diff[差异备份<br>备份自全量备份<br>以来的变化]
    end

    subgraph 备份策略示例
        Day1[周一<br>全量备份<br>备份100GB]
        Day2[周二<br>增量备份<br>备份10GB]
        Day3[周三<br>增量备份<br>备份12GB]
        Day4[周四<br>增量备份<br>备份8GB]
        Day5[周五<br>差异备份<br>备份30GB]
    end

    Full --> Day1
    Inc --> Day2
    Inc --> Day3
    Diff --> Day5

    style Full fill:#ffcdd2
    style Inc fill:#fff9c4
    style Diff fill:#c8e6c9
    style Day1 fill:#e1bee7

图表讲解:三种备份类型及其差异。

段落1:图中展示了全量备份、增量备份和差异备份三种备份类型。全量备份备份所有选定的数据,无论数据是否发生变化。全量备份的优点是恢复最简单(只需要最后一个全量备份),缺点是备份时间长、占用存储空间大。

段落2:增量备份只备份自上次备份(无论全量还是增量)以来发生变化的数据。增量备份的优点是备份时间最短、占用存储空间最小。缺点是恢复最复杂(需要先恢复全量备份,然后按顺序恢复所有增量备份)。如果任何一个增量备份损坏,后续数据将无法恢复。

段落3:差异备份备份自上次全量备份以来发生变化的所有数据。差异备份的备份时间和空间占用介于全量和增量之间。恢复时只需要恢复最后一个全量备份和最后一个差异备份,比增量备份简单。差异备份是全量和增量的折中方案。

段落4:实际应用中通常采用混合策略。例如,每周日进行全量备份,周一到周六进行增量备份。或者每周日进行全量备份,周三进行差异备份,其他时间进行增量备份。选择哪种策略取决于恢复时间要求(RTO)、恢复点要求(RPO)和备份存储容量。

4.3 备份架构设计

flowchart TD
    subgraph 备份源
        ProdSrv[生产服务器<br>数据库/文件系统]
    end

    subgraph 备份服务器
        BackupSrv[备份服务器<br>备份软件]
    end

    subgraph 备份存储
        Disk[磁盘存储<br>快速备份恢复]
        Tape[磁带库<br>长期归档]
        Cloud[云存储<br>异地保护]
    end

    subgraph 离线保管
        Offsite[异地保管<br>防火防磁防潮]
    end

    ProdSrv -->|网络备份| BackupSrv
    BackupSrv --> Disk
    BackupSrv --> Tape
    BackupSrv --> Cloud

    Tape --> Offsite

    style ProdSrv fill:#ffcdd2
    style BackupSrv fill:#ff9800
    style Disk fill:#c8e6c9
    style Tape fill:#2196f3
    style Cloud fill:#9c27b0
    style Offsite fill:#ff5722

图表讲解:企业级备份架构的组成。

段落1:图中展示了一个完整的企业备份架构,包含备份源、备份服务器、多种备份存储和异地保管。备份源是需要备份的生产服务器,包括数据库服务器、文件服务器、应用服务器等。

段落2:备份服务器运行备份软件(如Veeam、Commvault、NetBackup),负责调度备份任务、管理备份存储、执行备份和恢复操作。备份服务器可以是物理服务器或虚拟机,取决于备份数据量和性能要求。

段落3:备份存储采用分层设计。磁盘存储用于快速备份和恢复,通常保留最近几天的备份。磁带库用于长期归档,磁带的成本低、寿命长、可离线保存,适合保留数年的数据。云存储提供异地保护,避免本地灾难(如火灾、洪水)导致数据丢失。

段落4:异地保管是数据保护的关键环节。按照3-2-1备份规则,应该保留3份备份数据,存储在2种不同介质上,其中1份异地保存。磁带的离线保管应该满足防火、防磁、防潮、防尘的要求,通常选择专业的数据保管服务。

51学通信建议:对于中小企业,可以考虑”备份到磁盘,复制到云端”的简化策略。使用本地NAS或专用备份设备作为主要备份存储,然后通过云备份服务(如AWS S3、Azure Blob、阿里云OSS)将备份数据复制到云端。这种方案成本适中,实施简单,提供了良好的本地恢复性能和异地灾难保护。


五、超融合基础设施

5.1 HCI概述

超融合基础设施(Hyper-Converged Infrastructure,HCI)是近年兴起的数据中心架构,将计算、存储、网络深度融合在标准x86服务器上,通过软件定义的方式提供IT基础设施服务。

5.2 HCI架构

flowchart TD
    subgraph HCI节点1
        Compute1[计算资源<br>CPU/内存]
        Storage1[本地存储<br>SSD/HDD]
        Network1[网络接口<br>10G/25G]
    end

    subgraph HCI节点2
        Compute2[计算资源<br>CPU/内存]
        Storage2[本地存储<br>SSD/HDD]
        Network2[网络接口<br>10G/25G]
    end

    subgraph HCI节点3
        Compute3[计算资源<br>CPU/内存]
        Storage3[本地存储<br>SSD/HDD]
        Network3[网络接口<br>10G/25G]
    end

    subgraph HCI软件层
        vSAN[vSAN等<br>软件定义存储]
        vMotion[vMotion等<br>虚拟化迁移]
    end

    subgraph 虚拟机
        VM1[虚拟机1]
        VM2[虚拟机2]
        VM3[虚拟机3]
    end

    Network1 --- Network2
    Network2 --- Network3
    Network3 --- Network1

    Compute1 --> vSAN
    Compute2 --> vSAN
    Compute3 --> vSAN

    Storage1 --> vSAN
    Storage2 --> vSAN
    Storage3 --> vSAN

    VM1 --> Compute1
    VM2 --> Compute2
    VM3 --> Compute3

    vSAN -->|分布式存储| VM1
    vSAN -->|分布式存储| VM2
    vSAN -->|分布式存储| VM3

    style Compute1 fill:#ffcdd2
    style Compute2 fill:#ffcdd2
    style Compute3 fill:#ffcdd2
    style vSAN fill:#ff9800
    style VM1 fill:#c8e6c9
    style VM2 fill:#c8e6c9
    style VM3 fill:#c8e6c9

图表讲解:HCI的架构和工作原理。

段落1:图中展示了一个典型的三节点HCI集群。每个HCI节点是标准的x86服务器,配备CPU、内存、本地存储(SSD+HDD组合)和高速网络接口(10Gbps或更高)。节点之间通过高速网络互联,形成一个集群。

段落2:HCI软件层是HCI架构的核心,它将各个节点的本地存储聚合为一个分布式存储池,对虚拟机呈现为共享存储。例如,VMware vSphere的vSAN、Nutanix的DFS、Microsoft的Storage Spaces Direct都是HCI存储层软件。虚拟机的数据被分散存储在多个节点的本地磁盘上,提供冗余保护和高性能。

段落3:当虚拟机需要访问存储时,HCI软件根据数据位置路由请求到相应节点。如果数据在本地节点,直接访问本地磁盘,延迟极低;如果数据在远程节点,通过网络访问。数据在多个节点上有副本,任一节点故障,数据仍然可访问。

段落4:HCI的优势包括:架构简单,无需独立的存储网络和存储阵列;扩展方便,通过添加节点线性扩展容量和性能;管理统一,单一管理界面管理计算和存储;成本较低,使用标准服务器而非专用存储设备。HCI特别适合中小企业的虚拟化部署和远程办公室/分支办公机构(ROBO)场景。

5.3 HCI与传统架构对比

特性HCI传统架构
架构融合架构分层架构
扩展节点级扩展分层独立扩展
管理统一管理分散管理
成本初始较低初始较高
性能规模受限可扩展到极高
适用场景中小规模、通用负载大规模、专业化负载

六、总结

本文系统介绍了企业级存储架构与备份技术,主要内容包括:

  1. 存储架构:理解DAS、NAS、SAN三种架构的特点和应用场景,能够根据业务需求选择合适的存储架构

  2. RAID技术:掌握常用RAID级别的原理、性能和冗余特性,能够为不同应用选择合适的RAID级别

  3. 存储协议:理解iSCSI、FC、NFS、SMB等协议的工作原理和应用场景

  4. 备份策略:掌握全量、增量、差异备份的特点,能够设计符合业务需求的备份架构

  5. HCI架构:理解超融合基础设施的原理和价值,了解其适用场景

存储架构设计是数据中心设计的核心组成部分,直接影响应用的性能、数据的可靠性和业务的连续性。选择合适的存储架构和RAID级别,设计合理的备份策略,实施有效的灾难恢复计划,是企业IT基础设施建设的关键环节。

51学通信认为:“存储架构的设计应该以业务需求为出发点。不要盲目追求最新的技术和最高的性能,而要理解业务对存储的真实需求:性能要求多高?容量需要多大?可以容忍多大的数据丢失?恢复时间有多紧急?基于这些需求,选择合适的存储架构和备份策略,才能构建经济高效的数据保护体系。”

下一篇将深入探讨虚拟化技术与云计算,帮助你理解服务器虚拟化、桌面虚拟化以及主流云服务平台,构建完整的云原生知识体系。


常见问题解答

Q1:NAS和SAN如何选择?它们的本质区别是什么?

:NAS和SAN的本质区别在于抽象层次:NAS提供文件级存储,SAN提供块级存储。文件级存储意味着服务器看到的是文件和目录,可以直接打开、读取、写入文件。块级存储意味着服务器看到的是原始的块设备(类似本地硬盘),需要在上面创建文件系统后才能使用文件。

选择NAS的场景:以文件共享为主的应用,如企业文档共享、用户home目录、媒体文件存储;跨平台文件共享,Windows、Linux、Mac需要同时访问同一文件系统;管理资源有限,NAS的Web管理界面简单易用;预算有限,NAS的成本通常低于SAN。选择SAN的场景:数据库应用,数据库需要直接访问块设备以获得最佳性能;虚拟化平台,虚拟机的磁盘文件需要高性能、低延迟的存储;高并发访问,多个服务器需要同时访问同一存储设备;需要高级存储功能,如快照、复制、Thin Provisioning。

实际应用中,很多企业采用NAS+SAN的混合架构。SAN用于数据库、虚拟化等高性能应用,NAS用于文件共享、备份存储等应用。一些现代存储阵列(如NetApp、Unity)可以同时提供NAS和SAN服务,进一步简化了架构。

Q2:RAID 5在大型磁盘上已经不安全了吗?应该使用什么替代?

:RAID 5在大容量磁盘(如4TB、8TB、10TB)上确实存在被称为”RAID 5写漏洞”或”重建风险”的问题。问题根源在于:磁盘容量越来越大,但传输速率增长相对缓慢,重建RAID 5阵列所需的时间越来越长(可能需要数天)。在漫长的重建过程中,阵列处于降级状态(只能容忍一块磁盘故障),如果第二块磁盘出现故障或读取错误,所有数据将丢失。另外,大容量磁盘的不可恢复读取错误(URE)概率更高,重建时读取到URE会导致重建失败。

RAID 5的替代方案包括:RAID 6,可以容忍两块磁盘故障,重建风险更低。RAID 10,提供更好的性能和更高的可靠性,虽然空间利用率只有50%但更安全。RAID 10 + 热备盘,进一步降低风险。考虑使用企业级磁盘(如NL-SAS、SAS)而非消费级磁盘,企业级磁盘的可靠性和错误处理能力更好。

51学通信建议:对于4TB以上的磁盘,避免使用RAID 5。如果预算允许,RAID 10是最佳选择,特别是对于数据库等关键应用。如果必须考虑空间利用率,RAID 6是折中方案,但要注意重建时间仍然很长。另外,无论使用什么RAID级别,都不能替代备份。RAID保护的是硬件故障,而备份保护的是逻辑错误(误删、病毒、软件bug)、站点灾难等更大范围的威胁。

Q3:3-2-1备份规则是什么?在云端时代还适用吗?

:3-2-1备份规则是数据保护的经典原则,由备份专家Peter Krogh提出,具体含义是:保留3份备份数据(1份原始数据 + 2份备份数据);使用2种不同的存储介质(如磁盘+磁带,或磁盘+云);其中1份备份异地保存(防止本地灾难)。

在云端时代,3-2-1规则仍然适用,但实现方式有所变化。传统的”2种介质”可以是磁盘(本地NAS)和磁带(离线归档)。云时代的”2种介质”可以是本地磁盘和云端存储。云端存储本质上也是磁盘,但因为其地理分离特性,可以同时满足”2种介质”和”1份异地”的要求。

云备份的优势包括:无需购买和维护磁带库和离线存储设施;数据自动上传到云端,无需人工运输;云存储提供多地域冗余,进一步降低风险;按使用量付费,成本可控。云备份的挑战包括:首次完整备份可能需要很长时间(取决于上传带宽);恢复大量数据可能需要很长时间(取决于下载带宽);长期存储成本可能高于磁带(但需要考虑磁带的隐性管理成本)。

修改后的云时代3-2-1规则可以是:保留3份数据(原始+本地备份+云端备份);使用2个位置(本地+云端,本地使用RAID或备份设备,云端使用不同区域);1份不可变备份(云端对象锁功能,防止勒索软件加密备份)。这种方案既保留了经典规则的保护思想,又利用了云技术的优势。

Q4:HCI适用于所有场景吗?什么情况下不应该使用HCI?

:HCI虽然简化了IT基础设施,但并不适用于所有场景。HCI的优势在于简单、统一、易扩展,但在某些场景下传统架构可能更合适。

HCI不适合的场景包括:超大规模部署,超过几十个节点后,HCI的扩展性和性能可能不如传统架构;极致性能要求,高性能数据库(如大型Oracle RAC)可能需要专用存储阵列的超低延迟;存储和计算扩展不匹配的场景,如果只需要扩展存储而不需要扩展计算,HCI只能添加完整节点,造成资源浪费;已有成熟传统架构的环境,如果现有传统架构运行良好,迁移到HCI的成本和风险可能超过收益;高度专业化的负载,如高性能计算、大数据分析,可能需要定制化的存储和网络配置。

HCI最适合的场景包括:中小企业的虚拟化平台,从3-5个节点开始,随业务增长逐步扩展;远程办公室/分支办公机构,ROBO缺乏专业IT人员,HCI的简化管理非常实用;虚拟桌面基础架构(VDI),VDI的存储IO模式非常适合HCI的架构;测试开发环境,需要快速部署和灵活调整。

选择HCI还是传统架构,建议从以下角度评估:团队技能,HCI需要理解虚拟化和软件定义存储,传统架构需要分别理解服务器和存储;预算,HCI的初始成本通常较低但单位成本可能更高;扩展性,评估未来3-5年的规模需求;管理复杂度,HCI的统一管理可以显著降低运维工作量。

Q5:存储性能瓶颈如何排查?是磁盘还是网络的问题?

:存储性能瓶颈可能来自多个环节,包括磁盘阵列、网络、服务器HBA、文件系统等。系统化的排查方法是从底层到上层逐层检查。

首先检查磁盘阵列:查看存储管理界面,磁盘IOPS、吞吐量、响应时间是否接近或达到上限。磁盘IOPS达到上限的症状是响应时间显著增加(通常正常是几毫秒,瓶颈时可能几十毫秒甚至更高)。检查阵列缓存命中率,缓存命中率低说明工作负载随机性强,可能需要更多磁盘或SSD缓存。

其次检查网络连接:使用ping检查延迟,正常LAN环境应该小于1ms,存储网络延迟过高会严重影响性能。检查网络接口利用率,使用带宽监控工具,接口持续80%以上利用率表示带宽瓶颈。对于iSCSI,检查TCP重传率,重传率高表示网络不稳定。

然后检查服务器端:查看HBA卡队列深度,队列深度设置不当(过高或过低)都会影响性能。检查服务器CPU利用率,存储协议处理(如iSCSI的TCP/IP封装)会消耗CPU。检查多路径软件配置,是否正确配置了负载均衡。

最后检查应用和文件系统:查看应用层的I/O模式,顺序读写还是随机读写,小块I/O还是大块I/O。随机小块I/O对磁盘压力最大。检查文件系统碎片化程度,碎片化会增加磁盘寻道时间。检查是否启用了压缩或重复数据删除,这些功能会消耗CPU和存储资源。

51学通信提示:存储性能排查的关键是建立基线。在系统正常运行时记录各项指标(IOPS、延迟、吞吐量),当性能下降时对比基线数据,快速定位变化点。现代存储阵列和备份软件通常提供性能监控功能,充分利用这些工具可以大大简化排查工作。

本文由”51学通信”(公众号:51学通信,站长:爱卫生)原创分享。如需深入交流或获取更多通信技术资料,欢迎添加微信:gprshome201101。