多云架构指南
多云 vs 混合云
| 策略 | 定义 | 优势 | 挑战 |
|---|---|---|---|
| 多云 | 使用 2 个及以上公有云(AWS + GCP 等) | 避免厂商锁定,利用最佳服务 | 运维复杂度高,技能要求多 |
| 混合云 | 本地数据中心 + 公有云 | 数据主权合规、遗留系统集成 | 网络延迟、统一工具链难度高 |
| 多厂商最优 | 不同工作负载使用不同云厂商的最优服务 | 各取所长 | 数据引力、出流费用高 |
| 单一云 | 全部押注一家云厂商 | 简单、深度集成、折扣大 | 厂商锁定、风险集中 |
云中立抽象层
| 层级 | 工具/标准 | 抽象内容 |
|---|---|---|
| 基础设施 | Terraform / OpenTofu / Pulumi | 虚拟机、网络、存储供应 |
| 容器 | Kubernetes(任何云) | 计算调度、服务发现 |
| 服务网格 | Istio / Linkerd | 流量管理、mTLS、可观测性 |
| 存储 | MinIO(S3 兼容) | 对象存储可移植性 |
| CI/CD | GitHub Actions、ArgoCD | 云无关流水线 |
| 可观测性 | OpenTelemetry、Prometheus、Grafana | 跨云的指标、追踪、日志 |
| 密钥 | HashiCorp Vault | 集中化密钥管理 |
工作负载分配模式
# 模式一:各取所长
# - AI/ML 工作负载 → GCP(Vertex AI、TPU)
# - .NET / Azure AD 已有投入 → Azure
# - 核心基础设施 → AWS(生态最成熟)
# 模式二:主动-主动灾备
# - 相同工作负载同时运行在 AWS + GCP
# - Cloudflare 全球负载均衡分发流量
# - 数据跨云复制(出流费用较高!)
# 模式三:数据合规/属地要求
# - 欧盟用户数据 → Azure 欧洲区(GDPR)
# - 中国市场 → 阿里云/腾讯云
# Kubernetes 多集群
# kubectl ctx cluster-aws → 部署到 AWS EKS
# kubectl ctx cluster-gcp → 部署到 GCP GKE
# 使用 Flux 多集群或 Argo ApplicationSet 自动化