注: 以下の翻訳の正確性は検証されていません。AIPを利用して英語版の原文から機械的に翻訳されたものです。
# 計算時間(秒)は、レプリカあたりのvCPU数と、レプリカあたりのRAM容量(7.5で割った値)の大きい方を採用します。
# この値にレプリカ数、モデルのvCPU使用率、アクティブな時間(秒)を掛けることで、ライブデプロイメントのvCPU計算時間(秒)を求めます。
live_deployment_vcpu_compute_seconds = max(vCPUs_per_replica, GiB_RAM_per_replica / 7.5) * num_replicas * live_model_vcpu_usage_rate * time_active_in_seconds
次の式はGPUのコンピュート秒を測定します:
# GPUを使ったライブデプロイメントの計算時間を求める式
# 各レプリカに使用されるGPUの数、レプリカの総数、ライブモデルのGPU使用率、アクティブな時間(秒)を掛け合わせる
live_deployment_gpu_compute_seconds = GPUs_per_replica * num_replicas * live_model_gpu_usage_rate * time_active_in_seconds
resource_config:
num_replicas: 2 # レプリカの数
vcpu_per_replica: 0.5 vCPU # レプリカごとのvCPUの数
GiB_RAM_per_replica: 1 GiB # レプリカごとのRAMの量
seconds_active: 20 seconds # アクティブな秒数
live_model_vcpu_usage_rate: 0.2 # ライブモデルのvCPU使用率
# 計算秒数の計算
# 最大値(vcpu_per_replica, GiB_RAM_per_replica / 7.5) * レプリカ数 * ライブモデルのvCPU使用率 * アクティブな時間(秒)
# = max(0.5vCPU, 1GiB / 7.5) * 2レプリカ * 0.2 * 20秒
# = 0.5 * 2 * 0.2 * 20
# = 4 計算秒
compute seconds = max(vcpu_per_replica, GiB_RAM_per_replica / 7.5) * num_replicas * live_model_vcpu_usage_rate * time_active_in_seconds
= max(0.5vCPU, 1GiB / 7.5) * 2replicas * 0.2 * 20sec
= 0.5 * 2 * 0.2 * 20
= 4 compute-seconds
resource_config:
num_replicas: 2 # レプリカの数:2
gpu_per_replica: 1 V100 GPU # レプリカあたりのGPU:1 V100 GPU
seconds_active: 20 seconds # アクティブ時間:20秒
live_model_gpu_usage_rate: 3 # ライブモデルのGPU使用率:3
# 計算秒数 = レプリカあたりのGPU * レプリカの数 * ライブモデルのGPU使用率 * アクティブ時間(秒)
compute seconds = gpu_per_replica * num_replicas * live_model_gpu_usage_rate * time_active_in_seconds
= 1 * 2レプリカ * 3 * 20秒
= 1 * 2 * 3 * 20
= 120 計算秒数