kubeflow · Oct 3, 2021 · Oct 3, 2021 · Oct 3, 2021
Showing with 7 additions and 25 deletions.

+3 −3 README.md

+1 −1 manifests/overlays/kubeflow/kustomization.yaml

+1 −1 manifests/overlays/standalone/kustomization.yaml

+1 −10 pkg/controller.v1/mxnet/mxjob_controller.go

+1 −10 pkg/controller.v1/pytorch/pytorchjob_controller.go
diff --git a/README.md b/README.md
@@ -12,9 +12,9 @@ run distributed or non-distributed TensorFlow/PyTorch/MXNet/XGBoost jobs on Kube
 
 - For a complete reference of the custom resource definitions, please refer to the API Definition.
   - [Tensorflow API Definition](pkg/apis/tensorflow/v1/types.go)
-  - [PyTorch API Definition](pkg/apis/pytorch/v1/types.go)
-  - [MXNet API Definition](pkg/apis/mxnet/v1/types.go)
-  - [XGBoost API Definition](pkg/apis/xgboost/v1/types.go)
+  - [PyTorch API Definition](pkg/apis/pytorch/v1/pytorchjob_types.go)
+  - [MXNet API Definition](pkg/apis/mxnet/v1/mxjob_types.go)
+  - [XGBoost API Definition](pkg/apis/xgboost/v1/xgboostjob_types.go)
 - For details on API design, please refer to the [v1alpha2 design doc](https://github.com/kubeflow/community/blob/master/proposals/tf-operator-design-v1alpha2.md).
 - For details of all-in-one operator design, please refer to the [All-in-one Kubeflow Training Operator](https://docs.google.com/document/d/1x1JPDQfDMIbnoQRftDH1IzGU0qvHGSU4W6Jl4rJLPhI/edit#heading=h.e33ufidnl8z6)
 - For details on its obersibility, please refer to the [monitoring design doc](docs/monitoring/README.md).

diff --git a/manifests/overlays/kubeflow/kustomization.yaml b/manifests/overlays/kubeflow/kustomization.yaml
@@ -7,4 +7,4 @@ resources:
 images:
   - name: kubeflow/training-operator
     newName: public.ecr.aws/j1r0q0g6/training/training-operator
-    newTag: "d4423c83124ce7ab58b9a61a2e909b2e9c14c236"
+    newTag: "760ac1171dd30039a7363ffa03c77454bd714da5"
diff --git a/manifests/overlays/standalone/kustomization.yaml b/manifests/overlays/standalone/kustomization.yaml
@@ -7,4 +7,4 @@ resources:
 images:
   - name: kubeflow/training-operator
     newName: public.ecr.aws/j1r0q0g6/training/training-operator
-    newTag: "d4423c83124ce7ab58b9a61a2e909b2e9c14c236"
+    newTag: "760ac1171dd30039a7363ffa03c77454bd714da5"
diff --git a/pkg/controller.v1/mxnet/mxjob_controller.go b/pkg/controller.v1/mxnet/mxjob_controller.go
@@ -166,17 +166,8 @@ func (r *MXJobReconciler) Reconcile(ctx context.Context, req ctrl.Request) (ctrl
 		replicas[commonv1.ReplicaType(k)] = v
 	}
 
-	// Construct RunPolicy based on MXJob.Spec
-	runPolicy := &commonv1.RunPolicy{
-		CleanPodPolicy:          mxjob.Spec.RunPolicy.CleanPodPolicy,
-		TTLSecondsAfterFinished: mxjob.Spec.RunPolicy.TTLSecondsAfterFinished,
-		ActiveDeadlineSeconds:   mxjob.Spec.RunPolicy.ActiveDeadlineSeconds,
-		BackoffLimit:            mxjob.Spec.RunPolicy.BackoffLimit,
-		SchedulingPolicy:        nil,
-	}
-
 	// Use common to reconcile the job related pod and service
-	err = r.ReconcileJobs(mxjob, replicas, mxjob.Status, runPolicy)
+	err = r.ReconcileJobs(mxjob, replicas, mxjob.Status, &mxjob.Spec.RunPolicy)
 	if err != nil {
 		logrus.Warnf("Reconcile MX Job error %v", err)
 		return ctrl.Result{}, err

diff --git a/pkg/controller.v1/pytorch/pytorchjob_controller.go b/pkg/controller.v1/pytorch/pytorchjob_controller.go
@@ -155,17 +155,8 @@ func (r *PyTorchJobReconciler) Reconcile(ctx context.Context, req ctrl.Request)
 	// Set default priorities to pytorch job
 	r.Scheme.Default(pytorchjob)
 
-	// Construct RunPolicy based on PyTorchJob.Spec
-	runPolicy := &commonv1.RunPolicy{
-		CleanPodPolicy:          pytorchjob.Spec.RunPolicy.CleanPodPolicy,
-		TTLSecondsAfterFinished: pytorchjob.Spec.RunPolicy.TTLSecondsAfterFinished,
-		ActiveDeadlineSeconds:   pytorchjob.Spec.RunPolicy.ActiveDeadlineSeconds,
-		BackoffLimit:            pytorchjob.Spec.RunPolicy.BackoffLimit,
-		SchedulingPolicy:        nil,
-	}
-
 	// Use common to reconcile the job related pod and service
-	err = r.ReconcileJobs(pytorchjob, pytorchjob.Spec.PyTorchReplicaSpecs, pytorchjob.Status, runPolicy)
+	err = r.ReconcileJobs(pytorchjob, pytorchjob.Spec.PyTorchReplicaSpecs, pytorchjob.Status, &pytorchjob.Spec.RunPolicy)
 	if err != nil {
 		logrus.Warnf("Reconcile PyTorch Job error %v", err)
 		return ctrl.Result{}, err