July 28 - Troubleshooting ML jobs in CC | The DataChemist's Journey

The model training for common algorithms hasn't gone as expected, most models have some type of error or can't be trained because of extensive parameter grids. Up to date this is the status of the ML models.

Status of ML models

Model	Output file	`classifier` Grid	`best_estimator_` array	Status	Error Msg
DecisionTree	:heavy_check_mark:	:heavy_minus_sign:	:heavy_minus_sign:	Running :heavy_minus_sign:
GPC	:heavy_check_mark:	:heavy_minus_sign:	:heavy_minus_sign:	Failed :x:	(8g+5 outer folds) out of memory at 03:33
KNN	:heavy_check_mark:	:heavy_minus_sign:	:heavy_minus_sign:	Failed :x:	(8g+5 outer folds) out of memory at 01:07, (12g) out of memory at 03:33
LogisticRegression	:heavy_check_mark:	:heavy_check_mark:	:heavy_check_mark:	Successful :white_check_mark:
SVM	:heavy_check_mark:	:heavy_minus_sign:	:heavy_minus_sign:	Failed :x:	Node_Fail (:question:)
XGB	:heavy_check_mark:	:heavy_minus_sign:	:heavy_minus_sign:	Failed :x:	Timeout 3-23:00 (8g)

There are some specific failures for the output files.

b3db_dtree: Run time 00:00:14

ValueError: Invalid parameter min_sample_leaf for estimator DecisionTreeClassifier(max_depth=10, max_features='auto', random_state=2021). Check the list of available parameters with `estimator.get_params().keys()`.

b3db_svm: Run time 6-00:29

NODE_FAIL