4 лет назад · 31f274beed
--- a/library/convGAN.py
+++ b/library/convGAN.py
@@ -28,6 +28,16 @@ from tensorflow.keras.layers import Lambda
 
				 import warnings
			
 
				 warnings.filterwarnings("ignore")
			
 
				 
			
 
				+
			
 
				+
			
 
				+def repeat(x, times):
			
 
				+    return [x for _i in range(times)]
			
 
				+
			
 
				+def create01Labels(totalSize, sizeFirstHalf):
			
 
				+    labels = repeat(np.array([1,0]), sizeFirstHalf)
			
 
				+    labels.extend(repeat(np.array([0,1]), totalSize))
			
 
				+    return np.array(labels)
			
 
				+
			
 
				 class ConvGAN(GanBaseClass):
			
 
				     """
			
 
				     This is a toy example of a GAN.
			
@@ -247,19 +257,11 @@ class ConvGAN(GanBaseClass):
 
				         generator = self.conv_sample_generator
			
 
				         discriminator = self.maj_min_discriminator
			
 
				         GAN = self.cg
			
 
				-        loss_history=[] ## this is for stroring the loss for every run
			
 
				+        loss_history = [] ## this is for stroring the loss for every run
			
 
				         min_idx = 0
			
 
				         neb_epoch_count = 1
			
 
				 
			
 
				-        labels = []
			
 
				-        for i in range(2 * self.gen):
			
 
				-            if i < self.gen:
			
 
				-                labels.append(np.array([1,0]))
			
 
				-            else:
			
 
				-                labels.append(np.array([0,1]))
			
 
				-        labels = np.array(labels)
			
 
				-        labels = tf.convert_to_tensor(labels)
			
 
				-
			
 
				+        labels = tf.convert_to_tensor(create01Labels(2 * self.gen, self.gen))
			
 
				 
			
 
				         for step in range(neb_epochs * len(data_min)):
			
 
				             ## generate minority neighbourhood batch for every minority class sampls by index
			
@@ -365,18 +367,20 @@ class ConvGAN(GanBaseClass):
 
				 
			
 
				 
			
 
				 def rough_learning_predictions(discriminator,test_data_numpy,test_labels_numpy):
			
 
				-
			
 
				-    ## after the first phase of training the discriminator can be used for classification
			
 
				-    ## it already learns to differentiate the convex minority points with majority points during the first training phase
			
 
				-    y_pred_2d=discriminator.predict(tf.convert_to_tensor(test_data_numpy))
			
 
				+    """
			
 
				+    after the first phase of training the discriminator can be used for classification
			
 
				+    it already learns to differentiate the convex minority points with majority points
			
 
				+    during the first training phase
			
 
				+    """
			
 
				+    y_pred_2d = discriminator.predict(tf.convert_to_tensor(test_data_numpy))
			
 
				     ## discretisation of the labels
			
 
				-    y_pred=np.digitize(y_pred_2d[:,0], [.5])
			
 
				+    y_pred = np.digitize(y_pred_2d[:,0], [.5])
			
 
				     ## prediction shows a model with good recall and less precision
			
 
				-    c=confusion_matrix(test_labels_numpy, y_pred)
			
 
				-    f=f1_score(test_labels_numpy, y_pred)
			
 
				-    pr=precision_score(test_labels_numpy, y_pred)
			
 
				-    rc=recall_score(test_labels_numpy, y_pred)
			
 
				-    k=cohen_kappa_score(test_labels_numpy, y_pred)
			
 
				+    c = confusion_matrix(test_labels_numpy, y_pred)
			
 
				+    f = f1_score(test_labels_numpy, y_pred)
			
 
				+    pr = precision_score(test_labels_numpy, y_pred)
			
 
				+    rc = recall_score(test_labels_numpy, y_pred)
			
 
				+    k = cohen_kappa_score(test_labels_numpy, y_pred)
			
 
				     print('Rough learning confusion matrix:', c)
			
 
				     print('Rough learning f1 score', f)
			
 
				     print('Rough learning precision score', pr)
			
@@ -386,38 +390,35 @@ def rough_learning_predictions(discriminator,test_data_numpy,test_labels_numpy):
 
				 
			
 
				 
			
 
				 
			
 
				-
			
 
				 def generate_synthetic_data(gan, data_min, data_maj):
			
 
				-    ## roughly claculate the upper bound of the synthetic samples to be generated from each neighbourhood
			
 
				-    synth_num=((len(data_maj)-len(data_min))//len(data_min))+1
			
 
				+    ## roughly claculate the upper bound of the synthetic samples
			
 
				+    ## to be generated from each neighbourhood
			
 
				+    synth_num = ((len(data_maj) - len(data_min)) // len(data_min)) + 1
			
 
				 
			
 
				     ## generate synth_num synthetic samples from each minority neighbourhood
			
 
				     synth_set = gan.generateData(synth_num)
			
 
				 
			
 
				-    ovs_min_class=np.concatenate((data_min,synth_set),axis=0)
			
 
				-    ovs_training_dataset=np.concatenate((ovs_min_class,data_maj),axis=0)
			
 
				-    ovs_pca_labels=np.concatenate((np.zeros(len(data_min)),np.zeros(len(synth_set))+1,np.zeros(len(data_maj))+2))
			
 
				-    # TODO ovs_training_labels=np.concatenate((np.zeros(len(ovs_min_class))+1,np.zeros(len(data_maj))+0))
			
 
				-    ovs_training_labels_oh=[]
			
 
				-    for i in range(len(ovs_training_dataset)):
			
 
				-        if i<len(ovs_min_class):
			
 
				-            ovs_training_labels_oh.append(np.array([1,0]))
			
 
				-        else:
			
 
				-            ovs_training_labels_oh.append(np.array([0,1]))
			
 
				-    ovs_training_labels_oh=np.array(ovs_training_labels_oh)
			
 
				-    ovs_training_labels_oh=tf.convert_to_tensor(ovs_training_labels_oh)
			
 
				-
			
 
				+    ovs_min_class = np.concatenate((data_min,synth_set), axis=0)
			
 
				+    ovs_training_dataset = np.concatenate((ovs_min_class,data_maj), axis=0)
			
 
				+    ovs_pca_labels = np.concatenate((
			
 
				+        np.zeros(len(data_min)),
			
 
				+        np.zeros(len(synth_set)) + 1,
			
 
				+        np.zeros(len(data_maj)) + 2
			
 
				+        ))
			
 
				+    
			
 
				+    ovs_training_labels_oh = create01Labels(len(ovs_training_dataset), len(ovs_min_class))
			
 
				+    ovs_training_labels_oh = tf.convert_to_tensor(ovs_training_labels_oh)
			
 
				 
			
 
				     ## PCA visualization of the synthetic sata
			
 
				-    ## observe how the minority samples from convex space have optimal variance and avoids overlap with the majority
			
 
				+    ## observe how the minority samples from convex space have optimal variance
			
 
				+    ## and avoids overlap with the majority
			
 
				     pca = PCA(n_components=2)
			
 
				     pca.fit(ovs_training_dataset)
			
 
				-    data_pca= pca.transform(ovs_training_dataset)
			
 
				+    data_pca = pca.transform(ovs_training_dataset)
			
 
				 
			
 
				     ## plot PCA
			
 
				     plt.rcParams["figure.figsize"] = (12,12)
			
 
				 
			
 
				-    # TODO colors=['r', 'b', 'g']
			
 
				     plt.xticks(fontsize=20)
			
 
				     plt.yticks(fontsize=20)
			
 
				     plt.xlabel('PCA1',fontsize=25)
			
@@ -439,11 +440,11 @@ def final_learning(discriminator, ovs_training_dataset, ovs_training_labels_oh,
 
				     print('\n')
			
 
				     ## second phase training of the discriminator with balanced data
			
 
				 
			
 
				-    history_second_learning=discriminator.fit(x=ovs_training_dataset,y=ovs_training_labels_oh, batch_size=20, epochs=num_epochs)
			
 
				+    history_second_learning = discriminator.fit(x=ovs_training_dataset, y=ovs_training_labels_oh, batch_size=20, epochs=num_epochs)
			
 
				 
			
 
				     ## loss of the second phase learning smoothly decreses
			
 
				     ## this is because now the data is fixed and diverse convex combinations are no longer fed into the discriminator at every training step
			
 
				-    run_range=range(1,num_epochs+1)
			
 
				+    run_range = range(1, num_epochs + 1)
			
 
				     plt.rcParams["figure.figsize"] = (16,10)
			
 
				     plt.xticks(fontsize=20)
			
 
				     plt.yticks(fontsize=20)
			
@@ -458,22 +459,22 @@ def final_learning(discriminator, ovs_training_dataset, ovs_training_labels_oh,
 
				     ## the recall decreases but the precision improves
			
 
				     print('\n')
			
 
				 
			
 
				-    y_pred_2d=discriminator.predict(tf.convert_to_tensor(test_data_numpy))
			
 
				-    y_pred=np.digitize(y_pred_2d[:,0], [.5])
			
 
				-    c=confusion_matrix(test_labels_numpy, y_pred)
			
 
				-    f=f1_score(test_labels_numpy, y_pred)
			
 
				-    pr=precision_score(test_labels_numpy, y_pred)
			
 
				-    rc=recall_score(test_labels_numpy, y_pred)
			
 
				-    k=cohen_kappa_score(test_labels_numpy, y_pred)
			
 
				+    y_pred_2d = discriminator.predict(tf.convert_to_tensor(test_data_numpy))
			
 
				+    y_pred = np.digitize(y_pred_2d[:,0], [.5])
			
 
				+    c = confusion_matrix(test_labels_numpy, y_pred)
			
 
				+    f = f1_score(test_labels_numpy, y_pred)
			
 
				+    pr = precision_score(test_labels_numpy, y_pred)
			
 
				+    rc = recall_score(test_labels_numpy, y_pred)
			
 
				+    k = cohen_kappa_score(test_labels_numpy, y_pred)
			
 
				     print('Final learning confusion matrix:', c)
			
 
				     print('Final learning f1 score', f)
			
 
				     print('Final learning precision score', pr)
			
 
				     print('Final learning recall score', rc)
			
 
				     print('Final learning kappa score', k)
			
 
				-    return c,f,pr,rc,k
			
 
				+    return c, f, pr, rc, k
			
 
				 
			
 
				 
			
 
				-def convGAN_train_end_to_end(training_data,training_labels,test_data,test_labels, neb, gen, neb_epochs,epochs_retrain_disc):
			
 
				+def convGAN_train_end_to_end(training_data, training_labels, test_data, test_labels, neb, gen, neb_epochs, epochs_retrain_disc):
			
 
				 
			
 
				     ##minority class
			
 
				     data_min=training_data[np.where(training_labels == 1)[0]]
			
@@ -516,7 +517,7 @@ def convGAN_train_end_to_end(training_data,training_labels,test_data,test_labels
 
				     print('\n')
			
 
				 
			
 
				     ## final training results
			
 
				-    c,f,pr,rc,k=final_learning(gan.maj_min_discriminator, ovs_training_dataset, ovs_training_labels_oh, test_data, test_labels, epochs_retrain_disc)
			
 
				+    c,f,pr,rc,k = final_learning(gan.maj_min_discriminator, ovs_training_dataset, ovs_training_labels_oh, test_data, test_labels, epochs_retrain_disc)
			
 
				 
			
 
				     return ((c_r,f_r,pr_r,rc_r,k_r),(c,f,pr,rc,k))
			
 
				 
			
@@ -551,8 +552,6 @@ def runTest():
 
				     neb=gen=5 ##neb=gen required
			
 
				     neb_epochs=10
			
 
				     epochs_retrain_disc=50
			
 
				-    # TODO n_feat=len(features_x[1]) ## number of features
			
 
				-
			
 
				 
			
 
				     ## Training
			
 
				     np.random.seed(42)