Activated Dropout to avoid overfitting

2025-10-12 12:28:06 +02:00
parent f463f699cf
commit 4ca1d0a189
3 changed files with 22 additions and 22 deletions
--- a/Project_Model/Libs/Transformer/Classes/Decoder.py
+++ b/Project_Model/Libs/Transformer/Classes/Decoder.py
@@ -19,7 +19,7 @@ class Decoder(nn.Module):
        self.__attention_heads = number_of_attention_heads
        super().__init__()

-        
+

        self.__masked_attention = MultiHeadAttention(
            embedding_dimension, number_of_attention_heads, dropout=0.1
@@ -68,12 +68,12 @@ class Decoder(nn.Module):
        )

        # 2) Dropout
-        # DROPPED_MASKED_ATTENTION = self.__dropout(MASKED_ATTENTION)
-        # del MASKED_ATTENTION
+        DROPPED_MASKED_ATTENTION = self.__dropout(MASKED_ATTENTION)
+        del MASKED_ATTENTION

        # 3) Residual Connection
-        x = x + MASKED_ATTENTION
-        del MASKED_ATTENTION
+        x = x + DROPPED_MASKED_ATTENTION
+        del DROPPED_MASKED_ATTENTION

        # 4) Layer Normalization
        x = self.__layer_norm_1(x)
@@ -86,12 +86,12 @@ class Decoder(nn.Module):
            )

            # 6) Dropout
-            # DROPPED_CROSS_ATTENTION = self.__dropout(CROSS_ATTENTION)
-            # del CROSS_ATTENTION
+            DROPPED_CROSS_ATTENTION = self.__dropout(CROSS_ATTENTION)
+            del CROSS_ATTENTION

            # 7) Residual Connection
-            x = x + CROSS_ATTENTION
-            del CROSS_ATTENTION
+            x = x + DROPPED_CROSS_ATTENTION
+            del DROPPED_CROSS_ATTENTION

            # 8) Layer Normalization
            x = self.__layer_norm_2(x)
@@ -100,12 +100,12 @@ class Decoder(nn.Module):
        FEED_FORWARD = self.__feed_forward_network(x)

        # 10) Dropout
-        # DROPPED_FEED_FORWARD = self.__dropout(FEED_FORWARD)
-        # del FEED_FORWARD
+        DROPPED_FEED_FORWARD = self.__dropout(FEED_FORWARD)
+        del FEED_FORWARD

        # 11) Residual Connection
-        x = x + FEED_FORWARD
-        del FEED_FORWARD
+        x = x + DROPPED_FEED_FORWARD
+        del DROPPED_FEED_FORWARD

        # 12) Layer Normalization
        x = self.__layer_norm_3(x)