PoliBa-DeepLearning/NanoSocrates

Christian Risi 8e095ebb7a Added papers stub

2025-10-03 18:02:27 +02:00

4.7 KiB

Raw Permalink Blame History

Research Material

BPE

Embedder

Attention

Spanned Masking

Models

What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot Generalization?