BitNet 是一种特殊的 transformers 架构,它用仅三个值:
(-1, 0, 1) 表示每个参数,提供了每个参数仅为 1.58 $ (log_2(3)) $ 比特的极端量化。然而,这需要从头开始训练一个模型。虽然结果令人印象深刻,但并非每个人都有预算来进行大语言模型的预训练。为了克服这一限制,我们探索了一些技巧,允许将现有模型精调至 1.58 比特!继续阅读以了解更多!