How to use zai-org/chatglm2-6b-int4 with Transformers:
# Load model directly from transformers import AutoModel model = AutoModel.from_pretrained("zai-org/chatglm2-6b-int4", trust_remote_code=True, dtype="auto")
还是建议在原始16bit模型上做训练然后再次量化?
另外这个量化是不是没有GPTQ推理加速的效果(对于llama模型非常明显)。
· Sign up or log in to comment