Swekerr
/

gsmma-270m-grpo

text-generation-inference

Model card Files Files and versions

Ran eval on random 100 Qs from gsm8k Got 1 correct. W.

Developed by: Swekerr
License: apache-2.0
Finetuned from model : unsloth/gemma-3-270m-it

This gemma3_text model was trained 2x faster with Unsloth and Huggingface's TRL library.

Downloads last month: 3

Safetensors

Model size

0.3B params

Tensor type

BF16

·

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Swekerr/gsmma-270m-grpo

Base model

google/gemma-3-270m

Finetuned

google/gemma-3-270m-it

Finetuned

unsloth/gemma-3-270m-it

Finetuned

(394)

this model

Dataset used to train Swekerr/gsmma-270m-grpo