sileod
/

deberta-v3-large-tasksource-rlhf-reward-model

Text Classification

Eval Results (legacy)

text-embeddings-inference

Model card Files Files and versions

Reward model based `deberta-v3-large-tasksource-nli` fine-tuned on Anthropic/hh-rlhf

For 1 epoch with 1e-5 learning rate.

The data are described in the paper: Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback.

Validation accuracy is currently the best publicly available reported: 75.16% (vs 69.25% for OpenAssistant/reward-model-deberta-v3-large-v2).

Downloads last month: 551

Dataset used to train sileod/deberta-v3-large-tasksource-rlhf-reward-model

Paper for sileod/deberta-v3-large-tasksource-rlhf-reward-model

Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback

Paper • 2204.05862 • Published Apr 12, 2022 • 3

Evaluation results

accuracy on Anthropic/hh-rlhf
validation set self-reported

0,7516