Pairwise Comparison (GPT-4.1 vs SLMs) - a Lakshan2003 Collection

Lakshan2003 's Collections

Context Summarization Model Inference Outputs

Customer Service Context Summarization LLM-as-a-judge

Customer Service Context Summarization Fine-tuned Models

Customer Service QA Fine-tuned SLMs

Customer Service Context Summarization Evaluation Data

SLM Cost Benchmarking Datasets

Customer Service Human Evaluation Data (Evaluator 3)

Customer Service Human Evaluation Data (Evaluator 2)

Customer Service Human Evaluation Data (Evaluator 1)

Pairwise Comparison Datasets (Virtuoso-Large vs SLMs)

Pairwise Comparison (Gemini-2.5-Flash vs SLMs)

Pairwise Comparison (GPT-4.1 vs SLMs)

Customer Service LLM-as-a-Judge Evaluation Data

Customer Service SLM/LLM Inference Outputs

Pairwise Comparison (GPT-4.1 vs SLMs)

updated Mar 10

Pairwise comparison datasets used to evaluate SLM responses against GPT-4.1.