Llama 3.2 1B Instruct - Q4_K - Medium Results

Home Latest Results Download About Blog

Llama 3.2 1B Instruct

Q4_K - Medium

1.5Bparams

COMPARE ACCELERATORS

179 accelerators tested

Select Accelerators

NVIDIA H100 PCIe

79GB

NVIDIA A100-SXM4-80GB

79GB

NVIDIA GeForce RTX 3090 Ti

24GB

NVIDIA GeForce RTX 3080 Ti

12GB

NVIDIA RTX A6000

48GB

Llama 3.2 1B Instruct - Q4_K - Medium

LEADERBOARD

ACCELERATOR

PROMPT

GENERATION

TTFT

LOCALSCORE

NVIDIA H100 PCIe

GPU / 79GB

PROMPT

18590

tokens/s

GENERATION

335

tokens/s

TTFT

68

ms

LOCALSCORE

4512

NVIDIA A100-SXM4-80GB

GPU / 79GB

PROMPT

15370

tokens/s

GENERATION

308

tokens/s

TTFT

80

ms

LOCALSCORE

3892

NVIDIA GeForce RTX 3090 Ti

GPU / 24GB

PROMPT

14892

tokens/s

GENERATION

345

tokens/s

TTFT

89

ms

LOCALSCORE

3863

NVIDIA GeForce RTX 3080 Ti

GPU / 12GB

PROMPT

14352

tokens/s

GENERATION

326

tokens/s

TTFT

93

ms

LOCALSCORE

3688

NVIDIA RTX A6000

GPU / 48GB

PROMPT

13191

tokens/s

GENERATION

315

tokens/s

TTFT

102

ms

LOCALSCORE

3438

NVIDIA RTX 6000 Ada Generation

GPU / 48GB

PROMPT

19620

tokens/s

GENERATION

131

tokens/s

TTFT

68

ms

LOCALSCORE

3350

NVIDIA GeForce RTX 4090

GPU / 24GB

PROMPT

18107

tokens/s

GENERATION

182

tokens/s

TTFT

113

ms

LOCALSCORE

3344

NVIDIA GeForce RTX 4070 Ti SUPER

GPU / 16GB

PROMPT

15512

tokens/s

GENERATION

226

tokens/s

TTFT

93

ms

LOCALSCORE

3334

NVIDIA RTX A5000

GPU / 24GB

PROMPT

12044

tokens/s

GENERATION

312

tokens/s

TTFT

110

ms

LOCALSCORE

3243

NVIDIA GeForce RTX 5090

GPU / 31GB

PROMPT

24526

tokens/s

GENERATION

217

tokens/s

TTFT

755

ms

LOCALSCORE

3205

NVIDIA GeForce RTX 4070

GPU / 12GB

PROMPT

12717

tokens/s

GENERATION

283

tokens/s

TTFT

112

ms

LOCALSCORE

3179

GPU / 44GB

PROMPT

12108

tokens/s

GENERATION

283

tokens/s

TTFT

113

ms

LOCALSCORE

3117

GPU / 45GB

PROMPT

18255

tokens/s

GENERATION

121

tokens/s

TTFT

75

ms

LOCALSCORE

3088

NVIDIA GeForce RTX 4080 SUPER

GPU / 16GB

PROMPT

16736

tokens/s

GENERATION

141

tokens/s

TTFT

81

ms

LOCALSCORE

3077

GPU / 44GB

PROMPT

17686

tokens/s

GENERATION

118

tokens/s

TTFT

77

ms

LOCALSCORE

3000

NVIDIA GeForce RTX 3090

GPU / 24GB

PROMPT

12849

tokens/s

GENERATION

222

tokens/s

TTFT

106

ms

LOCALSCORE

2950

NVIDIA GeForce RTX 4070 SUPER

GPU / 12GB

PROMPT

13347

tokens/s

GENERATION

188

tokens/s

TTFT

106

ms

LOCALSCORE

2856

NVIDIA GeForce RTX 4070 Ti

GPU / 12GB

PROMPT

13578

tokens/s

GENERATION

190

tokens/s

TTFT

112

ms

LOCALSCORE

2836

NVIDIA RTX A4500

GPU / 20GB

PROMPT

10328

tokens/s

GENERATION

285

tokens/s

TTFT

131

ms

LOCALSCORE

2820

NVIDIA GeForce RTX 3070 Ti

GPU / 8GB

PROMPT

10074

tokens/s

GENERATION

297

tokens/s

TTFT

137

ms

LOCALSCORE

2795

NVIDIA GeForce RTX 3080

GPU / 10GB

PROMPT

11383

tokens/s

GENERATION

213

tokens/s

TTFT

120

ms

LOCALSCORE

2709

NVIDIA RTX 4000 Ada Generation

GPU / 20GB

PROMPT

10703

tokens/s

GENERATION

237

tokens/s

TTFT

142

ms

LOCALSCORE

2616

Quadro RTX 8000

GPU / 47GB

PROMPT

9356

tokens/s

GENERATION

250

tokens/s

TTFT

141

ms

LOCALSCORE

2550

Tesla V100-PCIE-16GB

GPU / 16GB

PROMPT

8984

tokens/s

GENERATION

248

tokens/s

TTFT

135

ms

LOCALSCORE

2545

NVIDIA H100 80GB HBM3

GPU / 79GB

PROMPT

14584

tokens/s

GENERATION

95.8

tokens/s

TTFT

90

ms

LOCALSCORE

2498

GPU / 140GB

PROMPT

14389

tokens/s

GENERATION

98.4

tokens/s

TTFT

91

ms

LOCALSCORE

2498

NVIDIA GeForce RTX 5070 Ti

GPU / 15GB

PROMPT

16286

tokens/s

GENERATION

239

tokens/s

TTFT

728

ms

LOCALSCORE

2447

NVIDIA RTX A4000

GPU / 16GB

PROMPT

8404

tokens/s

GENERATION

241

tokens/s

TTFT

168

ms

LOCALSCORE

2296

NVIDIA GeForce RTX 4060 Ti

GPU / 16GB

PROMPT

9274

tokens/s

GENERATION

217

tokens/s

TTFT

166

ms

LOCALSCORE

2294

NVIDIA GeForce RTX 2080 Ti

GPU / 11GB

PROMPT

8497

tokens/s

GENERATION

213

tokens/s

TTFT

155

ms

LOCALSCORE

2267

NVIDIA GeForce RTX 3070

GPU / 8GB

PROMPT

8249

tokens/s

GENERATION

236

tokens/s

TTFT

169

ms

LOCALSCORE

2258

GPU / 12GB

PROMPT

7853

tokens/s

GENERATION

232

tokens/s

TTFT

159

ms

LOCALSCORE

2252

NVIDIA H100 NVL

GPU / 93GB

PROMPT

13164

tokens/s

GENERATION

83.9

tokens/s

TTFT

99

ms

LOCALSCORE

2232

GPU / 22GB

PROMPT

9075

tokens/s

GENERATION

189

tokens/s

TTFT

171

ms

LOCALSCORE

2157

NVIDIA RTX 4000 SFF Ada Generation

GPU / 20GB

PROMPT

8737

tokens/s

GENERATION

189

tokens/s

TTFT

179

ms

LOCALSCORE

2099

NVIDIA GeForce RTX 4080

GPU / 16GB

PROMPT

11035

tokens/s

GENERATION

130

tokens/s

TTFT

179

ms

LOCALSCORE

2001

NVIDIA GeForce RTX 3060 Ti

GPU / 8GB

PROMPT

7570

tokens/s

GENERATION

192

tokens/s

TTFT

182

ms

LOCALSCORE

1998

NVIDIA A100 80GB PCIe

GPU / 79GB

PROMPT

10806

tokens/s

GENERATION

81.9

tokens/s

TTFT

117

ms

LOCALSCORE

1964

NVIDIA GeForce RTX 4060

GPU / 8GB

PROMPT

7201

tokens/s

GENERATION

190

tokens/s

TTFT

208

ms

LOCALSCORE

1874

NVIDIA GeForce RTX 2070 SUPER

GPU / 8GB

PROMPT

6350

tokens/s

GENERATION

212

tokens/s

TTFT

216

ms

LOCALSCORE

1840

NVIDIA GeForce RTX 3060

GPU / 12GB

PROMPT

6092

tokens/s

GENERATION

208

tokens/s

TTFT

232

ms

LOCALSCORE

1760

GPU / 22GB

PROMPT

8777

tokens/s

GENERATION

93.5

tokens/s

TTFT

153

ms

LOCALSCORE

1750

NVIDIA RTX 2000 Ada Generation

GPU / 16GB

PROMPT

6151

tokens/s

GENERATION

173

tokens/s

TTFT

244

ms

LOCALSCORE

1634

NVIDIA GeForce RTX 2060 SUPER

GPU / 8GB

PROMPT

5553

tokens/s

GENERATION

195

tokens/s

TTFT

287

ms

LOCALSCORE

1558

NVIDIA GeForce RTX 4060 Laptop GPU

GPU / 8GB

PROMPT

6259

tokens/s

GENERATION

97.3

tokens/s

TTFT

223

ms

LOCALSCORE

1397

NVIDIA GeForce RTX 4060 Ti

GPU / 8GB

PROMPT

7267

tokens/s

GENERATION

70.5

tokens/s

TTFT

191

ms

LOCALSCORE

1388

NVIDIA TITAN Xp

GPU / 12GB

PROMPT

4298

tokens/s

GENERATION

160

tokens/s

TTFT

301

ms

LOCALSCORE

1317

Apple M4 Max 12P+4E+40GPU

GPU / 128GB

PROMPT

3780

tokens/s

GENERATION

184

tokens/s

TTFT

307

ms

LOCALSCORE

1313

NVIDIA GeForce RTX 5070

GPU / 12GB

PROMPT

8328

tokens/s

GENERATION

101

tokens/s

TTFT

371

ms

LOCALSCORE

1312

AMD Radeon RX 6900 XT

GPU / 16GB

PROMPT

5176

tokens/s

GENERATION

113

tokens/s

TTFT

296

ms

LOCALSCORE

1256

NVIDIA GeForce RTX 4050 Laptop GPU

GPU / 6GB

PROMPT

4979

tokens/s

GENERATION

114

tokens/s

TTFT

286

ms

LOCALSCORE

1255

NVIDIA RTX A2000 12GB

GPU / 12GB

PROMPT

4363

tokens/s

GENERATION

144

tokens/s

TTFT

330

ms

LOCALSCORE

1241

NVIDIA GeForce GTX 1080 Ti

GPU / 11GB

PROMPT

4047

tokens/s

GENERATION

144

tokens/s

TTFT

320

ms

LOCALSCORE

1221

Apple M2 Ultra 16P+8E+60GPU

GPU / 128GB

PROMPT

3296

tokens/s

GENERATION

176

tokens/s

TTFT

334

ms

LOCALSCORE

1203

Apple M2 Ultra 16P+8E+60GPU

GPU / 192GB

PROMPT

3272

tokens/s

GENERATION

170

tokens/s

TTFT

339

ms

LOCALSCORE

1179

AMD Radeon RX 6800 XT

GPU / 16GB

PROMPT

4585

tokens/s

GENERATION

110

tokens/s

TTFT

331

ms

LOCALSCORE

1150

Apple M4 Max 10P+4E+32GPU

GPU / 36GB

PROMPT

3211

tokens/s

GENERATION

169

tokens/s

TTFT

371

ms

LOCALSCORE

1136

NVIDIA GeForce RTX 3050 Ti Laptop GPU

GPU / 4GB

PROMPT

4083

tokens/s

GENERATION

124

tokens/s

TTFT

353

ms

LOCALSCORE

1128

Radeon RX 7900 XT

GPU / 20GB

PROMPT

6502

tokens/s

GENERATION

34.6

tokens/s

TTFT

216

ms

LOCALSCORE

1013

AMD Radeon RX 6800

GPU / 16GB

PROMPT

3829

tokens/s

GENERATION

101

tokens/s

TTFT

392

ms

LOCALSCORE

997

AMD Radeon RX 9070 XT

GPU / 16GB

PROMPT

2708

tokens/s

GENERATION

163

tokens/s

TTFT

461

ms

LOCALSCORE

984

Apple M1 Ultra 16P+4E+48GPU

GPU / 128GB

PROMPT

2582

tokens/s

GENERATION

138

tokens/s

TTFT

425

ms

LOCALSCORE

943

AMD Radeon RX 7900 XTX

GPU / 24GB

PROMPT

4161

tokens/s

GENERATION

83.8

tokens/s

TTFT

348

ms

LOCALSCORE

940

NVIDIA GeForce GTX 1070 Ti

GPU / 8GB

PROMPT

2980

tokens/s

GENERATION

116

tokens/s

TTFT

441

ms

LOCALSCORE

922

Tesla P100-SXM2-16GB

GPU / 16GB

PROMPT

2516

tokens/s

GENERATION

124

tokens/s

TTFT

477

ms

LOCALSCORE

868

AMD Radeon RX 6700 XT

GPU / 12GB

PROMPT

3054

tokens/s

GENERATION

92.5

tokens/s

TTFT

510

ms

LOCALSCORE

821

Apple M1 Max 8P+2E+32GPU

GPU / 64GB

PROMPT

2060

tokens/s

GENERATION

124

tokens/s

TTFT

552

ms

LOCALSCORE

774

Apple M4 Pro 10P+4E+20GPU

GPU / 24GB

PROMPT

2126

tokens/s

GENERATION

119

tokens/s

TTFT

569

ms

LOCALSCORE

763

NVIDIA GeForce GTX 1070

GPU / 8GB

PROMPT

2378

tokens/s

GENERATION

97.0

tokens/s

TTFT

543

ms

LOCALSCORE

752

Apple M4 Pro 10P+4E+20GPU

GPU / 64GB

PROMPT

2071

tokens/s

GENERATION

116

tokens/s

TTFT

590

ms

LOCALSCORE

741

AMD Radeon RX 6650 XT

GPU / 8GB

PROMPT

2633

tokens/s

GENERATION

87.4

tokens/s

TTFT

591

ms

LOCALSCORE

734

Apple M4 Pro 8P+4E+16GPU

GPU / 24GB

PROMPT

1846

tokens/s

GENERATION

111

tokens/s

TTFT

669

ms

LOCALSCORE

674

Apple M4 Pro 8P+4E+16GPU

GPU / 48GB

PROMPT

1735

tokens/s

GENERATION

111

tokens/s

TTFT

683

ms

LOCALSCORE

655

Apple M2 Pro 8P+4E+19GPU

GPU / 32GB

PROMPT

1477

tokens/s

GENERATION

98.0

tokens/s

TTFT

819

ms

LOCALSCORE

561

Apple M3 Pro 6P+6E+18GPU

GPU / 36GB

PROMPT

1556

tokens/s

GENERATION

89.6

tokens/s

TTFT

816

ms

LOCALSCORE

555

Apple M1 Pro 8P+2E+16GPU

GPU / 32GB

PROMPT

1154

tokens/s

GENERATION

76.3

tokens/s

TTFT

1.05

sec

LOCALSCORE

438

Apple M4 4P+6E+10GPU

GPU / 32GB

PROMPT

1105

tokens/s

GENERATION

76.6

tokens/s

TTFT

1.18

sec

LOCALSCORE

416

Apple M4 4P+6E+10GPU

GPU / 16GB

PROMPT

1103

tokens/s

GENERATION

76.7

tokens/s

TTFT

1.18

sec

LOCALSCORE

415

Apple M1 Pro 6P+2E+14GPU

GPU / 16GB

PROMPT

1067

tokens/s

GENERATION

72.8

tokens/s

TTFT

1.12

sec

LOCALSCORE

411

Apple M1 Pro 6P+2E+14GPU

GPU / 32GB

PROMPT

1064

tokens/s

GENERATION

71.0

tokens/s

TTFT

1.13

sec

LOCALSCORE

405

Apple M3 4P+4E+10GPU

GPU / 24GB

PROMPT

938

tokens/s

GENERATION

67.7

tokens/s

TTFT

1.41

sec

LOCALSCORE

356

Apple M3 4P+4E+10GPU

GPU / 16GB

PROMPT

938

tokens/s

GENERATION

67.8

tokens/s

TTFT

1.41

sec

LOCALSCORE

356

NVIDIA GeForce GTX 1080

GPU / 8GB

PROMPT

1057

tokens/s

GENERATION

46.9

tokens/s

TTFT

1.22

sec

LOCALSCORE

343

Apple M2 4P+4E+10GPU

GPU / 16GB

PROMPT

835

tokens/s

GENERATION

60.0

tokens/s

TTFT

1.55

sec

LOCALSCORE

318

NVIDIA GeForce GTX 1050

GPU / 4GB

PROMPT

792

tokens/s

GENERATION

35.0

tokens/s

TTFT

1.58

sec

LOCALSCORE

260

Apple M1 4P+4E+8GPU

GPU / 8GB

PROMPT

615

tokens/s

GENERATION

40.7

tokens/s

TTFT

2.11

sec

LOCALSCORE

228

Apple M1 4P+4E+8GPU

GPU / 16GB

PROMPT

589

tokens/s

GENERATION

40.0

tokens/s

TTFT

2.25

sec

LOCALSCORE

219

Apple M1 4P+4E+7GPU

GPU / 16GB

PROMPT

540

tokens/s

GENERATION

38.4

tokens/s

TTFT

2.40

sec

LOCALSCORE

205

NVIDIA GeForce GTX 1650 Ti

GPU / 4GB

PROMPT

567

tokens/s

GENERATION

20.7

tokens/s

TTFT

2.58

sec

LOCALSCORE

166

AMD Radeon 780M

GPU / 27GB

PROMPT

690

tokens/s

GENERATION

11.7

tokens/s

TTFT

1.88

sec

LOCALSCORE

162

Apple M2 4P+4E+8GPU

GPU / 8GB

PROMPT

429

tokens/s

GENERATION

24.6

tokens/s

TTFT

3.27

sec

LOCALSCORE

148

NVIDIA GeForce MX150

GPU / 2GB

PROMPT

311

tokens/s

GENERATION

13.5

tokens/s

TTFT

4.06

sec

LOCALSCORE

101