Meta Llama 3.1 8B Instruct - Q4_K - Medium Results

Home Latest Results Download About Blog

Meta Llama 3.1 8B Instruct

Q4_K - Medium

8.0Bparams

COMPARE ACCELERATORS

105 accelerators tested

Select Accelerators

NVIDIA GeForce RTX 4090

24GB

NVIDIA GeForce RTX 5090

31GB

NVIDIA H100 PCIe

79GB

NVIDIA GeForce RTX 4080

16GB

NVIDIA GeForce RTX 3090 Ti

24GB

Meta Llama 3.1 8B Instruct - Q4_K - Medium

LEADERBOARD

ACCELERATOR

PROMPT

GENERATION

TTFT

LOCALSCORE

NVIDIA GeForce RTX 4090

GPU / 24GB

PROMPT

6660

tokens/s

GENERATION

94.5

tokens/s

TTFT

199

ms

LOCALSCORE

1463

NVIDIA GeForce RTX 5090

GPU / 31GB

PROMPT

7374

tokens/s

GENERATION

74.8

tokens/s

TTFT

184

ms

LOCALSCORE

1434

NVIDIA H100 PCIe

GPU / 79GB

PROMPT

5202

tokens/s

GENERATION

120

tokens/s

TTFT

236

ms

LOCALSCORE

1382

NVIDIA GeForce RTX 4080

GPU / 16GB

PROMPT

4789

tokens/s

GENERATION

90.1

tokens/s

TTFT

274

ms

LOCALSCORE

1164

NVIDIA GeForce RTX 3090 Ti

GPU / 24GB

PROMPT

4024

tokens/s

GENERATION

110

tokens/s

TTFT

320

ms

LOCALSCORE

1113

NVIDIA GeForce RTX 3090

GPU / 24GB

PROMPT

3771

tokens/s

GENERATION

108

tokens/s

TTFT

342

ms

LOCALSCORE

1060

NVIDIA A100-SXM4-80GB

GPU / 79GB

PROMPT

3571

tokens/s

GENERATION

110

tokens/s

TTFT

336

ms

LOCALSCORE

1054

NVIDIA GeForce RTX 3080 Ti

GPU / 12GB

PROMPT

3739

tokens/s

GENERATION

104

tokens/s

TTFT

343

ms

LOCALSCORE

1042

NVIDIA RTX 6000 Ada Generation

GPU / 48GB

PROMPT

5487

tokens/s

GENERATION

51.3

tokens/s

TTFT

252

ms

LOCALSCORE

1038

NVIDIA GeForce RTX 5070 Ti

GPU / 15GB

PROMPT

4323

tokens/s

GENERATION

79.8

tokens/s

TTFT

315

ms

LOCALSCORE

1031

NVIDIA GeForce RTX 4070 Ti SUPER

GPU / 16GB

PROMPT

4222

tokens/s

GENERATION

77.6

tokens/s

TTFT

316

ms

LOCALSCORE

1012

GPU / 45GB

PROMPT

5328

tokens/s

GENERATION

45.9

tokens/s

TTFT

262

ms

LOCALSCORE

977

GPU / 44GB

PROMPT

5065

tokens/s

GENERATION

45.1

tokens/s

TTFT

274

ms

LOCALSCORE

941

NVIDIA RTX A6000

GPU / 48GB

PROMPT

3447

tokens/s

GENERATION

90.5

tokens/s

TTFT

378

ms

LOCALSCORE

938

NVIDIA GeForce RTX 4080 SUPER

GPU / 16GB

PROMPT

4461

tokens/s

GENERATION

54.4

tokens/s

TTFT

301

ms

LOCALSCORE

931

NVIDIA H100 80GB HBM3

GPU / 79GB

PROMPT

4687

tokens/s

GENERATION

42.4

tokens/s

TTFT

263

ms

LOCALSCORE

911

NVIDIA GeForce RTX 5080

GPU / 15GB

PROMPT

4428

tokens/s

GENERATION

44.9

tokens/s

TTFT

289

ms

LOCALSCORE

883

GPU / 44GB

PROMPT

3270

tokens/s

GENERATION

80.6

tokens/s

TTFT

401

ms

LOCALSCORE

870

NVIDIA GeForce RTX 4070 Ti

GPU / 12GB

PROMPT

3692

tokens/s

GENERATION

60.0

tokens/s

TTFT

371

ms

LOCALSCORE

839

NVIDIA GeForce RTX 4070

GPU / 12GB

PROMPT

3192

tokens/s

GENERATION

76.3

tokens/s

TTFT

415

ms

LOCALSCORE

838

NVIDIA RTX A5000

GPU / 24GB

PROMPT

2890

tokens/s

GENERATION

89.9

tokens/s

TTFT

445

ms

LOCALSCORE

836

NVIDIA GeForce RTX 3080

GPU / 10GB

PROMPT

2988

tokens/s

GENERATION

80.4

tokens/s

TTFT

431

ms

LOCALSCORE

823

NVIDIA H100 NVL

GPU / 93GB

PROMPT

4299

tokens/s

GENERATION

37.1

tokens/s

TTFT

289

ms

LOCALSCORE

820

NVIDIA GeForce RTX 4070 SUPER

GPU / 12GB

PROMPT

3526

tokens/s

GENERATION

56.7

tokens/s

TTFT

376

ms

LOCALSCORE

808

NVIDIA GeForce RTX 3070 Ti

GPU / 8GB

PROMPT

2509

tokens/s

GENERATION

83.2

tokens/s

TTFT

520

ms

LOCALSCORE

738

NVIDIA RTX A4500

GPU / 20GB

PROMPT

2484

tokens/s

GENERATION

77.6

tokens/s

TTFT

522

ms

LOCALSCORE

718

NVIDIA RTX 4000 Ada Generation

GPU / 20GB

PROMPT

2617

tokens/s

GENERATION

56.5

tokens/s

TTFT

518

ms

LOCALSCORE

658

NVIDIA GeForce RTX 2080 Ti

GPU / 11GB

PROMPT

2102

tokens/s

GENERATION

74.0

tokens/s

TTFT

601

ms

LOCALSCORE

637

GPU / 12GB

PROMPT

1823

tokens/s

GENERATION

73.3

tokens/s

TTFT

647

ms

LOCALSCORE

591

NVIDIA A100 80GB PCIe

GPU / 79GB

PROMPT

2601

tokens/s

GENERATION

37.1

tokens/s

TTFT

519

ms

LOCALSCORE

571

NVIDIA RTX A4000

GPU / 16GB

PROMPT

2011

tokens/s

GENERATION

60.6

tokens/s

TTFT

656

ms

LOCALSCORE

570

NVIDIA GeForce RTX 4060 Ti

GPU / 16GB

PROMPT

2214

tokens/s

GENERATION

49.3

tokens/s

TTFT

624

ms

LOCALSCORE

560

NVIDIA GeForce RTX 3060 Ti

GPU / 8GB

PROMPT

1855

tokens/s

GENERATION

61.1

tokens/s

TTFT

705

ms

LOCALSCORE

544

NVIDIA GeForce RTX 3070

GPU / 8GB

PROMPT

1955

tokens/s

GENERATION

57.1

tokens/s

TTFT

783

ms

LOCALSCORE

535

NVIDIA GeForce RTX 5070

GPU / 12GB

PROMPT

2360

tokens/s

GENERATION

37.0

tokens/s

TTFT

578

ms

LOCALSCORE

532

GPU / 22GB

PROMPT

2056

tokens/s

GENERATION

42.9

tokens/s

TTFT

669

ms

LOCALSCORE

509

NVIDIA RTX 4000 SFF Ada Generation

GPU / 20GB

PROMPT

2013

tokens/s

GENERATION

44.6

tokens/s

TTFT

689

ms

LOCALSCORE

507

GPU / 22GB

PROMPT

2085

tokens/s

GENERATION

36.5

tokens/s

TTFT

629

ms

LOCALSCORE

495

Quadro RTX 8000

GPU / 47GB

PROMPT

1677

tokens/s

GENERATION

74.0

tokens/s

TTFT

1.05

sec

LOCALSCORE

491

NVIDIA GeForce RTX 4060

GPU / 8GB

PROMPT

1748

tokens/s

GENERATION

45.8

tokens/s

TTFT

772

ms

LOCALSCORE

470

NVIDIA GeForce RTX 2070 SUPER

GPU / 8GB

PROMPT

1460

tokens/s

GENERATION

57.8

tokens/s

TTFT

880

ms

LOCALSCORE

458

NVIDIA GeForce RTX 3060

GPU / 12GB

PROMPT

1485

tokens/s

GENERATION

52.5

tokens/s

TTFT

887

ms

LOCALSCORE

445

NVIDIA GeForce RTX 4060 Ti

GPU / 8GB

PROMPT

2020

tokens/s

GENERATION

25.7

tokens/s

TTFT

641

ms

LOCALSCORE

431

NVIDIA GeForce RTX 2060 SUPER

GPU / 8GB

PROMPT

1223

tokens/s

GENERATION

51.3

tokens/s

TTFT

1.04

sec

LOCALSCORE

392

NVIDIA RTX 2000 Ada Generation

GPU / 16GB

PROMPT

1328

tokens/s

GENERATION

37.9

tokens/s

TTFT

1.02

sec

LOCALSCORE

367

AMD Radeon RX 6900 XT

GPU / 16GB

PROMPT

1110

tokens/s

GENERATION

43.5

tokens/s

TTFT

1.25

sec

LOCALSCORE

339

AMD Radeon RX 7900 XTX

GPU / 24GB

PROMPT

888

tokens/s

GENERATION

51.2

tokens/s

TTFT

1.44

sec

LOCALSCORE

316

AMD Radeon RX 6800 XT

GPU / 16GB

PROMPT

926

tokens/s

GENERATION

35.5

tokens/s

TTFT

1.57

sec

LOCALSCORE

276

Apple M4 Max 12P+4E+40GPU

GPU / 128GB

PROMPT

595

tokens/s

GENERATION

49.8

tokens/s

TTFT

1.99

sec

LOCALSCORE

247

Apple M1 Ultra 16P+4E+48GPU

GPU / 128GB

PROMPT

534

tokens/s

GENERATION

48.9

tokens/s

TTFT

2.16

sec

LOCALSCORE

230

Apple M4 Max 10P+4E+32GPU

GPU / 36GB

PROMPT

551

tokens/s

GENERATION

47.2

tokens/s

TTFT

2.20

sec

LOCALSCORE

228

Apple M2 Max 8P+4E+38GPU

GPU / 96GB

PROMPT

484

tokens/s

GENERATION

46.4

tokens/s

TTFT

2.44

sec

LOCALSCORE

210

AMD Radeon RX 6700 XT

GPU / 12GB

PROMPT

607

tokens/s

GENERATION

27.3

tokens/s

TTFT

2.46

sec

LOCALSCORE

189

AMD Radeon RX 6650 XT

GPU / 8GB

PROMPT

563

tokens/s

GENERATION

25.9

tokens/s

TTFT

2.48

sec

LOCALSCORE

181

AMD Radeon RX 6600 XT

GPU / 8GB

PROMPT

604

tokens/s

GENERATION

21.5

tokens/s

TTFT

2.34

sec

LOCALSCORE

177

Tesla P100-SXM2-16GB

GPU / 16GB

PROMPT

427

tokens/s

GENERATION

33.5

tokens/s

TTFT

2.72

sec

LOCALSCORE

174

Apple M4 Pro 10P+4E+20GPU

GPU / 24GB

PROMPT

351

tokens/s

GENERATION

31.6

tokens/s

TTFT

3.45

sec

LOCALSCORE

148

Apple M4 Pro 10P+4E+20GPU

GPU / 64GB

PROMPT

329

tokens/s

GENERATION

31.8

tokens/s

TTFT

3.79

sec

LOCALSCORE

140

Apple M1 Max 8P+2E+32GPU

GPU / 32GB

PROMPT

312

tokens/s

GENERATION

31.6

tokens/s

TTFT

4.09

sec

LOCALSCORE

134

Apple M4 Pro 8P+4E+16GPU

GPU / 48GB

PROMPT

302

tokens/s

GENERATION

30.2

tokens/s

TTFT

4.14

sec

LOCALSCORE

130

Apple M4 Pro 8P+4E+16GPU

GPU / 24GB

PROMPT

292

tokens/s

GENERATION

30.3

tokens/s

TTFT

4.27

sec

LOCALSCORE

128

Apple M3 Pro 6P+6E+18GPU

GPU / 36GB

PROMPT

284

tokens/s

GENERATION

22.1

tokens/s

TTFT

4.46

sec

LOCALSCORE

112

Apple M3 Pro 5P+6E+14GPU

GPU / 18GB

PROMPT

200

tokens/s

GENERATION

19.1

tokens/s

TTFT

6.43

sec

LOCALSCORE

84

Apple M4 4P+6E+10GPU

GPU / 16GB

PROMPT

186

tokens/s

GENERATION

17.7

tokens/s

TTFT

6.87

sec

LOCALSCORE

78

Apple M1 Pro 6P+2E+14GPU

GPU / 32GB

PROMPT

173

tokens/s

GENERATION

20.0

tokens/s

TTFT

7.23

sec

LOCALSCORE

78

Apple M1 Pro 6P+2E+14GPU

GPU / 16GB

PROMPT

170

tokens/s

GENERATION

19.8

tokens/s

TTFT

7.23

sec

LOCALSCORE

78

Apple M2 4P+4E+10GPU

GPU / 16GB

PROMPT

143

tokens/s

GENERATION

14.9

tokens/s

TTFT

8.96

sec

LOCALSCORE

62

Apple M2 4P+4E+10GPU

GPU / 24GB

PROMPT

142

tokens/s

GENERATION

14.7

tokens/s

TTFT

9.02

sec

LOCALSCORE

61

Apple M3 4P+4E+10GPU

GPU / 16GB

PROMPT

137

tokens/s

GENERATION

13.6

tokens/s

TTFT

8.92

sec

LOCALSCORE

59

NVIDIA GeForce RTX 3050 Ti Laptop GPU

GPU / 4GB

PROMPT

290

tokens/s

GENERATION

4.3

tokens/s

TTFT

8.73

sec

LOCALSCORE

52

Apple M3 4P+4E+10GPU

GPU / 24GB

PROMPT

121

tokens/s

GENERATION

10.8

tokens/s

TTFT

9.36

sec

LOCALSCORE

52

Apple M1 4P+4E+7GPU

GPU / 16GB

PROMPT

80

tokens/s

GENERATION

9.1

tokens/s

TTFT

15.23

sec

LOCALSCORE

36

NVIDIA GeForce GTX 1650 Ti

GPU / 4GB

PROMPT

66

tokens/s

GENERATION

2.8

tokens/s

TTFT

23.14

sec

LOCALSCORE

20