diff --git a/README.md b/README.md index f7d9deb05..f00d4144d 100644 --- a/README.md +++ b/README.md @@ -24,18 +24,19 @@ ModelLink旨在为华为 [昇腾芯片](https://open.codehub.huawei.com/OpenBaiz --- -## 支持功能 +### 支持功能 当前ModelLink支撑大模型使用功能: * [制作预训练数据集](#jump11)/[制作指令微调数据集](#jump12) * [预训练](#jump13)/[全参微调](#jump14)/[低参微调](#jump15) -* [推理(人机对话)](#jump16) -* [评估基线数据集(Benchmark)](#jump17) -* [使用加速特性(加速算法+融合算子)](#jump18) +* [流式推理/人机对话](#jump16) +* [评估基线数据集](#jump17) +* [加速算法/融合算子/并行策略](#jump18) * [基于昇腾芯片采集Profiling数据](#jump19) +* [Huggingface与Megatron-LM权重转换](#jump20) 强化学习等特性持续研发中.... -## 支持模型 +### 支持模型 当前ModelLink支持下列模型的预训练以及微调:
模型 | 参数 | -微调 | +预训练 | 推理 | +LoRA | +SFT | +对话 | 评估 | -数据集 | 贡献方 | ||
---|---|---|---|---|---|---|---|---|---|---|---|---|
Aquila | 7B | +pretrain | +generate | -- | -对话 | -评估 | -alpaca_data.json | -【昇腾贡献模型】 | +-- | +-- | +eval | +【昇腾贡献】 |
Aquila2 | 7B | +pretrain | +generate | -- | -对话 | -评估 | -alpaca_data.json | -【社区贡献模型】 | +-- | +-- | +eval | +【社区贡献】 |
Baichuan | 7B | +pretrain | +generate | -- | -对话 | -评估 | -alpaca_data.json | -【昇腾贡献模型】 | +-- | +-- | +eval | +【昇腾贡献】 |
13B | +pretrain | +generate | -- | -对话 | -评估 | -alpaca_data.json | -【昇腾贡献模型】 | +-- | +-- | +eval | +【昇腾贡献】 | |
Baichuan2 | 7B | +pretrain | +generate | -- | -对话 | -评估 | -alpaca_data.json | -【昇腾贡献模型】 | +-- | +-- | +eval | +【昇腾贡献】 |
13B | +pretrain | +generate | -- | -对话 | -评估 | -alpaca_data.json | -【昇腾贡献模型】 | +-- | +-- | +eval | +【昇腾贡献】 | |
Bloom | 7B1 | +pretrain | +generate | -- | -对话 | -评估 | -alpaca_data.json | -【昇腾贡献模型】 | +-- | +-- | +eval | +【昇腾贡献】 |
176B | +pretrain | +generate | -- | -对话 | -评估 | -alpaca_data.json | -【昇腾贡献模型】 | +-- | +-- | +eval | +【昇腾贡献】 | |
CodeLlama | 34B | +pretrain | +generate | -- | -对话 | -评估 | -alpaca_data.json | -【社区贡献模型】 | +-- | +-- | +eval | +【社区贡献】 |
InternLM | 7B | +pretrain | +generate | -- | -对话 | -评估 | -alpaca_data.json | -【昇腾贡献模型】 | +-- | +-- | +eval | +【昇腾贡献】 |
65B | +pretrain | -- | -- | -- | -alpaca_data.json | -【昇腾贡献模型】 | +-- | +-- | +【昇腾贡献】 | |||
LLaMA | 7B | +pretrain | +generate | lora | -对话 | -评估 | -alpaca_data.json | -【昇腾贡献模型】 | +-- | +-- | +eval | +【昇腾贡献】 |
13B | +pretrain | +generate | lora | -对话 | -评估 | -alpaca_data.json | -【昇腾贡献模型】 | +-- | +-- | +eval | +【昇腾贡献】 | |
33B | +pretrain | +generate | lora | -对话 | -评估 | -alpaca_data.json | -【昇腾贡献模型】 | +-- | +-- | +eval | +【昇腾贡献】 | |
65B | +pretrain | +generate | lora | -对话 | -评估 | -alpaca_data.json | -【昇腾贡献模型】 | +-- | +-- | +eval | +【昇腾贡献】 | |
LLaMA2 | 7B | +pretrain | +generate | lora | -对话 | -评估 | -alpaca_data.json | -【昇腾贡献模型】 | +-- | +-- | +eval | +【昇腾贡献】 |
13B | -lora | -对话 | -评估 | -alpaca_data.json | -【昇腾贡献模型】 | +pretrain | +generate | +lora | +-- | +-- | +eval | +【昇腾贡献】 |
34B | +pretrain | +generate | lora | -对话 | -评估 | -alpaca_data.json | -【昇腾贡献模型】 | +-- | +-- | +eval | +【昇腾贡献】 | |
70B | +pretrain | +generate | lora | -对话 | -评估 | -alpaca_data.json | -【昇腾贡献模型】 | +-- | +-- | +eval | +【昇腾贡献】 | |
LLaMA3 | 8B | +pretrain | +generate | -- | -对话 | -评估 | -alpaca_data.json | -【昇腾贡献模型】 | +-- | +chat | +eval | +【社区贡献】 |
70B | +pretrain | +generate | -- | -对话 | -评估 | -alpaca_data.json | -【昇腾贡献模型】 | +-- | +-- | +eval | +【社区贡献】 | |
Qwen | 7B | +pretrain | +generate | -- | -对话 | -评估 | -alpaca_data.json | -【昇腾贡献模型】 | +-- | +-- | +eval | +【昇腾贡献】 |
14B | +pretrain | +generate | -- | -对话 | -评估 | -alpaca_data.json | -【昇腾贡献模型】 | +-- | +-- | +eval | +【昇腾贡献】 | |
72B | +pretrain | +generate | -- | -对话 | -评估 | -alpaca_data.json | -【昇腾贡献模型】 | +-- | +-- | +eval | +【昇腾贡献】 | |
Yi | 34B | +pretrain | +generate | -- | -对话 | -评估 | -alpaca_data.json | -【社区贡献模型】 | +-- | +-- | +eval | +【社区贡献】 |
Mixtral | 8x7B | +pretrain | +generate | -- | -对话 | -评估 | -alpaca_data.json | -【昇腾贡献模型】 | +-- | +-- | +eval | +【昇腾贡献】 |
精度模式 | 性能 | 参考性能 | -脚本 | @@ -325,7 +381,6 @@ ModelLink旨在为华为 [昇腾芯片](https://open.codehub.huawei.com/OpenBaizBF16 | 2849 | 2874 | -训练 |
---|---|---|---|---|
Aquila2 | @@ -334,7 +389,6 @@ ModelLink旨在为华为 [昇腾芯片](https://open.codehub.huawei.com/OpenBaizFP16 | 3323 | 2673 | -训练 |
Baichuan | @@ -343,7 +397,6 @@ ModelLink旨在为华为 [昇腾芯片](https://open.codehub.huawei.com/OpenBaizFP16 | 2685 | 2036 | -训练 |
13B | @@ -351,7 +404,6 @@ ModelLink旨在为华为 [昇腾芯片](https://open.codehub.huawei.com/OpenBaizFP16 | 1213 | 862 | -训练 |
Baichuan2 | @@ -360,7 +412,6 @@ ModelLink旨在为华为 [昇腾芯片](https://open.codehub.huawei.com/OpenBaizBF16 | 2664 | 3969 | -训练 |
13B | @@ -368,7 +419,6 @@ ModelLink旨在为华为 [昇腾芯片](https://open.codehub.huawei.com/OpenBaizBF16 | 1668 | 2062 | -训练 |
Bloom | @@ -377,7 +427,6 @@ ModelLink旨在为华为 [昇腾芯片](https://open.codehub.huawei.com/OpenBaizFP16 | 2034 | 2525 | -训练 |
176B | @@ -385,7 +434,6 @@ ModelLink旨在为华为 [昇腾芯片](https://open.codehub.huawei.com/OpenBaizBF16 | 100 | 107 | -训练 |
CodeLlama | @@ -394,7 +442,6 @@ ModelLink旨在为华为 [昇腾芯片](https://open.codehub.huawei.com/OpenBaizBF16 | 837 | 762 | -训练 |
InternLM | @@ -403,7 +450,6 @@ ModelLink旨在为华为 [昇腾芯片](https://open.codehub.huawei.com/OpenBaizBF16 | 2776 | 2854 | -训练 |
65B | @@ -411,7 +457,6 @@ ModelLink旨在为华为 [昇腾芯片](https://open.codehub.huawei.com/OpenBaizBF16 | 341 | 414 | -训练 |
LLaMA | @@ -420,7 +465,6 @@ ModelLink旨在为华为 [昇腾芯片](https://open.codehub.huawei.com/OpenBaizFP16 | 3600 | 3804 | -训练 |
13B | @@ -428,7 +472,6 @@ ModelLink旨在为华为 [昇腾芯片](https://open.codehub.huawei.com/OpenBaizFP16 | 1895 | 2012 | -训练 |
33B | @@ -436,7 +479,6 @@ ModelLink旨在为华为 [昇腾芯片](https://open.codehub.huawei.com/OpenBaizFP16 | 621 | 776 | -训练 |
65B | @@ -446,7 +488,6 @@ ModelLink旨在为华为 [昇腾芯片](https://open.codehub.huawei.com/OpenBaizBF16 | 348 | 426 | -训练 |
LLaMA2 | @@ -455,7 +496,6 @@ ModelLink旨在为华为 [昇腾芯片](https://open.codehub.huawei.com/OpenBaizBF16 | 4200 | 3850 | -训练 |
13B | @@ -463,7 +503,6 @@ ModelLink旨在为华为 [昇腾芯片](https://open.codehub.huawei.com/OpenBaizBF16 | 1990 | 1920 | -训练 |
34B | @@ -471,7 +510,6 @@ ModelLink旨在为华为 [昇腾芯片](https://open.codehub.huawei.com/OpenBaizBF16 | 690 | 796 | -训练 |
70B | @@ -479,7 +517,6 @@ ModelLink旨在为华为 [昇腾芯片](https://open.codehub.huawei.com/OpenBaizBF16 | 350 | 339 | -训练 |
LLaMA3 | @@ -488,7 +525,6 @@ ModelLink旨在为华为 [昇腾芯片](https://open.codehub.huawei.com/OpenBaizBF16 | 2483 | 2674 | -训练 |
70B | @@ -496,7 +532,6 @@ ModelLink旨在为华为 [昇腾芯片](https://open.codehub.huawei.com/OpenBaizBF16 | 283 | -- | -训练 |
Qwen | @@ -505,7 +540,6 @@ ModelLink旨在为华为 [昇腾芯片](https://open.codehub.huawei.com/OpenBaizBF16 | 2499 | 2867 | -训练 |
14B | @@ -513,7 +547,6 @@ ModelLink旨在为华为 [昇腾芯片](https://open.codehub.huawei.com/OpenBaizBF16 | 1560 | 1578 | -训练 |
72B | @@ -521,7 +554,6 @@ ModelLink旨在为华为 [昇腾芯片](https://open.codehub.huawei.com/OpenBaizBF16 | 285 | 345 | -训练 |
Yi | @@ -530,7 +562,6 @@ ModelLink旨在为华为 [昇腾芯片](https://open.codehub.huawei.com/OpenBaizBF16 | 809 | 730 | -训练 |
Mixtral | @@ -539,494 +570,13 @@ ModelLink旨在为华为 [昇腾芯片](https://open.codehub.huawei.com/OpenBaizBF16 | 1054 | 1139 | -训练 |
任务 | -验证集 | -模型 | -昇腾值 | -参考值 | -社区值 | -
---|---|---|---|---|---|
BBH | -test | -Llama7b | -0.334 | -0.333 | -0.335 | -
AGIEval | -test | -Llama7b | -0.210 | -0.210 | -0.206 | -
HumanEval | -test | -Llama7b | -0.128 | -0.128 | -0.128 | -
BoolQ | -test | -Llama7b | -0.742 | -0.742 | -0.754 | -
GSM8K | -test | -Llama7b | -0.102 | -0.103 | -0.100 | -
CEval | -val | -Llama7b | -0.408 | -0.404 | -/ | -
MMLU | -test | -Llama7b | -0.333 | -0.324 | -0.351 | -
Model | -Parameters | -Fine-tuning | +Scale | +Pretrain | Inference | +LoRA | +SFT | +Chat | Evaluation | -Dataset Support | Contributor | |||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Aquila | 7B | +pretrain | +generate | -- | -inference | -evaluation | -alpaca_data.json | -【Model contributed by Ascend】 | +-- | +-- | +eval | +【Ascend】 | ||
Aquila2 | -7B | +Aquila2 | +7B | +pretrain | +generate | -- | -inference | -evaluation | -alpaca_data.json | -【Model contributed by Community】 | +-- | +-- | +eval | +【Community】 |
Baichuan | 7B | +pretrain | +generate | -- | -inference | -evaluation | -alpaca_data.json | -【Model contributed by Ascend】 | +-- | +-- | +eval | +【Ascend】 | ||
13B | +pretrain | +generate | -- | -inference | -evaluation | -alpaca_data.json | -【Model contributed by Ascend】 | +-- | +-- | +eval | +【Ascend】 | |||
Baichuan2 | 7B | +pretrain | +generate | -- | -inference | -evaluation | -alpaca_data.json | -【Model contributed by Ascend】 | +-- | +-- | +eval | +【Ascend】 | ||
13B | +pretrain | +generate | -- | -inference | -evaluation | -alpaca_data.json | -【Model contributed by Ascend】 | +-- | +-- | +eval | +【Ascend】 | |||
Bloom | 7B1 | +pretrain | +generate | -- | -inference | -evaluation | -alpaca_data.json | -【Model contributed by Ascend】 | +-- | +-- | +eval | +【Ascend】 | ||
176B | +pretrain | +generate | -- | -inference | -evaluation | -alpaca_data.json | -【Model contributed by Ascend】 | +-- | +-- | +eval | +【Ascend】 | |||
CodeLlama | 34B | +pretrain | +generate | -- | -inference | -evaluation | -alpaca_data.json | -【Model contributed by Community】 | +-- | +-- | +eval | +【Community】 | ||
InternLM | 7B | +pretrain | +generate | -- | -inference | -evaluation | -alpaca_data.json | -【Model contributed by Ascend】 | +-- | +-- | +eval | +【Ascend】 | ||
65B | +pretrain | -- | -- | -- | -alpaca_data.json | -【Model contributed by Ascend】 | +-- | +-- | +【Ascend】 | |||||
LLaMA | 7B | +pretrain | +generate | lora | -inference | -evaluation | -alpaca_data.json | -【Model contributed by Ascend】 | +-- | +-- | +eval | +【Ascend】 | ||
13B | +pretrain | +generate | lora | -inference | -evaluation | -alpaca_data.json | -【Model contributed by Ascend】 | +-- | +-- | +eval | +【Ascend】 | |||
33B | +pretrain | +generate | lora | -inference | -evaluation | -alpaca_data.json | -【Model contributed by Ascend】 | +-- | +-- | +eval | +【Ascend】 | |||
65B | +pretrain | +generate | lora | -inference | -evaluation | -alpaca_data.json | -【Model contributed by Ascend】 | +-- | +-- | +eval | +【Ascend】 | |||
LLaMA2 | 7B | +pretrain | +generate | lora | -inference | -evaluation | -alpaca_data.json | -【Model contributed by Ascend】 | +-- | +-- | +eval | +【Ascend】 | ||
13B | -lora | -inference | -evaluation | -alpaca_data.json | -【Model contributed by Ascend】 | +pretrain | +generate | +lora | +-- | +-- | +eval | +【Ascend】 | ||
34B | +pretrain | +generate | lora | -inference | -evaluation | -alpaca_data.json | -【Model contributed by Ascend】 | +-- | +-- | +eval | +【Ascend】 | |||
70B | +pretrain | +generate | lora | -inference | -evaluation | -alpaca_data.json | -【Model contributed by Ascend】 | +-- | +-- | +eval | +【Ascend】 | |||
LLaMA3 | 8B | +pretrain | +generate | -- | -inference | -evaluation | -alpaca_data.json | -【Model contributed by Ascend】 | +-- | +chat | +eval | +【Community】 | ||
70B | +pretrain | +generate | -- | -inference | -evaluation | -alpaca_data.json | -【Model contributed by Ascend】 | +-- | +-- | +eval | +【Community】 | |||
Qwen | 7B | +pretrain | +generate | -- | -inference | -evaluation | -alpaca_data.json | -【Model contributed by Ascend】 | +-- | +-- | +eval | +【Ascend】 | ||
14B | +pretrain | +generate | -- | -inference | -evaluation | -alpaca_data.json | -【Model contributed by Ascend】 | +-- | +-- | +eval | +【Ascend】 | |||
72B | +pretrain | +generate | -- | -inference | -evaluation | -alpaca_data.json | -【Model contributed by Ascend】 | +-- | +-- | +eval | +【Ascend】 | |||
Yi | +Yi | 34B | +pretrain | +generate | -- | -inference | -evaluation | -alpaca_data.json | -【Model contributed by Community】 | +-- | +-- | +eval | +【Community】 | |
Mixtral | 8x7B | +pretrain | +generate | -- | -inference | -evaluation | -alpaca_data.json | -【Model contributed by Ascend】 | +-- | +-- | +eval | +【Ascend】 |
Task | -Subset | -Model | -Ascend | -Reference | -Benchmark | -
---|---|---|---|---|---|
BBH | -test | -Llama7b | -0.334 | -0.333 | -0.335 | -
AGIEval | -test | -Llama7b | -0.210 | -0.210 | -0.206 | -
HumanEval | -test | -Llama7b | -0.128 | -0.128 | -0.128 | -
BoolQ | -test | -Llama7b | -0.742 | -0.742 | -0.754 | -
GSM8K | -test | -Llama7b | -0.102 | -0.103 | -0.100 | -
CEval | -val | -Llama7b | -0.408 | -0.404 | -/ | -
MMLU | -test | -Llama7b | -0.333 | -0.324 | -0.351 | -