ModelLink2/convert_ckpt.py

# coding=utf-8
# Copyright (c) 2020, NVIDIA CORPORATION.  All rights reserved.
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
# Copyright (c) 2023, NVIDIA CORPORATION. All rights reserved.

import argparse
import importlib
import os
import sys
from functools import wraps
import torch.multiprocessing as mp
import modellink
from pretrain_gpt import model_provider

MODULE_ROOT = "modellink.tasks.checkpoint"


def load_plugin(plugin_type, name):
    if name == '':
        module_name = f"{MODULE_ROOT}.{plugin_type}"
    else:
        module_name = f"{MODULE_ROOT}.{plugin_type}_{name}"
    try:
        plugin = importlib.import_module(module_name)
    except ModuleNotFoundError:
        module_name = f"{MODULE_ROOT}.{name}"
        try:
            plugin = importlib.import_module(module_name)
        except ModuleNotFoundError:
            sys.exit(f"Unable to load {plugin_type} plugin {name}. Exiting.")

    if not hasattr(plugin, 'add_arguments'):
        sys.exit(f"{module_name} module is not a plugin. Exiting.")

    print(f"Loaded {module_name} as the {plugin_type}.")
    return plugin


def main():

    parser = argparse.ArgumentParser(description="Megatron Checkpoint Utility Arguments",
                                     allow_abbrev=False, conflict_handler='resolve')

    parser.add_argument('--model-type', type=str, required=True,
                        choices=['GPT', 'BERT'],
                        help='Type of the model')
    parser.add_argument('--loader', type=str, default='megatron',
                        help='Module name to load checkpoint, should be on python path')
    parser.add_argument('--load-model-type', type=str, nargs='?',
                        default=None, const=None, choices=['hf', 'mg'],
                        help='Module name to load checkpoint, should be on python path')
    parser.add_argument('--saver', type=str, default='megatron',
                        help='Module name to save checkpoint, should be on python path')
    parser.add_argument('--load-dir', type=str, required=True,
                        help='Directory to load model checkpoint from')
    parser.add_argument('--save-dir', type=str, required=True,
                        help='Directory to save model checkpoint to')
    parser.add_argument('--max-queue-size', type=int, default=50,
                        help='Maximum number of tensors in the queue')
    parser.add_argument('--no-checking', action='store_false',
                        help='Do not perform checking on the name and ordering of weights',
                        dest='checking')
    parser.add_argument('--spec', type=str, default=None, nargs='*',
                       help='Specify the <module_location function_name> pair '
                            'that returns a spec to customize transformer layer, depending on the use case.')
    parser.add_argument('--model-type-hf', type=str, default="llama2",
                        choices=['baichuan', 'baichuan2', 'llama2', 'mixtral', 'chatglm3', 'gemma', 'gemma2', 'bloom',
                                 'qwen', 'internlm2', 'deepseek2', 'minicpm', 'minicpm-moe', 'deepseek2-lite', 'qwen2-moe'],
                        help='model type of huggingface')
    known_args, _ = parser.parse_known_args()

    use_saver = known_args.load_model_type is None
    if use_saver:
        loader = load_plugin('loader', known_args.loader)
        saver = load_plugin('saver', known_args.saver)
    else:
        loader = load_plugin('loader', known_args.load_model_type)
        saver = load_plugin('saver', '')

    loader.add_arguments(parser)
    saver.add_arguments(parser)

    args = parser.parse_args()

    queue = mp.Queue(maxsize=args.max_queue_size)

    print("Starting saver...")
    saver_proc = mp.Process(target=saver.save_model_checkpoint, args=(model_provider, queue, args))
    saver_proc.start()

    print("Starting loader...")
    loader.load_checkpoint(model_provider, queue, args)

    print("Waiting for saver to complete...")
    saver_proc.join()


if __name__ == '__main__':
    main()
llama2 权重转换脚本 2023-12-26 15:34:19 +08:00			`# coding=utf-8`
			`# Copyright (c) 2020, NVIDIA CORPORATION. All rights reserved.`
			`#`
			`# Licensed under the Apache License, Version 2.0 (the "License");`
			`# you may not use this file except in compliance with the License.`
			`# You may obtain a copy of the License at`
			`#`
			`# http://www.apache.org/licenses/LICENSE-2.0`
			`#`
			`# Unless required by applicable law or agreed to in writing, software`
			`# distributed under the License is distributed on an "AS IS" BASIS,`
			`# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.`
			`# See the License for the specific language governing permissions and`
			`# limitations under the License.`
			`# Copyright (c) 2023, NVIDIA CORPORATION. All rights reserved.`

			`import argparse`
			`import importlib`
			`import os`
			`import sys`
!1029 修复megaton 转 huggingface bug Merge pull request !1029 from liuyanghan/master 2024-03-15 16:29:17 +08:00			`from functools import wraps`
llama2 权重转换脚本 2023-12-26 15:34:19 +08:00			`import torch.multiprocessing as mp`
!1029 修复megaton 转 huggingface bug Merge pull request !1029 from liuyanghan/master 2024-03-15 16:29:17 +08:00			`import modellink`
!1622 权重转换代码位置优化&修复反向依赖 Merge pull request !1622 from sunjunjie/ckpt_position 2024-09-09 14:37:36 +08:00			`from pretrain_gpt import model_provider`

			`MODULE_ROOT = "modellink.tasks.checkpoint"`
llama2 权重转换脚本 2023-12-26 15:34:19 +08:00
!1029 修复megaton 转 huggingface bug Merge pull request !1029 from liuyanghan/master 2024-03-15 16:29:17 +08:00
llama2 权重转换脚本 2023-12-26 15:34:19 +08:00			`def load_plugin(plugin_type, name):`
!1597 新增权重转换ut模板和mixtral用例，支持legacy和mcore互转 Merge pull request !1597 from glhyy/master 2024-09-10 15:40:15 +08:00			`if name == '':`
			`module_name = f"{MODULE_ROOT}.{plugin_type}"`
			`else:`
			`module_name = f"{MODULE_ROOT}.{plugin_type}_{name}"`
llama2 权重转换脚本 2023-12-26 15:34:19 +08:00			`try:`
			`plugin = importlib.import_module(module_name)`
			`except ModuleNotFoundError:`
!1622 权重转换代码位置优化&修复反向依赖 Merge pull request !1622 from sunjunjie/ckpt_position 2024-09-09 14:37:36 +08:00			`module_name = f"{MODULE_ROOT}.{name}"`
llama2 权重转换脚本 2023-12-26 15:34:19 +08:00			`try:`
			`plugin = importlib.import_module(module_name)`
			`except ModuleNotFoundError:`
			`sys.exit(f"Unable to load {plugin_type} plugin {name}. Exiting.")`

			`if not hasattr(plugin, 'add_arguments'):`
			`sys.exit(f"{module_name} module is not a plugin. Exiting.")`

			`print(f"Loaded {module_name} as the {plugin_type}.")`
			`return plugin`


			`def main():`

			`parser = argparse.ArgumentParser(description="Megatron Checkpoint Utility Arguments",`
			`allow_abbrev=False, conflict_handler='resolve')`

			`parser.add_argument('--model-type', type=str, required=True,`
			`choices=['GPT', 'BERT'],`
			`help='Type of the model')`
			`parser.add_argument('--loader', type=str, default='megatron',`
			`help='Module name to load checkpoint, should be on python path')`
!1597 新增权重转换ut模板和mixtral用例，支持legacy和mcore互转 Merge pull request !1597 from glhyy/master 2024-09-10 15:40:15 +08:00			`parser.add_argument('--load-model-type', type=str, nargs='?',`
			`default=None, const=None, choices=['hf', 'mg'],`
			`help='Module name to load checkpoint, should be on python path')`
llama2 权重转换脚本 2023-12-26 15:34:19 +08:00			`parser.add_argument('--saver', type=str, default='megatron',`
!1373 修改typos和issue Merge pull request !1373 from fengliangjun/master 2024-06-24 21:00:04 +08:00			`help='Module name to save checkpoint, should be on python path')`
llama2 权重转换脚本 2023-12-26 15:34:19 +08:00			`parser.add_argument('--load-dir', type=str, required=True,`
			`help='Directory to load model checkpoint from')`
			`parser.add_argument('--save-dir', type=str, required=True,`
			`help='Directory to save model checkpoint to')`
			`parser.add_argument('--max-queue-size', type=int, default=50,`
			`help='Maximum number of tensors in the queue')`
			`parser.add_argument('--no-checking', action='store_false',`
			`help='Do not perform checking on the name and ordering of weights',`
			`dest='checking')`
!1511 refactor: support Deepseek Specification Merge pull request !1511 from RuanZhiXiang/refactor-deepseek 2024-10-21 15:57:37 +08:00			`parser.add_argument('--spec', type=str, default=None, nargs='*',`
			`help='Specify the <module_location function_name> pair '`
			`'that returns a spec to customize transformer layer, depending on the use case.')`
!1548 【mcore框架新增 mg2mg & mg2hf & ep等特性】 Merge pull request !1548 from glhyy/master 2024-08-23 15:44:29 +08:00			`parser.add_argument('--model-type-hf', type=str, default="llama2",`
!1637 [mcore-llm]新增 deepseek-lite 预训练、推理和微调以及相关数据处理的脚本 Merge pull request !1637 from jzh/master 2024-09-23 09:45:32 +08:00			`choices=['baichuan', 'baichuan2', 'llama2', 'mixtral', 'chatglm3', 'gemma', 'gemma2', 'bloom',`
!1707 添加新模型Qwen2-57B-A14B Merge pull request !1707 from 商元义/master 2024-09-24 22:40:52 +08:00			`'qwen', 'internlm2', 'deepseek2', 'minicpm', 'minicpm-moe', 'deepseek2-lite', 'qwen2-moe'],`
!1597 新增权重转换ut模板和mixtral用例，支持legacy和mcore互转 Merge pull request !1597 from glhyy/master 2024-09-10 15:40:15 +08:00			`help='model type of huggingface')`
llama2 权重转换脚本 2023-12-26 15:34:19 +08:00			`known_args, _ = parser.parse_known_args()`
!1597 新增权重转换ut模板和mixtral用例，支持legacy和mcore互转 Merge pull request !1597 from glhyy/master 2024-09-10 15:40:15 +08:00
			`use_saver = known_args.load_model_type is None`
			`if use_saver:`
			`loader = load_plugin('loader', known_args.loader)`
			`saver = load_plugin('saver', known_args.saver)`
			`else:`
			`loader = load_plugin('loader', known_args.load_model_type)`
			`saver = load_plugin('saver', '')`
llama2 权重转换脚本 2023-12-26 15:34:19 +08:00
			`loader.add_arguments(parser)`
			`saver.add_arguments(parser)`

			`args = parser.parse_args()`

			`queue = mp.Queue(maxsize=args.max_queue_size)`

			`print("Starting saver...")`
!1622 权重转换代码位置优化&修复反向依赖 Merge pull request !1622 from sunjunjie/ckpt_position 2024-09-09 14:37:36 +08:00			`saver_proc = mp.Process(target=saver.save_model_checkpoint, args=(model_provider, queue, args))`
llama2 权重转换脚本 2023-12-26 15:34:19 +08:00			`saver_proc.start()`

			`print("Starting loader...")`
!1622 权重转换代码位置优化&修复反向依赖 Merge pull request !1622 from sunjunjie/ckpt_position 2024-09-09 14:37:36 +08:00			`loader.load_checkpoint(model_provider, queue, args)`
llama2 权重转换脚本 2023-12-26 15:34:19 +08:00
			`print("Waiting for saver to complete...")`
			`saver_proc.join()`


			`if __name__ == '__main__':`
			`main()`