fastNLP/reproduction/joint_cws_parse
2019-08-16 17:40:43 +08:00
..
data rename base_loader file as data_bundle 2019-08-16 17:40:43 +08:00
models 1. 增强BertEmbedding使其可以自动判断token_type_ids; 2.增加CrossEntropyLoss中对label dimension的报错处理 2019-08-14 23:14:59 +08:00
__init__.py 增加joint_cws_parse的代码 2019-07-01 14:04:49 +08:00
README.md 增加fastNLP.embeddings模块并修改对应的现有代码以适配fastNLP.embeddings 2019-07-12 04:07:47 +08:00
train.py 1. 增强BertEmbedding使其可以自动判断token_type_ids; 2.增加CrossEntropyLoss中对label dimension的报错处理 2019-08-14 23:14:59 +08:00

Code for paper A Unified Model for Chinese Word Segmentation and Dependency Parsing

准备数据

  1. 数据应该为conll格式1, 3, 6, 7列应该对应为'words', 'pos_tags', 'heads', 'labels'.
  2. 将train, dev, test放在同一个folder下并将该folder路径填入train.py中的data_folder变量里。
  3. 百度云(提取:ua53)下载预训练vector放到同一个folder下并将train.py中vector_folder变量正确设置。

运行代码

python train.py 

其它

ctb5上跑出论文中报道的结果使用以上的默认参数应该就可以了(应该会更高一些); ctb7上使用默认参数会低0.1%左右,需要调节 learning rate scheduler.