本发明提供一种数据标注方法及装置,通过已有的标注数据训练第一句法分析器,其中已有的标注数据包括预先在句子中标注的核心词和所述核心词的依存关系;基于所述第一句法分析器自动分析当前待分析句子中未标注的词,从未标注的词中选取出最有歧义的词,对所选取出的最有歧义的词的依存关系进行人工标注,得到部分标注的待分析句子。即本发明实施提供的上述技术方案是一种基于部分标注的数据标注方法,其相对于现有完全标注方法来说降低工作量,并且发明人通过实验证明,对同等数量的待分析句子进行标注,本发明实施例提供的上述技术方案相对于现有完全标注方法来说降低80%的工作量,却取得与完全标注方法近似的准确度。
本发明的目的在于提供一种数据标注方法及装置,用于在保证标注结果准确度的情况下,降低标注工作量。
本发明提供一种数据标注方法,所述方法包括:
通过已有的标注数据训练第一句法分析器,其中已有的标注数据包括预先在句子中标注的核心词和所述核心词的依存关系;
基于所述第一句法分析器自动分析当前待分析句子中未标注的词,从所述未标注的词中选取出最有歧义的词,其中所述最有歧义的词的依存关系的标注难度大于同一所述待分析句子中其他词的依存关系的标注难度;
发明人:
李正华 张民 陈文亮 巢佳媛
苏州大学坐落于素有“人间天堂”之称的历史文化名城苏州,是国家“211工程”“2011计划”首批入列高校,是教育部与江苏省人民政府共建“双一流”建设高校、国家国防科技工业局和江苏省人民政府共建高校,是江苏省属重点综合性大学。苏州大学前身是Soochow University(东吴大学,1900年创办),开现代高等教育之先河,融中西文化之菁华,是中国最早以现代大学学科体系举办的大学。在中国高等教育史上,东吴大学是最早开展研究生教育并授予硕士学位、最先开展法学(英美法)专业教育,也是第一家创办学报的大学。1952年中国大陆院系调整,由东吴大学之文理学院、苏南文化教育学院、江南大学之数理系合并组建苏南师范学院,同年更名为江苏师范学院。1982年,学校更复名苏州大学(Soochow University)。
评价单位:- (-)
评价时间:2023-11-15
综合评价
与现有技术相比,本发明提供的上述技术方案具有如下优点:
本发明提供的上述技术方案通过第一句法分析器可以对每条待分析句子进行分析,选取每条待分析句子中的最有歧义的词,并对所选取出的最有歧义的词的依存关系进行标注得到部分标注的待分析句子。即本发明实施例提供的上述技术方案是一种对待分析句子进行部分标注的方法,其相对于现有完全标注方法来说降低工作量。并且发明人通过实验证明,对同等数量的待分析句子进行标注,本发明实施例提供的上述技术方案相对于现有完全标注方法来说降低80%的工作量,却取得与完全标注方法近似的准确度。
查看更多>