您所在的位置: 需求库 技术需求 中医药及民族医药知识图谱的构建方 法

中医药及民族医药知识图谱的构建方 法

发布时间: 2022-09-07
来源: 科技服务团
截止日期:2022-09-07

价格 双方协商

地区: 贵州省 贵阳市 修文县

需求方: 贵州***公司

行业领域

生物与新医药技术

需求背景

中医和西医的文本有极大的区别,中医存在许多概念模糊的内容,继承了中医古语的语言习惯,导致中医语言描述语义晦涩难懂,非中医专业技术人员很难准确地标注语料。同时,中医语言描述存在很多见的一词多义、一义多词,生僻字、古体字等问题,导致中医的标注数据到目前为止非常罕有,也给相关的算法研究带来了巨大的困难。而少数民族医药古籍除了包含中医部分,还有更多民族特色的文献,这类文献文字晦涩,表达方式各有不同,在整合上需要基于语义理解构建功能强大的知识网络进行语义分析,从而得到详实可用的知识图谱。基于语义理解构建知识网络,即在语义理解的基础上,进一步挖掘语义关系形成的网络关系,基于一定规则人工构建得出。目前绝大多数该方向的研究都是基于本体(Ontology)实现的,所构建出来的网络属于语义网络。语义网络具有简单、丰富、易读等特点而被广泛使用,著名的一体化医学语言系统(Unified Medical Language System,UMLS)就是基于语义网络而设计的框架。但在实际运用中,由于少数民族医药词汇表达特殊性强,相同症状具有不同的描述方法,使用现有Skip‑gram算法训练出来的词向量网络中,医药词汇几乎聚集在了一起,形成了孤岛,无法体现词汇之间的关联性,不能实际应用。而其他词向量模型也有应用在医药领域的,但其整合效率低。Minarro‑Gimenez等通过Word2vec模型获取语言学上的一些规律信息,但该规律信息只有不到50%的准确率。Minarro‑Gimenez等利用美国国家药物文件参考术语(NDF‑RT,National Drug File‑Reference Terminology)来评价Word2vec的效果,得到的准确率同样不高。所以如今需要一种能够运用在中医药及民族医药领域且准确率高的知识图谱构建方法。 

需解决的主要技术难题

1.使用现有Skip‑gram算法训练出来的词向量网络中,医药词汇几乎聚集在了一起,形成了孤岛,无法体现词汇之间的关联性,不能实际应用。

2.而其他词向量模型也有应用在医药领域的,但其整合效率低。Minarro‑Gimenez等通过Word2vec模型获取语言学上的一些规律信息,但该规律信息只有不到50%的准确率。

期望实现的主要技术目标

1.,将非结构化数据转换为结构化数据,便于数据被计算机识别,提高数据的利用率和准确率,方便统计数据发现新的规律,从而整合少数民族医药资源,评价少数民族地区医药资源水平,精准实现少数民族医药资源挖掘。 

2.去除信息不全、文字乱码等脏数据,使所述医学文本数据集内的文本信息更加准确规范,便于后续的处理。 

处理进度

  1. 提交需求
    2022-09-07 19:33:33
  2. 确认需求
    2022-09-14 17:34:50
  3. 需求服务
    2022-09-14 17:34:50
  4. 需求签约
  5. 需求完成