项目编号 | 900-2019-J001 |
项目名称 | 大规模知识图谱构建关键技术与应用 |
候选单位 | 中国科学院自动化研究所 云知声智能科技股份有限公司 |
候选人 | 赵 军 刘 康 刘升平 何世柱 陈玉博 张元哲 任 禾 崇伟峰 |
项目简介 | 知识图谱是人工智能的基础设施,对于语义内容理解,特别是下一代人工智能所需的深度推理具有关键支撑作用。然而,海量知识隐匿在文字中,如何精准理解文本语义,从中挖掘有用、精简的知识,进而构建大规模知识图谱及其应用引擎,对于我国提升产业智能化水平,推动自然语言理解、知识工程等相关学科发展,占领下一代人工智能技术和知识服务的科技制高点具有重要战略意义。
项目组以构建大规模知识图谱与知识应用引擎为目标,针对互联网环境下文本领域开放、类型开放等特点,率先提出基于弱监督卷积神经网络的大规模文本知识获取系列方法,实现了千万级规模的多领域知识自动抽取;在此基础上,创新性地提出面向异构海量知识图谱的深度学习问答方法,为知识匹配、推理等深层应用提供有效技术支撑。项目主要创新点如下:
1.针对知识获取过程中的文本语义表示问题,创新性地提出基于卷积深层神经网络的知识抽取方法,极大减少传统方法对自然语言处理工具的过分依赖以及误差累积问题,突破了领域、语言的约束和限制,显著拓展知识抽取应用范围。
2.针对大规模知识获取时的训练标注数据不足问题,发明基于远距离监督卷积深度神经网络的知识抽取方法,有效解决开放域环境下训练语料自动生成和数据噪音问题,为大规模知识图谱构建提供了一种实际可行的解决方案。
3.针对大规模知识图谱应用中的知识匹配困难与知识稀疏问题,发明基于深度学习的端到端知识库问答与推理方法,创新性地将传统基于符号表示的问答、推理过程转变成基于语义数值计算的可学习问题,实现大规模、开放域环境下的知识图谱有效利用。
4.集合项目主要科研成果,研发了具有完全自主知识产权的大规模知识图谱构建关键技术与应用的工具和平台,提供实体识别、关系抽取、事件抽取、知识问答等关键技术与功能,在医疗、电商、教育等多个领域、场景实际落地。
项目发表学术论文100余篇,Google Scholar引用超过6000次,单篇引用超过700次,获COLING 2014最佳论文奖、中国中文信息学会钱伟长中文信息处理科学技术奖一等奖。开发了“百科在线工程”、“问答式百科知识服务平台”等面向多领域知识图谱构建、服务和测试工具,获发明专利授权15项。核心算法、工具、资源应用于云知声公司电子病历智能录入、智能客服等产品,并嵌入智能音箱、智能儿童教育机器人等终端设备,近三年相关产品新增销量达360万套,销售额超3亿元。同时,核心技术应用于中国大百科全书第三版建设,取得良好社会效益。 |
关 闭 |