NLU——打造智能引擎核心

华院数据积累了过去15年历史之非结构化数据,目前自然语言分析的语料库规模,在简体中文部分达到2亿句,繁体中文则是达到0.3亿句规模。

能够处理新的语言型态,像是中英混杂(ex. 小S)、中日混杂、繁简混杂、Unicode Emoji、网络流行语(ex. 喜大普奔)、同音同型错字)。

 

使用了更能够表现歧义与上下文的二阶隐马可夫模型(2-step HMM Model)+以文法为基础的TBL (Transformation-based learning)技术。

 

对于未知词,我们会透过单词字形结构、部首以及包含单词上下文来猜测可能词性,将词性标注进行简化(二阶段)、修正(补充更细化的文法概念),并将词性标注与实体标注分离。

img_nlu

增加了情感标注与情感指标(目前我们可以做到29种情绪侦测,IBM Watson也只能做到5种类别)。

 

针对产业应用进行更为落地应用设计,如:

-透过自然语义整理知识图谱;

-文字+行为数据,探索网上行为追踪技术的新的可能性……

  • 沪ICP备09008869号-1 沪公网安备 31011002000007号