让机器更懂中文 让搜狗搜索更懂用户
身处大数据时代,越来越多的信息需要处理,我们要想在海量的数据中找到自己所需,一款好用的搜索引擎是必不可少的。但中文自然语言处理作为深度学习相关领域面临的挑战之一,较难有技术上的突破,下一代搜索引擎技术突破点在哪里,成了困扰很多业内人士的问题。日前,国内知名搜索引擎搜狗搜索取得了创新性的进展,将大幅推动机器对中文自然语言的理解。
日前,国际自然语言处理与计算语言学领域最高级别的学术会议ACL(Annual Meeting of the Association for Computational Linguistics)录取了搜狗搜索首席科学家柳超博士带领搜狗数据科学研究院发表的题为“字根嵌入(Radical Embedding)”的学术论文,此论文首次提出了将“字根”作为中文语言处理的最小单位进行研究。其基本原理是通过某种数学方式把汉语字根表示为多维空间中的向量,进而把汉字也表示为向量,作为基于深度学习的中文自然语言处理技术的基本单元,让中文更易被精准计算。这是世界上第一项基于字根的中文自然语言处理的深度学习技术,作为该领域前沿的创新研究成果,得到了全球相关领域专家的高度认可。
团队的带头人,即搜狗公司首席科学家柳超博士,于2008-2012年曾任职于美国微软研究院,正研究员,主管数据智能团队,在信息检索,数据挖掘,和机器学习等诸多领域的研究有突出贡献,在ICML, SIGKDD,SIGIR, WWW, TSE, TKDD等国际一流会议和期刊上发表30余篇文章,长期担任SIGIR, SIGKDD, WWW,CIKM, WSDM, ACL, AAAI等国际会议的程序委员会委员,并多次在国际知名会议上做主题教程(tutorial)与特邀报告(invited speech),在业内有很大的影响力。
柳超博士表示,国内比较火的算法,考虑的更多是英文的特点而非中文语言的特点。中文和英文分属不同的语系,有着很大的差异。如果我们开发的算法能更多基于中文自己的特点,那么将大大提升机器对机器对中文自然语言的理解能力。同时,经过测试,采用“字根嵌入”新方式计算后,机器在处理中文分词、短文本分类及网页排序方面的效果大幅提升,证实了“字根嵌入”可以作为统一中文自然语言处理的基本单位的可能。
理解用户的需求,为用户筛选出精准可靠的信息是搜索引擎的目标所在,因此,对于用户语义理解、搜索结果排序等方面效果的提升,将让搜狗搜索更懂用户,更智能。