研究所的宗旨是:致力于计算语言学与中文信息处理技术研究与教学。
研究方向
计算语言学理论、语言信息处理基础资源、及其应用技术三方面的研究,包括如下方向:语言分析技术、语料库语言学、计算词典学、计算语义学、机器翻译的理论与技术、信息提取与检索技术、术语学与术语标准化、自然语言处理系统评价技术等。
人员组成
目前研究所有在职研究人员12名,其中教授2名、副教授6名。另有博士后研究人员1名,博士生和硕士生30多位。
研究所主要科研成果包括:
■综合型语言知识库已颇具规模,语言知识库、语言信息处理规范与国家标准、核心基础软件和应用系统。其中语言知识库是CLKB的主体,在标准化的建设原则和规范指导下,所有语言资源的开发基于自动化构建方法和工具集的支撑,在此基础上又开发了应用系统,综合反映了中文信息处理领域的最新成果。
■中文语料库基本切分与标注、中文自动注音、汉英机器翻译(合作)、古诗词计算机辅助研究和中文信息提取等工具软件或应用系统有一定影响。已经取得了属于国家科技攻关、国家自然科学基金、“863”高技术项目的“机器翻译译文质量评估软件”、“日汉机器翻译系统”(合作)、“机器翻译与自然语言处理的自动评价”等成果。
■计算语言所的科究成果获得政府部委级与北京大学的多项奖励,部分成果已传播到世界各地,包括美国、日本、德国、法国、韩国、新加坡、瑞典以及香港、台湾和内地等,有超过200家研究机构用户(如Microsoft、IBM、Xerox、Intel、Fujitsu、NTT、松下、Saillabs、Enpia、佳能、东芝、青鸟、联想、北佳等)已从北大购买了科研成果的许可使用权,或同北大计算语言所共享合作研究成果。北大计算语言学研究所已成为具有广泛影响的语言信息处理研究基地。
第7届自然语言分析技术国际研讨会在我所召开
简介:学院成立以后计算语言所的重要成果“综合型语言知识库”
综合型语言知识库(简称CLKB)属于文理结合的“中国语言文字信息处理”学科。语言信息处理旨在让机器理解和运用人类语言。我国语言信息处理的上规模研究始于20世纪80年代中期,当时国内外汉语语言基础资源几乎是空白。与英语、日语不同,汉语缺乏形式标记,汉语语言知识库的建设尤显迫切和艰巨。基于对母语知识与文化的认知优势,项目组从1986年开始研究汉语计算模型和语言知识形式化描述方法,并构建语言知识库。历时20余年,建成综合型语言知识库,有力地支持了中文信息处理的原创性科学研究和应用技术开发。
CLKB包括6个语言知识库、10项规范与标准、4个核心基础软件和4个应用系统,它们相互支撑,形成一个紧密联系的有机整体。
语言知识库是CLKB的主体,包括:
现代汉语语法信息词典,含8万词的360万项语法属性描述;
汉语短语结构规则库,含600多条语法规则;
现代汉语多级加工语料库,实现词语切分并标注词类的基本标注语料库1.5亿字,其中精加工的有5200万字,标注义项的有2800万字;
多语言概念词典,含10万个以同义词集表示的概念;
平行语料库,含对译的英汉句对100万;
多领域术语库,有35万中英对照术语。
CLKB的结构图如下:
CLKB的系列化语言知识库涵盖词、词组、句子、篇章各单位和词法、句法、语义各层面,从汉语向多语言辐射,从通用领域深入到专业领域。综合而言,CLKB是当今世界规模最大且获得广泛认可的汉语语言知识资源,具有完全的自主知识产权。
CLKB于2007年通过教育部组织的技术鉴定。鉴定意见对CLKB的评价是:“其规模、深度、质量和应用效果在我国语言工程实践中是前所未有的。该成果是以汉语为核心的多语言知识库建设中最全面、最重要的研究成果,总体上达到了国际领先水平”。
CLKB有巨大学术影响、社会效益与可观的经济效益。规范和论著被广泛引用,两篇全国优秀博士学位论文在这里产生。免费用户数以万计。此外,CLKB的签约用户遍布美、日、德、法、俄、英、韩、瑞典、新加坡和中国大陆、台湾、香港,包括从事相关研究的著名企业、大学和研究所。自1996年开始应用至今16年来,CLKB作为语言信息处理技术与产业的基础设施,为机器翻译、智能搜索、语音识别、信息提取、人机会话等各方面应用提供规范化的语言知识和核心软件。CLKB也为我国少数民族语言处理、聋人手语自动翻译、汉语国际传播做出了卓有成效的贡献。CLKB生命期之长在IT领域实属罕见。
CLKB近期所获奖励有2010年中国电子学会电子信息科学技术奖一等奖、2008年度北京技术市场金桥奖项目二等奖、2007年教育部科技进步奖一等奖等。