未发布文章,仅支持15分钟预览

最新!新时代人民日报通用语料库发布,由南农教授团队制作推出

{{sourceReset(detailData.source)}}

{{dynamicData.sub_info.subject_name}} 紫牛新闻

{{item.reporter_name}}

{{item.tag}}

+ 关注

扬子晚报网12月3日讯(通讯员 许天颖 记者 王赟)记者从南京农业大学获悉,新时代人民日报通用语料库日前正式发布,这是由南农黄水清教授团队推出的最新版现代汉语通用语料库,是对北京大学1998年人民日报语料库的补充。黄水清教授表示,相关语料将对学界公布,供学术研究用,并且后续还将不断补充最新语料,以促进语料资源的开放和共享。

据了解,语料库是由人工或机器标注好的真实语言材料组成的数据集,是开展与自然语言有关研究的有效工具和手段。依据语料库既可以研究语言普遍规律也可以针对具体文本开展研究。作为现代汉语通用语料,北京大学计算语言研究所的1998年人民日报语料无论在学界和业界都有巨大的影响力。但是随着时间的推移,该语料库在词汇的时效性、完备性和覆盖度上均需要进行更新和补充。

黄水清教授告诉记者,最新发布的“新时代人民日报语料库”收录的是2012年以后即中国特色社会主义进入新时代以后《人民日报》刊发的文章。

当前,人工智能方兴未艾,机器学习被广泛应用于自然语言的计算机处理,而语料库是保证机器学习算法正常运行的先决条件,计算机学习了语料库中的知识,才能对未知问题进行分析、决策。

黄水清教授

黄水清给记者打了个比喻,语料库好比是机器学习的“教材”。教材的好坏影响教学水平,语料库的质量影响机器学习算法的运行效果。高质量的语料库相当于优质“统编教材”,而人民日报语料库就是面向现代汉语文本的机器学习“统编教材”,而且是从文字到思想、从内容到形式都是一流的国标版统编教材。

编辑 : 李燕

{{dynamicData.sub_info ? dynamicData.sub_info.subject_name : dynamicData.event_info.title_short}} {{dynamicData.sub_info ? dynamicData.sub_info.subject_desc : dynamicData.event_info.brief}}
{{dynamicData.sub_info ? '+ 关注' : '+ 追踪'}}
文章未发布,请后台刷新重置预览