基于众包的维吾尔语事件标注研究Building Uyghur Language Event Annotation Corpus with Crowdsourcing
陈昊;吐尔根·依布拉音;卡哈尔江·阿比的热西提;艾山·吾买尔;
摘要(Abstract):
大规模标注语料库在自然语言处理的语义理解和算法研究等领域有重要作用.本文针对维吾尔语事件标注语料空白以及标注仅仅涉及简单的人类智能的事实,提出了一种基于众包的维吾尔语事件标注方法.在制定了维吾尔语事件标注规范之后,建立了三层架构的标注体系,并提出质量控制机制.维吾尔语事件标注语料库为维吾尔语事件的研究提供了重要的资源支持.
关键词(KeyWords): 事件;维吾尔语;语料库;众包
基金项目(Foundation): 国家自然科学基金项目(61331011,61262060);; 国家重点基础研究发展计划(973)项目(2014cb340506)
作者(Authors): 陈昊;吐尔根·依布拉音;卡哈尔江·阿比的热西提;艾山·吾买尔;
参考文献(References):
- [1]艾斯卡尔·肉孜,宗成庆,姑丽加玛丽·麦麦提艾力,等.基于条件随机场的维吾尔人名识别方法[J].清华大学学报(自然科学版),2013,53(6):873-877.
- [2]邹岳琳,吐尔根·依布拉音,麦热哈巴·艾力,等.基于词干提取的维吾尔语事件类时间短语识别[J].计算机工程与设计,2014,35(2):625-630.
- [3]木合塔尔·艾尔肯,艾斯卡尔·艾木都拉,地里木拉提·吐尔逊.基于规则的维吾尔地名识别[J].通信技术,2013,46(7):103-105.
- [4]米日姑·肉孜.维吾尔文机构名识别研究[D].乌鲁木齐:新疆大学硕士论文,2013.
- [5]Howe J.The rise of crowdsourcing[J].Wired magazine,2006,14(6):1-4.
- [6]Wang A,Hoang C D V,Kan M Y.Perspectives on crowdsourcing annotations for natural language processing[J].Language resources and evaluation,2013,47(1):9-31.
- [7]von Ahn L,Dabbish L.Labeling images with a computer game[C].In CHI’04:Proceedings of the SIGCHI conference on Human factors in computing systems,Vienna Austria,2004,319-326.
- [8]von Ahn L,Dabbish L.Designing games with a purpose[J].Communications of the ACM,2008,51(8):58-67.
- [9]Siorpaes K,Hepp M.Onto Game:Weaving the semantic web by online games[J].Research and applications,2008,751-766.
- [10]邹建红.突发事件信息的标注研究[D].北京:北京语言大学硕士论文,2007.
- [11]Desmet B,Hoste V.Fine-grained Dutch named entity recognition[J].Language Resources and Evaluation,2014,48(2):307-343.
- [12]仲秋雁,王彦杰,裘江南.众包社区用户持续参与行为实证研究[J].大连理工大学学报(社会科学版),2011,32(1):1-6.