摘要
本发明公开了一种文本类别的自动标注方法,该方法包括采集各个语种的文本以建立多语种文本类别数据库;基于多语种文本类别数据库获得相关词数据,对相关词数据进行训练生成多语种文本分类模型;检索多语种文本类别数据库,判断待标注文本是否与多语种文本类别数据库中的数据匹配,若是,则将该待标注文本作为候选文本;基于多语种文本分类模型识别候选文本的类别,将候选文本的类别作为待标注文本的类别并标注到待标注文本上;其中,相关词数据是通过对多语种文本类别数据库中的数据按语种和类别进行标注得到的。本发明还公开了一种文本类别的自动标注系统。通过本发明的这种自动标注方法可以快速处理大量的文本数据。