词性标记集

根据所分析文档的语言,ICA Studio 会将多种标记集用于词性标记。 使用 UIMA 管道分析文档时,这些词性标记会显示为 uima.tt.TokenAnnotation 类型的属性值。

以下各表列示了用于英语和其他语言(例如,德语、法语和阿拉伯语)的词性标记。有关用于韩国语、土耳其语、中文和日语文档的词性标记,请参阅 ICA Studio 上下文相关帮助。

英语标记集

以下词性标记用于英语文档。

表 1. 用于英语文档的词性标记列表
词性标记 描述
UNKNOWN 未知词
DT 限定词
QT 量词
CD 基数
NN 名词(单数)
NNS 名词(复数)
NNP 专有名词(单数)
NNPS 专有名词(复数)
EX 表示存在性的 there,例如在 There was a party 句子中。
PRP 人称代词 (PP)
PRP$ 物主代词 (PP$)
POS 所有格结束词
RBS 副词(最高级)
RBR 副词(比较级)
RB 副词
JJS 形容词(最高级)
JJR 形容词(比较级)
JJ 形容词
MD 情态动词
VB 动词(基本形式)
VBP 动词(现在时态,非第三人称单数)
VBZ 动词(现在时态,第三人称单数)
VBD 动词(过去时态)
VBN 动词(过去分词)
VBG 动词(动名词或现在分词)
WDT Wh 限定词,例如 Which book do you like better 句子中的 which
WP Wh 代词,例如用作关系代词的 whichthat
WP$ wh 物主代词,例如 whose
WRB Wh 副词,例如 I like it when you make dinner for me 句子中的 when
TO 介词 to
IN 介词或从属连词
CC 并列连词
UH 感叹词
RP 小品词
SYM 符号
$ 货币符号
'' 双引号或单引号
( 左圆括号、左方括号、左尖括号或左花括号
) 右圆括号、右方括号、右尖括号或右花括号
, 逗号
. 句末标点符号 (. ! ?)
: 句中标点符号 (: ; ... -- -)

简化的标记集

以下词性标记用于非英语语言的文档。

表 2. 用于非英语文档的词性标记列表
词性标记 描述
UKW 未知词
CC 并列连词
CD 基数
DT 限定词
IN 介词或从属连词
JJ 形容词
MD 情态动词
NN 名词
NNP 专有名词
PRP 代词
QT 量词
RB 副词
SYM 符号(包括所有类型的标点符号)
UH 感叹词
VB 动词
WH Wh 词,例如 what 的等效项