对文本数据进行分类

“类别和概念”视图 中,您可以创建类别,这些类别实质上表示用于捕获以文本表示的关键构想、知识和看法的较高级别概念或主题。

作为 IBM® SPSS® Modeler Text Analytics 14 发行版的一部分,类别还可包含分层结构,这表示其中可包含子类别,这些子类别还可包含其自己的子类别,以此类推。您可以将预定义的类别结构(原称为代码帧)导入分层式类别,并在该产品内构建这些分层式类别。

实际上,分层式类别支持您利用一个或多个子类别来构建树结构,用于更准确地对项目(例如,不同概念或主题领域)进行分组。以下是一个与休闲活动相关的简单示例;如果要回答诸如如果您有更多时间,那么会想要参加哪些活动?,您可能会列出的首要类别包括体育艺术与工艺品钓鱼等;向下一级,在体育下,可能包括球类运动水上相关运动等子类别。

类别由一组描述符组成,例如,概念类型模式类别规则。通过将这些描述符结合在一起可用于识别某个文档或记录是否属于给定类别。 可通过扫描文档或记录中的文本来查看是否有任何文本与描述符匹配。 如果找到匹配,那么会将此文档/记录分配至此类别。该过程称为分类

您可以使用“类别和概念”视图的四个窗格中显示的数据来处理、构建和直观探索您的类别,可通过选择“视图”菜单中各窗格的名称来隐藏或显示这些窗格。

  • “类别”窗格。在此窗格中构建和管理您的类别。请参阅主题“类别”窗格,以获取更多信息。
  • “抽取结果”窗格。在此窗格中探索和处理抽取的概念和类型。请参阅主题提取结果:概念和类型,以获取更多信息。
  • “可视化”窗格。在此窗格中直观探索您的类别及其交互方式。请参阅主题类别图形和图表,以获取更多信息。
  • “数据”窗格。在此窗格中探索和查看对应于选项的文档和记录中包含的文本。请参阅主题数据窗格,以获取更多信息。
图 1. “类别和概念”视图
“类别和概念”视图

虽然您可以首先使用来自文本分析包 (TAP) 的一组类别或者从预定义的类别文件导入类别,但您还可能需要创建自己的类别。可以使用本产品健全的自动化技术集来自动创建类别,这些技术使用抽取结果(概念、类型和模式)来生成类别及其描述符。还可以使用您所具有的有关数据的其他洞察来手动创建类别。但是,只能手动创建类别或者通过交互式工作台来对类别进行微调。请参阅主题“文本挖掘”节点:“模型”选项卡以获取更多信息。您可以通过将抽取结果拖放到类别中来手动创建类别定义。您可以通过以下方式来丰富这些类别或任何空类别:将类别规则添加到类别中、使用自己的预定义类别或采用上述方式的组合。

每一种技术和方法都适合某种类型的数据和情境,但在同一份分析中组合多种技术以捕获完整范围的文档或记录是很有帮助的。 在分类过程中,您可能会发现需要对语言资源进行其他更改。