设置选项

您可以访问文本分析工作台的各种窗格中的设置,例如概念的抽取设置。

概念文本链接类别 选项卡上,类别是根据派生自类型或类型模式的描述符构建的。 在表中,可选择要在类别构建过程中包含的单个类型或模式。 下面是每个选项卡上所有设置的描述。

抽取结果的设置(概念数据)

概念文本链接 选项卡中,单击 设置 图标以更改以下设置:

  • 启用文本链接分析模式抽取。 指定希望从文本数据抽取 TLA 模式。 它还假定您在资源编辑器中其中一个库中具有 TLA 模式规则。 此选项可极大地缩短抽取时间。
  • 容纳标点错误。 此选项可在抽取期间临时标准化包含标点错误(例如,不正确使用)的文本,以改善概念的可抽取性。 当文本很短且质量不佳(例如,在开放式调研回复、电子邮件和 CRM 数据中)时,或文本包含很多缩略词时,此选项非常有用。
  • 适应最小根字符限制的拼写。 此选项适用于模糊分组方法,此方法可帮助将普遍拼写有误的单词或拼写接近的单词分组到一个概念下。 模糊分组算法将所有元音 (第一个元音除外) 暂时剥离,并从提取的词中剥离双/三辅音,然后对它们进行比较,以查看它们是否相同,例如,modelingmodelling将分组到一起。 但是,如果将每个术语分配到不同的类型,那么不包括<Unknown>类型,不应用模糊分组技术。
  • 抽取单迭代。 此选项会抽取单个单词(单术语),前提是此单词不是复合单词的一部分,且为名词或未识别的词性。
  • 抽取非语言实体。 此选项用于抽取非语言实体,例如,电话号码、社保号、时间、日期、货币、数字、百分比、电子邮件地址和 HTTP 地址。 您可以包含或排除某些类型的非语言实体。 通过禁用任何不需要的实体,抽取引擎不会浪费处理时间。
  • 大写字母算法。 此选项会抽取内置字典中不存在的简单术语和复合术语,只要该术语的首字母为大写。 此选项提供了一种很好的方式来抽取大部分正确的名词。
  • 尽可能将部分和完整人员姓名分组在一起。 此选项用于将在文本中显示不同的姓名分组在一起。 由于通常在文本开头部分通过全名指代姓名,而之后通过较短的版本指代姓名,因此,此功能会很有帮助。 此选项尝试将类型为 <Unknown> 的任何单术语与类型为 <Person> 的任何复合术语的最后一个单词匹配。 例如,如果发现了 doe 且其最初类型为 <Unknown>,那么抽取引擎会检查以了解 <Person> 类型中的任何复合术语是否将 doe 作为最后一个单词包含,例如,john doe。 此选项不适用于名字,因为大部分的名字从不作为单术语抽取。
  • 最大非函数词排列。 此选项指定应用排列方法时可显示的非功能单词的最大数目。 此排列方法将仅包含的非功能单词(例如,ofthe)不同(不考虑屈折变化)的相似短语分组在一起。 例如,假设您将此值设置为最多两个单词,并且抽取了 company officialsofficials of the company。 在此情况下,这两个抽取的术语将在最终概念列表中分组在一起,因为在忽略 of the 时,这两个术语视为相同。
  • 对多术语进行分组时使用派生。 处理大数据时,选择此选项以使用派生规则对多术语进行分组。

类别的设置(类别数据)

类别 选项卡,转至 构建 > 更改设置 以更改以下设置:

  • 构建类别。 如果选择类型,那么将从属于所选类型的概念构建类别。 所以如果选择<Budget>表中的类型,类别,例如,costprice可以产生costprice是分配给<Budget>类型。

    缺省情况下,仅选择捕获最多记录或文档的类型。 此预先选择使您可快速关注最相关的类型,并避免构建不相关的类别。 该表以降序显示类型,从记录或文档数最多 (Doc) 的类型开始。 计数)。 来自Opinions缺省情况下,将在类型表中取消选择库。

    所选的输入会影响获取的类别。 选择将类型用作输入时,可更容易地看到明确相关的概念。 例如,如果使用 "类型" 作为输入来构建类别,那么可以获取类别Fruit与概念 (例如,apple,pear,citrus fruits,orange依此类推。 如果选择 "类型模式" 作为输入,请选择模式<Unknown> + <Positive>例如,那么您可能会获得类别fruit + <Positive>有一种或两种水果如fruit + tastyapple + good。第二个结果仅显示 2 概念模式,因为其他出现的水果不一定是正合格的。 虽然这可能对您当前的文本数据足够好,但在使用不同文档集的纵向研究中,您可能希望手动添加其他描述符,例如citrus fruit + positive或使用类型。 将类型单独用作输入可帮助您查找所有可能的水果。

    如果选择类型模式,将根据模式而不是类型和概念本身构建类别。 通过这种方式,会对包含属于所选类型模式的概念模式的任何记录或文档进行分类。 因此,如果选择<Budget><Positive>在表中输入模式,类别,例如,cost & <Positive>rates & excellent可以生产。

    将类型模式用作构建自动化类别的输入时,有时方法可确定多种方式来形成类别结构。 实际上,不仅仅只有一种正确方法用于生成类别;但是可能会发现一种结构比另一种结构更适用于您的分析。 要在此情况下帮助定制输出,可将类型指定为首选焦点。 所有生成的顶级类别将来自此处所选的类型(而不是其他类型)概念。 每个子类别将包含来自此类型的文本链接模式。 在“按模式类型构造类别:”字段中选择此类型,表将更新以仅显示包含所选类型的适用模式。 更多的时候<Unknown>将为您预先选择。 这将导致包含类型的所有模式<Unknown>。 该表以降序显示类型,从记录或文档数最多 (Doc) 的类型开始。 计数)。

  • 技术。 由于每个数据集唯一,方法数和应用这些方法的顺序会随着时间发生变化。 由于文本挖掘目标在不同数据组中可能会不同,因此可能需要试验不同方法,以了解哪种方法可针对给定文本数据产生最佳效果。

    您不需要非常了解这些设置也可使用这些设置。 缺省情况下,已选择最常见的普通设置。 因此,可跳过高级设置对话框,直接构建类别。 同样地,如果在此处执行更改,那么每次不必返回设置对话框,因为会始终保留最新设置。

    选择下列其中一种方法,然后单击高级设置。 没有一种自动方法能对数据进行完美分类;因此,建议寻找并应用适用于数据的一种或多种自动方法。 不能同时使用语言和频率方法进行构建。

提供了以下扩展设置:

  • 类别输入。 如果希望根据任何现有类别中未使用的抽取结果构建类别,请选择未使用的抽取结果选项。 这可最大程度降低记录匹配多个类别的趋势,并限制生成的类别数。 或者,如果希望使用任何抽取结果构建类别,请选择所有抽取结果选项。 不存在任何分类或存在很少的分类时,这会很有帮助。

    每个提供的分组方法都非常适合某些类型的数据和情况,但通常在同一分析中使用这些方法的组合以捕获完整的文档或记录会很有帮助。 您可能会发现同一个概念出现在多个类别中,或者找到冗余的类别。 概念包含方法通过基于多术语概念(复合词)包含属于另一个类别中单词的子集还是超集的单词将其分组来构建类别。 例如,概念座椅将与安全座椅,安全带和安全带卡扣分组在一起。 语义网络方法首先从每个概念的单词关系扩展索引识别该概念的可能含义,然后通过将相关概念分组来创建类别。 在概念对于语义网络已知而且不会太模棱两可时,这种方法最适用。 在文本包含对于网络未知的专用术语或行话时帮助不大。 例如,概念 granny smith apple 可能会与 gala applewinesap apple分组在一起,因为它们是 granny smith 的同代。 再例如,概念 animal 可能与 catkangaroo 分组在一起,因为它们是 animal 的下义词。 这种方法仅适用于英语文本。

    仅当您选择语义网络方法时,最大搜索距离选项才可用。 选择生成类别之前希望通过方法搜索的最大范围。 值越小,获得的结果越少,但是,这些结果将更为简单,且更可能互相紧密链接或关联。 值越大,获得的结果可能越多,但是,这些结果可靠性和相关性将降低。 此选项全局应用于所有方法时,影响最大的是同现和语义网络。

    如果要在输出中同时停止将两个概念分组或配对的过程,请选择阻止特定概念的配对。 要创建或管理概念对,请单击管理对

  • 在可能的情况下。 选择是直接扩展,还是使用通配符来泛化描述符,或者同时使用这两种方式。
    • 扩展和泛化。 此选项将扩展所选类别,然后泛化描述符。 选择泛化时,产品将使用星号通配符在类别中创建通用类别规则。 例如,使用通配符可能会生成 [apple * + .],而不会生成多个描述符,例如 [apple tart + .][apple sauce + .]。 如果您使用通配符进行泛化,那么通常会像以前一样获取相同数目的记录或文档。 但是,此选项具有减少数目和简化类别描述符的优势。 此外,此选项还通过针对新文本数据(例如,在纵波研究中)使用这些类别,提高对更多记录或文档进行分类的能力。
    • 仅扩展。 此选项将扩展类别而不进行泛化。 针对手动创建的类别首先选择仅扩展选项,然后使用扩展并泛化选项再次扩展相同类别,这会很有帮助。
    • 仅泛化。 此选项将泛化描述符,而不以任何其他方式扩展类别。
    • 要扩展描述符的最大项数。 使用项(概念、类型和其他表达)扩展描述符时,定义可添加到单个描述符的最大项数。 如果将此限制设置为 10,那么可向现有描述符添加最多 10 个附加项。 如果要添加 10 个以上的项,那么方法会在添加第 10 个项后停止添加新项。 执行此操作可使描述符列表保持较短,但不保证会首先使用最为相关的项。
    • 还扩展子类别。 此选项还将扩展所选类别下的任何子类别。
    • 使用从类别名称生成的描述符扩展空类别。 此方法仅适用于空类别(具有 0 个描述符)。 如果类别已包含描述符,那么它不会以这种方式扩展。 此选项尝试根据组成类别名称的单词为每个类别自动创建描述符。 将扫描类别名称以查看名称中的单词是否匹配任何抽取的概念。 如果识别了概念,那么它将用于查找匹配的概念模式,且这两者都用于形成类别的描述符。 当类别名称较长且具有描述性时,此选项会产生最佳效果。 通过此方法,可快速生成类别描述符,这些描述符可使目录捕获包含这些描述符的记录。 从其他任何位置导入类别时,或手动创建具有较长描述性名称的类别时,此选项最为有用。
    • 生成描述符。 仅当选择先前选项时,此选项才适用。 选择概念选项以生成概念形式的描述符,而不管这些描述符是否是从源文本中抽取的。 或者选择模式选项以生成模式形式的描述符,而不管是否已抽取生成的模式或任何模式。