選擇最佳描述子

下列資訊包含有關選擇或建立最佳種類描述子(概念、類型、TLA 型樣及種類規則)的部分準則。描述子是種類的建置區塊。當文件或記錄中的部分或全部文字符合描述子時,文件或記錄會符合種類。

除非描述子包含或對應於所擷取的概念或型樣,否則它不會符合任何文件或記錄。因此,如下列段落中所述使用概念、類型、型樣及種類規則。

由於概念不僅代表其自己,還代表一組基礎術語,因此範圍從複數/單數形式到同義字,到拼字作變化,只有概念本身應該用作描述子,或者用部分描述子。若要進一步瞭解所有給定概念的基礎術語,按一下「種類與概念」視圖之「擷取結果」窗格中的概念名稱。當您將游標移至概念名稱上方時,會顯示一個工具提示,顯示前次擷取期間在文字中找到的所有基礎術語。並非所有概念都具有基礎術語。例如,如果 carvehicle 是同義字,但是 car 擷取作為概念,而 vehicle 擷取作為基礎術語,則您只想要在描述子中使用 car,因為它自動將文件或記錄與 vehicle 相符。

概念及類型作為描述子

當您想要尋找包含該概念(或者其任何基礎術語)的所有文件或記錄時,可以將概念用作描述子。在此情況下,由於確切的概念名稱足夠,不需要使用更複雜的種類規則。請記住,當您使用擷取意見的資源時,有時概念可以在 TLA 型樣擷取期間變更,以擷取更真實的句子意義(請參閱 TLA 上下一節中的範例)。

例如,意見調查回應指出每個人員的最愛水果(例如 "Apple and pineapple are the best")可能造成擷取 applepineapple。透過將概念 apple 作都為描述子新增至種類,包含概念 apple(或其所有基礎術語)的所有回應都符合該概念。

然而,如果您對以任何方式簡單瞭解哪些回應提及 apple 有興趣,則可以撰寫種類規則(例如 * apple *),並且您還將擷取包含概念(例如 appleapple saucefrench apple tart)的回應。

您還可以透過直接將類型用作描述子(例如 <Fruit>),擷取包含以相同方式鍵入之概念的所有文件或記錄。請注意,您不能搭配使用 * 與類型。

如需相關資訊,請參閱主題 擷取結果:概念和類型

文字鏈結分析 (TLA) 型樣作為描述子

當您想要擷取較細微的且有微妙差別的構想時,將 TLA 型樣結果用作描述子。TLA 擷取期間分析文字時,文字會逐個句子或子句進行處理,而不是查看整個文字(文件或記錄)。透過同時考量單一句子的所有部分,TLA 可以識別意見、兩個元素之間的關係或否定,例如瞭解更真實的意義。您可以將概念型樣或類型型樣用作描述子。如需相關資訊,請參閱主題 類型型樣和概念型樣

例如,如果我們具有文字 "the room was not that clean",則可以擷取下列概念:roomclean。然而,如果在擷取設定中啟用 TLA 擷取,則 TLA 可以偵測到 clean 以方面方式使用,且實際對應於 not clean,這是概念 dirty 的同義字。在這裡您可以看到,將概念 clean 用作其自己的描述子會符合此文字,但是還可能擷取其他提及 cleanliness 的文件或記錄。因此,可能最好使用具有 dirty 的 TLA 概念型樣作為輸出概念,因為它可能符合此文字,並且很可能是更適當的描述子。

種類商業規則作為描述子

種類規則是根據利用所擷取概念、類型及型樣的邏輯表示式,以及布林運算子,自動將文件或記錄分類至種類的陳述式。例如,您可以撰寫表示式,表示包括在此種類中包含所擷取概念 embassy 但不包含 argentina 的所有記錄

您可以利用 &|!() 布林值撰寫及使用種類規則作為種類中的描述子,以表示數個不同的構想。如需有關這些規則之語法及如何撰寫與編輯它們的詳細資訊,請參閱使用種類規則

  • 搭配使用種類規則與 & (AND) 布林運算子,可協助您尋找發生 2 個或更多概念的文件或記錄。& 運算子連接的 2 個或更多概念不需要發生在同一句子或片語中,但是可以發生在同一文件或記錄中的任何位置即可視為符合種類。例如,如果您建立種類規則 food & cheap 作為描述子,它將符合包含文字 "the food was pretty expensive, but the rooms were cheap" 的記錄,儘管事實上 food 不是稱為 cheap 的名詞,因為該文字同時包含 foodcheap
  • 搭配使用種類規則與 !() (NOT) 布林運算子作為描述子,可協助您尋找部分項發生一些事情而其他未發生的文件或記錄。這可以協助避免分組根據單字看起來相關但根據環境定義看起來不相關的資訊。例如,如果您建立種類規則 <Organization> & !(ibm) 作為描述子,它將符合下列文字 SPSS Inc. was a company founded in 1967,而不符合下列文字 the software company was acquired by IBM.
  • 搭配使用種類規則與 | (OR) 布林運算子作為描述子,可協助您尋找包含數個概念或種類之一的文件或記錄。例如,如果您建立種類規則 (personnel|staff|team|coworkers) & bad 作為描述子,它將在其中找到這些名詞中任何名詞的任何文件或記錄符合概念 bad
  • 使用種類規則中的類型,讓它們更一般且可能更可部署。例如,如果您要使用旅館資料,且可能對瞭解客戶對旅館人員的想法非常有興趣。相關術語可能包括接待人員、服務人員、服務人員(女性)、服務台、前台等單字。在此情況下,您可以建立稱為 <HotelStaff> 的新類型,並將之前的所有術語新增至該類型。由於可以為每種員工建立一個種類規則,例如 [* waitress * & nice][* desk * & friendly][* receptionist * & accommodating],您可以利用 <HotelStaff> 類型建立更一般的單一種類規則,以擷取具有正面旅館工作人員意見且採用形式 [<HotelStaff> & <Positive>] 的所有回應。

附註:將 TLA 型樣包括在種類規則中時,您可以在那些規則中同時使用 +&。如需相關資訊,請參閱主題 在種類規則中使用 TLA 型樣

概念、TLA 或種類規則如何作為描述子以不同方式相符的範例

下列範例示範如何使用概念作為描述子,如何使用概念規則作為描述子,或者使用 TLA 型樣作為描述子影響文件或記錄如何分類。讓我們假設您具有以下 5 筆記錄。

  • A:「餐廳工作人員極好,食物美味,房間舒適乾淨。」
  • B:「餐廳人員糟糕,但是房間乾淨。」
  • C:「房間舒適乾淨。」
  • D:「我的房間不太乾淨。」
  • E:「乾淨。」

由於記錄包括單字乾淨,並且您想要擷取此資訊,則可以建立下表中顯示的其中一個描述子。根據您嘗試擷取的核心要素,您可以看到使用不同種類的描述子如何可以產生不同的結果。

表 1. 範例記錄如何符合描述子
描述子 A B C D E 說明
clean 相符 相符 相符 相符 相符 描述子是擷取的概念。每筆記錄都包含概念 clean,即使是記錄 D,由於沒有 TLA,不會自動瞭解到根據 TLA 規則 "not clean" 表示 dirty
clean + . - - - - 相符 描述子是自行代表 clean 的 TLA 型樣。僅符合 TLA 擷取期間擷取 clean 且無相關聯概念的記錄。
[clean] 相符 相符 相符 - 相符 描述子是尋找自身包含 clean 或包含其他內容之 TLA 規則的種類規則。符合找到包含 clean 之 TLA 輸出的所有記錄,而無論 clean 是否鏈結至另一個概念(room),以及是否在任何插槽位置。