專家選項

使用「文字鏈結分析 (TLA)」節點,會自動啟用文字鏈結分析型樣結果的擷取。 在該節點的內容中,專家選項包括會影響文字擷取和處理方式的其他某些參數。 專家參數控制擷取程序的基本行為和數種進階行為。 還有一些語言資源和選項也會影響擷取結果,它們由您選取的資源範本進行控制。

僅擷取廣域頻率至少為 [n] 的概念。 此選項指定單字或詞組必須在文字中出現最少幾次才能進行擷取。 這樣,值 5 將僅擷取在整個記錄或文件集中出現至少五次的那些單字或詞組。

在某些情況下,變更此限制會對產生的擷取結果,進而對種類造成很大的影響。 假設您正在使用一些餐廳資料,而且您沒有針對此選項增加超過 1 的限制。 在此情況下,您可能會發現pizza (1), thin pizza (2), spinach pizza (2),以及favorite pizza (2)在您的擷取結果中。 然而,如果將擷取限於廣域頻率為 5 或以上並重新擷取,則不再會得到上述概念中的三個。 相反你會得到pizza (7),自pizza是最簡單的形式,且此單字已作為可能的候選項存在。 根據剩餘的文字,實際頻率可能會超過 7,這取決於文字中是否仍有其他包含 pizza 的詞組。 此外,如果spinach pizza已是種類描述子,您可能需要新增pizza作為描述子,以擷取所有記錄。 基於這種原因,只要已經建立種類,變更此限制就要謹慎。

請注意,這是僅限擷取的功能;如果您的範本包含術語(通常會包含),且在文字中找到了範本的某個術語,則不論其頻率為何,都會為其編製索引。

例如,假設您使用包含 "los angeles" 的「基本資源」範本<Location>在 Core 檔案庫中鍵入; 如果您的文件只包含 Los Angeles 一次,則 Los Angeles 將成為概念清單的一部分。 若要防止出現這種情況,您需要設定過濾器,以顯示出現次數至少與僅擷取廣域頻率至少為 [n] 的概念欄位中所輸入值相同的概念。

容納標點符號錯誤。 此選項會在擷取期間暫時將包含標點符號錯誤(例如,使用不當)的文字正規化,以改進概念的可擷取性。 當文字簡短且品質不佳時(例如,在開放式意見調查回應、電子郵件及 CRM 資料中),或文字包含多個縮寫時,此選項極為有用。

容納單字字元長度下限為 [n] 的拼字。 此選項套用模糊分組技術,可協助將經常拼錯的單字或拼字相似的單字分組在一個概念下。 模糊分組演算法會暫時除去所有母音 (第一個除外) ,並從擷取的字組中除去雙/三重子音,然後比較它們以查看它們是否相同,以便modelingmodelling會被分組在一起 不過,如果每一個術語指派給不同的類型,則排除<Unknown>類型,將不會套用模糊分組技術。

在使用模糊分組之前,您還可以定義所需的字元數下限。 一個術語中的根字元數是透過從所有字元數總計中,減去構成字形變化字尾的任何字元數來計算,如果是複合字術語,則減去構成限定詞和介系詞的字元數。 例如,術語exercises以 "行使" 形式計為 8 個根字元,因為該字母s在該字的結尾是拐點 (複數形式)。 同樣地apple sauce計為 10 個根字元 ("apple sauce") 及manufacturing of cars計為 16 個根字元 (「製造汽車」)。 這種計數方法僅用來檢查是否應該套用模糊分組,但不會影響單字的比對方式。

附註: 如果您發現稍後某些單字分組不正確,則可以在「進階資源」內容下的 模糊分組: 異常狀況 區段中明確宣告單字配對,以從此技術中排除單字配對。

擷取單項詞。 此選項會擷取單個單字(單項詞),只要該單字不是複合字的一部分且為名詞或無法辨識的詞性即可。

擷取非語言實體。 此選項會擷取非語言實體,例如,電話號碼、社會保險號碼、時間、日期、貨幣、數字、百分比、電子郵件位址及 HTTP 位址。 您可以在「進階資源」內容下的非語言實體:配置區段中,併入或排除特定類型的非語言實體。 透過停用任何不必要的實體,擷取引擎不會浪費處理時間。

大寫演算法。 這個選項會擷取內建字典中不存在的簡單和複合術語,只要該術語的第一個字母是大寫即可。 此選項提供了一個擷取大多數專有名詞的好方法。

盡可能將部分和完整人員名稱分在一組。 此選項會將文字中以不同方式顯示的名稱分組在一起。 此功能非常有用,因為通常在文字開頭以完整格式提及名稱,然後僅提及其簡稱。 此選項會嘗試將任何單一反覆運算與<Unknown>鍵入至任何複合術語的最後一個單字,而這些複合術語被鍵入為<Person>. 例如,如果doe已找到且起始鍵入為<Unknown>,擷取引擎會檢查中是否有任何複合術語<Person>類型併入doe作為最後一個字,例如john doe。此選項不適用於名字,因為大部分從未擷取為單術語。

非功能單字排列上限。 此選項會指定套用排列技術時可呈現的非功能單字數上限。 此置換技術只會將彼此不同的類似詞組分組非函數單字 (例如,ofthe) 不管拐點有多大 例如,假設您將此值設為-最多兩個單字,以及兩者company officialsofficials of the company已擷取。 在此情況下,兩個擷取的術語將在最終概念清單中分組在一起,因為兩個術語在下列情況下視為相同:of the會被忽略。

分組多項詞時使用衍生。 處理海量資料時,請選取此選項,以使用衍生規則分組多項詞。