名詞解釋

本名詞解釋定義 IBM® Watson Content Analytics 產品介面及文件中使用的術語。

如需語言術語的相關資訊，請參閱來自Summer Institute of Linguistics 的 Glossary of linguistic terms。如需 Unicode 相關術語的相關資訊，請參閱來自 Unicode Consortium 的 Glossary of Unicode terms。

工作區 (place)

入口網站中可見的虛擬位置，供個人或團體一起來分工合作。在入口網站中，每一位使用者都有一個個人位置可處理私人工作，而個人和群組可存取各種共用位置（可能為公用位置或限制位置）。另請參閱 Lotus Quickr 工作區 (Lotus Quickr place)。

不透明術語 (opaque term)

語言查詢剖析器不會剖析的一種查詢術語。而是透過語法將不透明術語識別為實作所特有的（例如，使用 XML 查詢語言來搜尋 XML 文件的語法所特有的）。不透明查詢術語的開頭是 @ 字元及查詢語言 ID。例如，@xmlf2 指定查詢是透過 XML 片段查詢語言所處理，而 @xmlp 指定查詢是透過 XPath 查詢語言所處理。

分析引擎 (analysis engine)

請參閱文字分析引擎 (text analysis engine)。

分析結果 (analysis results)

註解程式所產生的資訊。分析結果會寫入一個稱為共用分析結構的資料結構中。自訂文字分析引擎（註解程式）所產生的分析結果在併入索引中之後，即可供搜尋。

分級 (ranking)

在查詢傳回的搜尋結果中，指派整數值給每一份文件。搜尋結果中的文件順序取決於相對於查詢的相關性。等級愈高表示愈符合。另請參閱動態分級 (dynamic ranking) 及靜態分級 (static ranking)。

分類架構 (taxonomy)

根據相似度而將物件分類為群組。分類架構將資料組織成各種種類及子種類。另請參閱種類樹狀結構 (category tree)。

文件物件模型 (Document Object Model)

一種系統，將結構化文件（例如 XML 檔案）視為可透過程式設計方式來存取及更新的物件樹狀結構。

文字分析 (text analysis)

為了加強從集合中擷取資料的能力，而從文字擷取語意及其他資訊的程序。另請參閱語意搜尋 (semantic search)。

文字分析 (text analytics)

一種自然語言處理程序的形式，包括用於分析文字以及擷取金鑰資訊進行商業整合的語言、統計及機器學習技術。

文字分析引擎 (text analysis engine)

一種軟體元件，負責尋找及表現文字中的上下文及語意內容。

文字型評分 (text-based scoring)

為了表示文件相對於查詢中之術語的相關性，而指派整數值給文件的程序。整數值愈大表示愈符合查詢。另請參閱動態分級 (dynamic ranking)。

文字擷取程式 (text extractor)

一個元件，根據 Oracle Outside In Content Access 使用文件過濾技術來識別文件格式。

文字斷詞法 (text segmentation)

請參閱斷詞法 (segmentation)。

片假名 (Katakana)

一種字集，由兩種常用日文音標的其中一種所採用的符號組成，主要用於按照發音來撰寫外來語。

主旨擷取 (theme extraction)

一種概念擷取，可自動辨識文字文件中的重要詞彙項目，以擷取文件的主旨或主題。另請參閱概念擷取 (concept extraction)。

主要管理者 (master administrator)

一種管理角色，允許使用者管理整個 Watson Content Analytics 系統。

加權術語搜尋 (weighted term search)

一種查詢，給予某些術語較高的重要性。

布林搜尋 (Boolean search)

使用 AND、NOT 及 OR 等運算子將一個以上搜尋術語結合起來的一種搜尋方式。

本端聯合器 (local federator)

使用搜尋及索引 API 所建立的用戶端物件，可讓使用者搜尋一組異質集合，然後取得一組一致的搜尋結果。

正規化 (normalization)

這是將表面形式的表示法取代為其標準形式的程序。這可以包括大小寫正規化（例如將 Run 取代為 run）、文法正規化（例如將 runs 取代為 run），以及字典編纂正規化（例如將 Unicode 完整寬度字元取代為 Unicode 基本形式，或是移除中文字的空格）。

正規化形式 (normalized form)

單字或多單字單元在經過正規化程序後的形式。正規化形式也稱為詞目或字幹。

正規表示式註解程式 (regular expression annotator)

一種軟體元件，根據正規表示式（說明在文件文字中搜尋的精確型樣）來偵測文字文件中的實體或資訊單元，例如產品編號。如果其中一個正規表示式符合部分文件文字，則正規表示式註解程式會建立涵蓋此文字全部或局部的相對應註釋。然後，這些標註的表示式會使用索引對映檔來儲存在索引中，或使用資料庫對映檔來儲存在可使用 JDBC 的資料庫中。

任意文字搜尋 (free text search)

以開放式文字來表達搜尋術語的一種搜尋。

全文索引 (full-text index)

一種資料結構，可參照資料項目來啟用搜尋，以尋找包含查詢術語的文件。

共用分析結構 (common analysis structure，CAS)

用來儲存文件的內容及 meta 資料，以及文字分析引擎所產生的所有分析結果的一種結構。文件分析期間的所有資料交換都是使用共用分析結構來處理。

共用分析結構消耗程式 (common analysis structure consumer，CAS consumer)

負責對共用分析結構中儲存的分析結果執行最終處理的消耗程式。例如，消耗程式會將搜尋引擎中的共用分析結構內容編製索引，或將特定的分析結果移入關聯式資料庫中。

共用通訊層 (common communication layer，CCL)

統合各種產品元件（控制器、剖析器、搜索器、檢索伺服器）的通訊基礎架構。

同義字字典 (synonym dictionary)

一種字典，可讓使用者在搜尋集合時搜尋其查詢術語的同義字。

字元正規化 (character normalization)

將一個字元的各種變化形態（例如大寫及變音符號）簡化為一般形態的一種處理程序。

字形變化 (inflection)

單字形式的變化，以反映文法資訊，例如性別、時態、數字或人。字形變化的產生通常是藉由加上字首。

存取控制清單 (access control list，ACL)

在電腦安全方面，是指一個與物件相關聯的清單，用來識別可存取該物件的所有主體及其存取權。

安全記號 (security token)

用來授權存取集合中文件的身分及安全等相關資訊。不同的資料來源類型支援不同類型的安全記號。例如，使用者角色、使用者 ID、群組 ID 及可用來控制內容存取權的其他資訊。

自訂文字分析引擎 (custom text analysis engine)

使用 Unstructured Information Management Architecture (UIMA) 軟體開發套件 (SDK) 所建立的文字分析引擎，可以新增至一組標準的文字分析引擎中（又稱為基本註解程式）。另請參閱文字分析引擎 (text analysis engine)。

尾端字元 (trailing character)

一種字元，佔有單字的尾端位置。

快速鏈結 (quick link)

「統一資源識別碼 (URI)」與關鍵字或詞組之間的關聯性。

身分管理 (identity management)

一組 API，控制對安全資料的存取權，可讓使用者直接搜尋集合，而不需要針對集合中的每一個儲存庫指定使用者 ID 及密碼。

使用者代理程式 (user agent)

一種應用程式，可瀏覽 Web 並在所造訪的網站上留下本身的相關資訊。例如，Web 搜索器即是一種使用者代理程式。

表面形式 (surface form)

單字或多單字單元在未經處理之輸入文字中找到的形式。

近似性搜尋 (proximity search)

一種文字搜尋方式，當兩個搜尋型樣彼此相距在指定的距離內時，就會傳回結果。

金鑰資料庫檔 (key database file)

請參閱金鑰環 (key ring)。

金鑰儲存庫檔 (keystore file)

一種金鑰環，包含儲存為簽章者憑證的公開金鑰，以及儲存在個人憑證中的私密金鑰。

金鑰環 (key ring)

在電腦安全方面，是指包含公開金鑰、私密金鑰、授信的 root 使用者及憑證的一種檔案。另請參閱金鑰儲存庫檔 (keystore file)。

附加語 (clitic)

在語法結構上與另一個單字分開，但在發音方面又相連結的一種單字。附加語可以寫成與所結合的單字相連或分開。常見的附加語範例包括英文縮寫式的尾端部分（wouldn't 或 you're）。

查詢擴展 (query expansion)

將搜尋詞彙新增至使用者的搜尋字串。例如，搜尋字串 phone 可能擴展成包含術語 telephone、mobile phone 和 cellular phone。

相關性 (correlation)

指出符合查詢條件的文件中的資料類型值相關性。相關性評分可測量部分文件中的某個資料類型值，與其他符合查詢的文件相較之下的唯一性和頻率。高於 1.0 的相關性值代表異常，可能需要進一步調查。

剖析器 (parser)

一種程式，可解譯新增至資料儲存庫的文件。剖析器會從文件擷取資訊，並整理這些資訊以供編製索引、搜尋及擷取。

剖析器服務 (parser service)

負責針對所有文件集合來處理所有文件剖析及文字分析處理的服務。無論何時至少有一個剖析器服務一定在執行中。

剖析器驅動程式 (parser driver)

將文件提供給剖析器服務的一種服務。每一個集合都有一個剖析器驅動程式。集合的剖析器驅動程式服務對應於管理主控台中的集合剖析器。

原始資料儲存區 (raw data store)

一種資料結構，搜索到的文件在傳送至剖析器之前會先在其中儲存。搜索器會寫入原始資料儲存區，而剖析器會讀取原始資料儲存區。文件經過剖析之後，就會從原始資料儲存區中移除。請勿與資料儲存庫混淆。

特性結構 (feature structure)

代表文字分析結果的基礎資料結構。特性結構是一種屬性值結構。每一個特性結構屬於一種類型，而每一種類型都具有一組指定的有效特性或屬性，很像 Java 類別。

特性路徑 (feature path)

一種路徑，用來存取 Unstructured Information Management Architecture (UIMA) 特性結構中某項特性的值。

索引 (index)

請參閱全文索引 (full-text index)。

索引快取 (index cache)

一種保留資料的緩衝區，利用此緩衝區，不需要重新搜索文件即可重建索引。

索引欄位 (index field)

只存在於索引中的欄位，代表多個輸入來源之間共用的資料。索引欄位可以協助使用者擷取文件，而不需要知道實際的欄位名稱。

記號 (token)

一段文字，其將視為有意義的單元以進行更高層次的處理，例如檢索。記號通常是單字、數字、字首語或其他具有造句法或語意值的實體。

記號化 (tokenization)

將輸入剖析成記號的程序。

記號器 (tokenizer)

一種文字斷詞程式，可掃描文字並判斷一連串字元是否及何時可以視為記號。

起始統一資源定址器 (start Uniform Resource Locator，URL)

搜索的起始點。

停止字組 (stop word)

搜尋應用程式忽略的一種常用單字，例如 the、an 或 and。

停止字組移除 (stop word removal)

為了忽略常用的字並傳回更有意義的結果，而從查詢中移除停止字組的程序。

動態分級 (dynamic ranking)

一種分級方式，可根據所搜尋的文件來分析查詢中的術語，以決定結果的等級。另請參閱文字型評分 (text-based scoring)。請對照靜態分級 (static ranking)。

動態摘要 (dynamic summarization)

一種摘要，可強調顯示搜尋術語，且搜尋結果包含的詞組最能代表使用者所搜尋之文件的概念。請對照靜態摘要 (static summarization)。

參數搜尋 (parametric search)

一種搜尋方法，可尋找包含數值或屬性的物件，例如在指定範圍內的日期、整數或其他數值資料類型。

基本註解程式 (base annotators)

用於執行預設文件分析處理的一組標準文字分析引擎。

常用分級 (popular ranking)

一種分級方式，根據文件的普及程度來提高文件的現有等級。

探索器 (discoverer)

搜索器的一項功能，可決定有哪些資料來源可供搜索器擷取資訊。

混合式搜尋 (hybrid search)

結合了布林搜尋與任意文字搜尋。

移入佇列 (enqueue)

將訊息或項目放入佇列中。

移出佇列 (dequeue)

從佇列中移除項目。

統一資源定址器 (Uniform Resource Locator，URL)

網路（例如網際網路）中可存取的資訊資源的唯一位址。URL 包括用來存取資訊資源的通訊協定縮寫名稱，以及通訊協定用來尋找資訊資源的資訊。

統一資源識別碼 (Uniform Resource Identifier，URI)

精簡的字元字串，可識別抽象或實體資源。

處理引擎保存檔 (processing engine archive)

一種 .pear zip 保存檔，包括 Unstructured Information Management Architecture (UIMA) 分析引擎，以及利用分析引擎來執行自訂分析所需的一切資源。

規則型種類 (rule-based category)

由規則所建立的種類，這些規則指定哪些文件與哪些種類相關聯。例如，您可以定義規則，將包含或排除某些單字的文件或符合「統一資源識別碼 (URI)」型樣的文件，與特定的種類建立關聯性。

軟錯誤頁面 (soft error page)

一種網頁，提供為何無法傳回所要求網頁的相關資訊。例如，HTTP 伺服器可能會傳回一個頁面來詳細說明狀態碼，而非只傳回簡單的狀態碼。

連字 (ligature)

兩個以上的字元，相連而成為一個字元。例如，ff 和 ffi 就是可以呈現為連字的字元。

單字推衍 (word stemming)

將一個單字的各種變化形態簡化為一般形態的一種語言正規化處理程序。例如，將 connections、connective 及 connected 簡化為 connect。

提高字組 (boost word)

可影響文件在搜尋結果中之相對等級的單字。在查詢處理期間，包含提高字組的文件可能會提高或降低重要性，視針對此單字預先定義的評分而定。

換行字元 (newline character)

一種控制字元，可使列印位置或顯示位置下移一行。

註解程式 (annotator)

一種軟體元件，可執行特定的語言分析作業，然後產生並記錄註釋。註解程式是分析引擎中的分析邏輯元件。

註釋 (annotation)

某段文字的相關資訊。例如，註釋可指出某段文字代表公司名稱。在 Unstructured Information Management Architecture (UIMA) 中，註釋是一種特殊功能結構。

詞形 (lemma)

單字的基本詞形，以及共用相同詞類的變形。

詞形還原化 (lemmatization)

一種處理程序，判斷每個單字在文字內的詞形。單字的詞形包含它的基本詞形以及共用相同詞類的變形。例如，go 的詞形包含 go、goes、went、gone 及 going。名詞的詞形分組為單數及複數（例如 calf 及 calves）。形容詞的詞形則分組為比較級及最高級（例如 good、better 及 best）。代名詞的詞形分組為相同代名詞的不同文法位格（例如 I、me、my 及 mine）。

詞幹分析 (stemming)

請參閱單字推衍 (word stemming)。

詞彙分析 (lexical analysis)

一個字元順序分組成為一系列詞彙項目（稱為記號），且所有可用的字典資料與詞彙項目相關聯的程序。詞彙分析包含三個不同步驟：斷詞、正規化及註釋。

詞彙外 (OOV) 單字 (out of vocabulary (OOV) word)

不包含在單字識別所使用之基礎 ICA Studio 字典中的單字。

詞彙相似度 (lexical affinity)

文件中意義相近的搜尋單字之間的關係。詞彙相似度可用來計算結果的相關性。

開放式文字 (free-form text)

由單字或句子組成的非結構化文字。

集合 (collection)

一組資料來源及用來搜索、剖析、編製索引及搜尋這些資料來源的選項。

搜索空間 (crawl space)

一組來源，用來比對指定的型樣（例如「統一資源定位器 (URL)」、資料庫名稱、檔案系統路徑、網域名稱及 IP 位址），搜索器會讀取這些型樣，以擷取要編製索引的項目。

搜索器 (crawler)

一種軟體程式，可從資料來源擷取文件，並收集可用來建立搜尋索引的資訊。

搜尋引擎 (search engine)

可接受搜尋要求並傳回文件清單給使用者的一種程式。

搜尋快取 (search cache)

一種緩衝區，可保留先前搜尋要求的資料及結果。

搜尋結果 (search results)

符合搜尋要求的一份文件清單。

搜尋應用程式 (search application)

負責處理查詢、搜尋索引、傳回搜尋結果，以及擷取原始文件的一種程式。

概念擷取 (concept extraction)

一種文字分析功能，可識別文字文件中的重要詞彙項目（例如人員、地點或產品），並產生一份含有這些項目的清單。另請參閱主旨擷取 (theme extraction)。

萬用字元 (wildcard character)

一種字元，用來代表搜尋術語的開頭、中間或結尾的選用性字元。

解釋 (gloss)

一個資訊單元，與 ICA Studio 字典項目（例如詞目、詞性或同義字）相關聯。

資料分類瀏覽 (faceted browsing)

瀏覽資訊的一種程序，可從資料分類的分類系統中（即預先定義的資料類型集合）僅逐漸選取有效值，以過濾一組主題。

資料來源 (data source)

可供擷取文件的任何資料儲存庫，例如 Web、關聯和非關聯式資料庫，以及內容管理系統。

資料來源類型 (data source type)

取決於用來存取資料的通訊協定的一組資料來源。

資料儲存庫 (data store)

將文件以剖析後的格式保存起來的資料結構。

資料類型 (facet)

主旨清楚定義的內容。給定主旨的資料類型彼此獨立又互無遺漏。資料類型的分類結構不同於階層式分類結構，因為可使用多個資料類型來尋找所關注的項目。

資料類型值 (facet value)

資料類型與特定字串的組合（例如與字串 New York 合併的 City 資料類型）。

資訊擷取 (information extraction)

一種概念擷取，可自動辨識文字文件中的重要詞彙項目，例如名稱、術語及表達。

跳出字元 (escape character)

一種字元，可禁用或選取其後一個以上字元的特殊意義。

摘要 (summarization)

為了簡短說明文件的內容，而在搜尋結果中併入不重複句子的程序。另請參閱動態摘要 (dynamic summarization) 及靜態摘要 (static summarization)。

監視員 (monitor)

一種使用者，具有權限可觀察集合層次的程序。

種子清單頁面 (seed list page)

在 WebSphere Portal 中，是指一個 XML 頁面，此頁面包含入口網站中存在的其他頁面鏈結。搜索器使用種子清單來識別要搜索的文件。種子清單頁面內也包含 meta 資料，此資料會和已搜索的文件一起儲存在索引內。

種類樹狀結構 (category tree)

種類階層。

管理角色 (administrative role)

規定使用者存取權的使用者分類。

認證 (credential)

在鑑別期間獲得的詳細資訊，用來說明使用者、任何群組關聯及其他安全相關的身分屬性。認證可用來執行許多服務，例如授權、審核及委派。例如，使用者的登入資訊（使用者 ID 及密碼）即為允許使用者存取某個帳戶的認證。

語言搜尋 (linguistic search)

一種搜尋類型，在文件中進行瀏覽、擷取及檢索時，會將其中的術語簡化為基礎詞形（例如，mice 會以 mouse 進行檢索），或是擴充其基本詞形（例如複合字）。

語言識別 (language identification)

一種用來判斷文件語言的搜尋功能。

語意搜尋 (semantic search)

一種合併語言及上下文分析的關鍵字搜尋。另請參閱文字分析 (text analysis)。

輕量型目錄存取通訊協定 (Lightweight Directory Access Protocol，LDAP)

一種開放式通訊協定，使用 TCP/IP 來允許存取支援 X.500 模型的目錄，不會引發更複雜的 X.500「目錄存取通訊協定 (DAP)」的資源需求。例如，LDAP 可用來尋找網際網路或企業內部網路目錄中的人員、組織及其他資源。

遠端聯合器 (remote federator)

一種伺服器聯合器，聯合一組可搜尋的物件。

模糊搜尋 (fuzzy search)

一種搜尋方式，可傳回拼字類似搜尋術語的單字。

遮罩字元 (masking character)

一種字元，用來代表搜尋術語的開頭、中間及結尾的選用性字元。遮罩字元通常用來在索引中尋找某個術語的變化。另請參閱萬用字元 (wildcard character)。

憑證 (certificate)

在電腦安全方面，是指將公開金鑰連結至憑證擁有人身分的一種數位文件，藉此可以鑑別憑證擁有人。憑證由憑證管理中心所發行，並由該憑證管理中心執行數位簽署。

憑證管理中心 (certificate authority)

授信的第三方組織或公司，負責發行用來建立數位簽章及公開私密金鑰配對的數位憑證。憑證管理中心可保證獲得唯一憑證授權之個體的身分。

操作員 (operator)

一種使用者，具有權限可觀察、啟動及停止集合層次的程序。

靜態分級 (static ranking)

一種分級方式，已分級文件的一些相關要素會提高等級，例如日期、指向文件的鏈結數等。請對照動態分級 (dynamic ranking)。

靜態摘要 (static summarization)

一種摘要，搜尋結果會包含文件中已指定的、儲存的摘要。請對照動態摘要 (dynamic summarization)。

頻率 (frequency)

指出所查詢文件集中包含給定資料類型值的文件數目。

檔案室 (room)

一種程式，可讓使用者建立文件供其他人閱讀、回應其他人的意見，以及檢閱專案狀態和截止時間。使用者也可以與同一個檔案室中的其他人交談。另請參閱 Lotus Quickr 檔案室 (Lotus Quickr room)。

檔案庫 (library)

一種系統物件，可作為其他物件的字典。另請參閱 Domino Document Manager 檔案庫 (Domino Document Manager library)。

聯合 (federation)

結合命名系統的程序，以便聚集系統可以處理含括多個命名系統的複合名稱。

聯合搜尋 (federated search)

一種搜尋功能，可跨多個搜尋服務來進行搜尋，並傳回一份合併的搜尋結果清單。

斷詞法 (segmentation)

將文字分割成個別的詞彙單元（例如單字、片語、句子、段落或詞形）。另請參閱 n-gram 斷詞法 (n-gram segmentation) 及 Unicode 空格斷詞法 (Unicode-based white space segmentation)。

識別名稱 (distinguished name)

目錄中某個項目的唯一識別名稱。識別名稱由「屬性:值」配對組成，以逗點區隔。另外，也可以指數位憑證中唯一地識別實體的一組名稱/值配對（例如 CN=人名，C=國家或地區）。

鏈結分析 (link analysis)

一種根據文件之間的超鏈結分析結果的方法，可用來決定集合中有哪些頁面對使用者很重要。

類型系統 (type system)

類型系統定義可由文字分析引擎在文件中探索的物件類型（特性結構）。類型系統依據類型及特性來定義所有可能的特性結構。您可以在類型系統中定義任何數量的不同類型。類型系統視網域及應用程式而定。

欄位 (field)

可供輸入特定種類的資料或控制資訊的一個區域。

欄位搜尋 (fielded search)

限於特定欄位的一種查詢。

變音符號 (diacritic)

一種符號，指出一個字元或一組字元的語音值變化。

Boost 類別 (boost class)

一種包含規格的物件，可影響文件在搜尋結果中的相對等級。

Domino Document Manager 檔案庫 (Domino Document Manager library)

作為 Domino Document Manager 進入點的 Domino Document Manager 資料庫。

Domino® Document Manager 檔案櫃 (Domino Document Manager cabinet)

用來組織文件的 Domino Document Manager 資料庫。檔案櫃中存放 Domino 資料庫。

Domino Internet Inter-ORB Protocol (DIIOP)

在伺服器上執行的伺服器作業，可以搭配 Domino Object Request Broker 一起使用，以允許使用 Notes® Java 類別所建立的 Java™ Applet 與 Domino 伺服器之間進行通訊。瀏覽器使用者與 Domino 伺服器透過 DIIOP 來進行通訊及交換物件資料。

IP 位址 (IP address)

網路上使用 IP 標準的裝置或邏輯單元的唯一位址。

Java 虛擬機器 (Java virtual machine，JVM)

處理器的軟體實作，可執行經過編譯的 Java 程式碼（Applet 及應用程式）。

Java 資料庫連線功能 (Java Database Connectivity，JDBC)

一種產業標準，在 Java 平台與各種資料庫之間形成一種與資料庫無關的連線功能。JDBC 介面提供呼叫層次 API 來執行以 SQL 為基礎的資料庫存取。

JavaScript

在瀏覽器及 Web 伺服器中使用的一種 Web Scripting 語言。

JavaServer Pages (JSP)

一種伺服器 Scripting 技術，可在網頁（HTML 檔案）內動態嵌入 Java 程式碼，並於提供頁面時執行 Java 程式碼，以傳回動態內容給用戶端。

Lotus Quickr 工作區 (Lotus Quickr place)

由 Lotus® Quickr® 提供的一種 Web 場地，可讓分散各地的參與者在一個結構化又安全的工作區中，分工合作處理專案並在線上通訊。

Lotus Quickr 檔案室 (Lotus Quickr room)

Lotus Quickr 工作區的劃分區域，僅限於興趣相投且需要一起工作的授權成員使用。

MIME 類型

一種網際網路標準，用來識別透過網際網路傳輸的物件類型。

n-gram 斷詞法 (n-gram segmentation)

一種斷詞法，可將特定字元數的重疊順序視為一個單字。另請參閱斷詞法 (segmentation)。請對照 Unicode 空格斷詞法 (Unicode-based white space segmentation)。

no-follow 指引 (no-follow directive)

網頁中的指引，可指示 Robot（例如 Web 搜索器）不要跟隨該網頁中找到的鏈結。

no-index 指引 (no-index directive)

網頁中的指引，可指示 Robot（例如 Web 搜索器）不要將該網頁內容併入索引中。

Notes 遠端程序呼叫 (NRPC) (Notes remote procedure call, NRPC)

Lotus Notes® 用於所有 Notes 對 Notes 通訊的通訊機制。

Proxy 伺服器 (proxy server)

針對應用程式或 Web 伺服器所管理的 HTTP Web 要求，充當媒介角色的一種伺服器。在企業中，Proxy 伺服器可充當內容伺服器的代理角色。

Robot 排除通訊協定 (Robots Exclusion Protocol)

一種通訊協定，可讓網站管理者向來訪的 Robot 指出不可造訪網站的哪些部分。

Secure Sockets Layer (SSL)

提供通訊隱私的一種安全通訊協定。利用 SSL，主從式應用程式即可採用一種專門防止竊聽、竄改及訊息偽造的方式來進行通訊。

Servlet

在 Web 伺服器上執行的一種 Java 程式，可產生動態內容來回應 Web 用戶端要求，以擴大伺服器的功能。 Servlet 通常用來將資料庫連接至 Web。

Shingle

從句子中取出的一串連續記號（單字）。例如，從 "This is a very short sentence." 中，3 個單字組合的 shingle（或三字組）如下：

This is a
is a very
a very short
very short sentence

統計語言學中可以使用 Shingle。例如，若兩個不同文字有許多共同的 shingle，則這兩文字很可能有某種程度的關係。

Unicode 空格斷詞法 (Unicode-based white space segmentation)

一種記號化方法，使用 Unicode 字元內容來區別記號與分隔字元。另請參閱斷詞法 (segmentation)。請對照 n-gram 斷詞法 (n-gram segmentation)。

Unstructured Information Management Architecture (UIMA)

一種 IBM 架構，定義一套架構來實作非結構化資料的分析系統。

Web 搜索器 (Web crawler)

一種搜索器，可擷取 Web 文件並沿著該文件內的鏈結前進，以此來瀏覽 Web。

XML 路徑語言 (XML Path Language，XPath)

一種語言，其設計是用來唯一地識別或引用來源 XML 資料的某些部分，以搭配 XML 相關技術（例如 XSLT、XQuery 及 XML 剖析器）一起使用。XPath 是一種「全球資訊網協會」標準。