技能分享 | 觀念篇:知識圖譜的基本概述

什麼是知識圖譜?

知識圖譜的概念一開始是 Google 為了優化搜尋引擎所提出來的,推出之後引起了業界轟動,隨後其他搜尋引擎公司也紛紛推出了他們的知識圖譜。知識圖譜究竟是什麼呢?以下帶你完整了解這個你可能不知道,但卻充斥在現代人網路生活的『知識圖譜』大神。

知識圖譜本質上是一種語意網路,最主要的特點是「滿滿大平台」的資訊語意網路,以實體概念或詞彙代表節點(vertex),以關係代表邊(edge)。透過無數的節點和邊組成,每個節點代表一個實體,每條邊為實體與實體之間的關係,進而達到『面』的資訊關聯呈現。簡單來說,就是國小數學老師教的點線面的概念運用在資訊間的關聯。
知識圖譜就是把所有不同種類的信息連接在一起而得到的一個關係網絡,提供了從「關係」的角度去分析問題的能力。

構成方式

知識圖譜是由三元組構成的,三元組分別是實體(Entity)、屬性(Attribute)和關係(Relation)。
具體的表示方法為,實體一跟實體二之間有某種關係,或者是與實體的屬性,或是屬性之間的關係來進行結構化處理。而基於產出的三元組,我們可以推理出新的關係,對於建置「知識圖譜」是非常重要的!

視覺化呈現

舉例來說,當我們搜尋「林志玲老公、林志玲先生、林志玲丈夫」時,搜尋結果不是林志玲本人,而是她老公「Akira」的卡片資料(如下圖所示),原因是知識圖譜已經有了林志玲和 Akira 是「夫妻關係」的認知,所以可以理解到我們要找的是 Akira,而不是林志玲,同時也說明了知識圖譜具有理解意圖的能力。

發展歷程

  • 1950-1970 知識誕生前期:
    符號邏輯、神經網絡,以及語義網絡(Semantic Network)的出現,處於簡單且不具標準的知識表示型態。

  • 1970-1990 專業知識發展時期:
    開始提出各種知識表支持發展技術,人工智慧(AI)開始轉向建立基於知識的一套系統,通過「知識庫+推理技術」實現智慧的專家系統。

  • 1990 至今:
    開始出現人工建置的大規模知識庫,對資料進行了結構化處理。但是資料和知識越來越大,因此導致了通用知識庫越來越多。隨著大規模的知識需要被獲取、整理、以及融合,知識圖譜因而產生。

建置流程

  1. 知識獲得

知識獲得是知識圖譜建置的第一步,把資料從結構化和非結構資料源中獲得實體、關係以及實體屬性的技術。
首先先獲得實體,再來獲得實體的屬性,最後是實體之間的關係。
相關的技術包括:實體獲得、關係獲得和屬性獲得。

  1. 知識融合

透過知識獲得,從半結構化和非結構資料中獲得實體、關係以及實體屬性,但這些結果中可能包含錯誤的信息,以及缺乏邏輯性,為了消除資料間的錯誤概念,我們需要進行知識融合,來確保知識的品質。
相關的技術包括:知識關聯、知識合併。

  1. 知識儲存

經過知識融合,消除了實體與實體之間的錯誤訊息。然而要獲得具有結構化的知識圖譜體系,我們還需要經歷知識儲存的過程。

  1. 知識理解

知識理解是指從知識庫中已有的實體關係資料,進行計算,建立實體間的新關聯。知識理解是知識圖譜建置的重要環節。
通過知識理解,能夠從現有知識中發現新的知識。例如說,甲的孩子為小明,乙的孩子也為小明,那麼甲與乙之間的關係極有可能為配偶關係。

建置的關鍵技術 – 知識獲得

資料源的分為兩種:結構化資料和非結構化的資料。
結構化的資料是比較好處理的,困難在於處理非結構化的資料。而處理非結構化資料通常需要使用自然語言處理技術:實體命名篩選、關係獲得、實體統整、代名詞識別等。

我們要如何將左方文字(非結構化資料)轉為右方知識圖譜呢?(下圖所示)

1、實體命名篩選

依照類型來做篩選,提取文本中的實體,並對每個實體進行分類,比如把文中 “ 1974年11月29日 ” 記為「時間」類型;“ 女藝人 ” 和 “ 模特兒 ” 記為「職業」類型,這個過程就是實體命名篩選。

2、關係獲得

是把實體間的關係獲得出來的一項技術,主要是根據文章中的一些關鍵詞,如“出生”、“在”、“身分”等,就可以判斷實體之間的關係。

3、實體統整

比如説在文章中可能同一個實體會有不同的寫法,比如說​​ “ Lin Chi-Ling ” 就是林志玲的英文名,因此 “ 林志玲 ” 和 “ Lin Chi-Ling ” 指的就是同一個實體。

4、代名詞識別

比如説在文章中的 “ 她 ” 其實指的就是 “ 林志玲 ” ,代名詞識別就是找出這些代名詞,指的就是哪個實體。

未來發展

在上述的介紹中,我們可以得知知識圖譜的相關基本概念,以及知識圖譜是如何產生的。
然而,隨著知識的不斷累積和知識獲得技術的演化下,知識圖譜在人工智慧(AI)的應用上有無限的發展可能。在後續的文章中,我們也會再深入探討如何實現具有認知思維能力的知識圖譜。

參考資料:

對「技能分享 | 觀念篇:知識圖譜的基本概述」的一則回應

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com 標誌

您的留言將使用 WordPress.com 帳號。 登出 /  變更 )

Google photo

您的留言將使用 Google 帳號。 登出 /  變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 /  變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 /  變更 )

連結到 %s