技能分享 | 人工智慧(5):人類和機器之間溝通的橋樑!NLP!

在前面幾個章節中,我們介紹了人工智慧、機器學習以及深度學習,接著我們將帶您了解更深入的另一項技術應用。在人工智慧的發展過程,除了讓機器能夠擁有學習能力外,讓機器具備理解的能力,也是十分重要的一環,這就是「自然語言處理(Natural Language Processing,NLP)」。然而在亞洲地區,對於中文的語言處理並未成熟,我們該如何消除這項隔閡呢?讓我們的技術更上一層呢?SourceZones 將帶您深入挖掘這塊自然語言處理的領域,讓我們一同往下看吧!

程式語言與自然語言?

程式語言是人類為了與機器溝通,而設計出的語言,例如 JavaScript、Python 等;而自然語言是人類日常溝通時所說出來的語言,比如文字、音樂等。「自然語言處理」的目標,在於讓機器可以理解或是運用人類的語言,成為「機器」與「人類」之間的溝通橋樑。

什麼是自然語言處理(NLP)?

自然語言處理(NLP)是一種透過複雜的數學模型及演算法來讓機器去認知、理解並運用我們的語言的技術。透過斷詞、理解詞以及分析句子等步驟,將複雜的語言轉化為機器容易處理並計算的形式。早期的 NLP 技術主要基於統計的概念去訓練模型,透過人工方式進行特徵進行特徵提取及選擇後訂出規則。但是這種方式無法有效地辨識複雜的文法結構。隨著深度學習與演算法模型的突破,現在的 NLP 技術則是設計出模組,讓機器自主學習,改變了過往訓練模式。

目前最廣為研究人員使用的演算法模型即是 BERT, BERT 模組能夠預先訓練演算法,雙向地去查看前後字詞,進而推斷出完整的上下文。這樣的方式不同於以往的模型訓練,更能夠全面地連結上下文,有效幫助系統在文本上的理解與生成。我們 SourceZones 團隊便是運用最新 BERT 主動式閱讀新聞資訊擷取重要資訊,達到協助使用者提升盡職調查作業品質,並且提供早期預警高風險新聞資訊與客戶資訊。更多產品介紹詳情請見 KYCHECK™ 一站式平台

NLP = NLU + NLG

NLU 負責理解內容,NLG 負責生成內容。

自然語言理解(NLU)

自然語言理解(Natural Language Understanding)的目的在於將自然語言轉換成讓機器能夠讀懂的語言,並提取有用的資訊,以幫助後續進行分類、分析及搜索等任務。若要讓機器能夠理解自然語言,我們必須分析句子中的「語音、音韻、詞法、句法、語意和語用」,以達到訓練模組之目的。

自然語言生成(NLG)

自然語言生成(Natural Language Generation)則是將非語言格式的資料,轉換成人類可以理解的語言的形式輸出。簡單來說即是將只有機器看得懂的資料架構,像是 0101010101 的機器語言,轉化成人類能理解的字句。

NLP 普遍應用

隨著近年來 NLP 技術更加成熟,機器能夠 24 小時不間斷工作,將驅動 NLP 更多廣泛的應用,為產業創造更多價值。

偵測詐騙郵件

商業電子郵件詐騙(Business Email Compromise,BEC)是近年新興的全球性資安危機,造成許多企業損失慘重。透過 NLP 技術可以分析詐騙內容特徵及預測未知威脅,一旦偵測到可疑信件就提供預警,以幫助企業提高詐騙郵件攔截率,加強資安的防禦。

機器翻譯

運用機器將書面或是聲音形式的自然語言,翻譯成另一種的自然語言,這個過程稱為機器翻譯。

聊天機器人

取代以往的客服人員在線上隨時待命,聊天機器人能夠全天候提供即時服務,也能更精準地提供產品資訊與個人化的服務,成為企業豐富消費者體驗的強大工具。

文件分析

文本生成是很早被運用的一項 NLG 技術, AI 擅長即時處理並應用大量數據,機器能夠不斷瀏覽不同來源的資料並編寫文件。近年來也協助醫療領域,幫助醫生們閱讀新出的醫學報告、篩選醫學文獻,找出病患的病徵。

人名辨識擷取

透過NLP技術,我們可以將文章中的人名,自動辨識後並擷取出來,以利文章語句上的判讀。

NLP 的難點

在發展 NLP 的過程中,SourceZones 發現因為中英語言差異的關係,造成了許多執行上的困難點,我們整理了三大難點並分析:

  1. 語言具有多樣性
  2. 語言缺乏規律性
  3. 語言表達方式的差異

由於亞洲地區在人工智慧上的起步較慢,SourceZones 在三年前開創自然語言處理(NLP)在中文語言上的發展,我們透過多年的實務經驗,發現臺灣中小企業在資源上以及資金上的不足,造成他們在技術上往往不如大企業公司,進而導致歇業的情況。SourceZones 透過多年在人工智慧、機器學習、自然語言處理以及知識圖譜等技術,打造優良的服務,協助企業解決這些困難。導致歇業或賠錢的實例是什麼?

NLP 可以幫助金融機構什麼?

NLP 的發展在近年來大家都是有目共睹,為許多企業達到運營上的效率提升以及成本的降低,更增加了許多顧客體驗。SourceZones 在金融機構上,也提供最佳的服務,比如說我們透過 NLP 技術進行大量非結構化文件分析,協助客戶蒐集從自然人資料、法人資料、新聞文章、文件及其他來源的文字中探索意義和關係,達到風險分析及探勘之目的。通常可以用於反洗錢追蹤(Anti-Money Laundering,AML)、KYC(Know Your Custumer)及犯罪追蹤等,以降低企業之風險成本,達到協助使用者提升盡職調查作業品質。

相關文章

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com 標誌

您的留言將使用 WordPress.com 帳號。 登出 /  變更 )

Google photo

您的留言將使用 Google 帳號。 登出 /  變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 /  變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 /  變更 )

連結到 %s