技術分享 | 人工智慧(3):人工智慧的分支技術 – 機器學習 Machine Learning

人工智慧與機器學習的關係

SourceZones 的產品大量應用「人工智慧」及「機器學習」,但是很多人將這兩者混為一談。究竟這兩者有什麼分別呢?他們又是在做什麼?我們將跟大家解釋一下,人工智慧及機器學習的差異性。人工智慧(Artificial Intelligence,AI)這一詞早在1950年代就出現了,是希望機器和人類一樣聰明,但是在當時的技術並沒有辦法做到。1980 年代以後,有了「機器學習」的技術,讓電腦像人類一樣具有學習的能力,通常先進行分類,才能分析、理解,再進行判斷,最後才能採取行動。

如果你還是不懂,那這樣說吧!「人工智慧」是我們想要達到目標延伸出的新技術;「機器學習」是我們為了達成目標所開發出的手段;其中,「深度學習」又是機器學習的一種方法。從下圖中我們可以看到,人工智慧其實是一個很大的集合,機器學習是人工智慧中的技術,深度學習又是機器學習中的小技術。

機器學習(Machine Learning,ML)

什麼是「機器學習」呢?機器學習是一種「人工智慧」可以自我學習的技術,讓機器從資料中自行學會技能。透過處理並學習大量的原始資料,使用演算法抽取特徵值,建構出學習模型。因此它們擁有大量的知識,來解決問題。此外,機器學習還可以往下延伸探討,包括深度學習、非監督學習、監督式學習以及強化學習。

機器是怎麼從資料中學會技能的呢?要先從「分類」(Classification)開始。以最簡單的貓夠為例,我們想要訓練機器分辨「貓」與「狗」的差異,要如何開始呢?首先我們必須先蒐集了「貓」和「狗」的樣本資料,作為機器的訓練資料(Training Data)。再從訓練資料中擷取出資料的特徵(Features),比如說貓與狗的顏色、外觀等。把貓的資料標籤(Label)為 1、狗的標籤(Label)為 0。由此讓機器知道哪些是貓、哪些是狗,以幫助我們判讀出目標。除此之外,也可以從過去的天氣資料中、找出有下雨的天氣特徵,以進行氣象預測。或是垃圾郵件判別、股市漲跌預判 、醫療病徵判斷等,各產業領域皆可應用機器學習之技術。

機器學習的七大步驟

1、收集資料(Gathering data )

為了要「訓練模型」,我們比須從收集資料開始,且所有的資料都要「結構化」,讓電腦可以讀懂資料。

2、準備數據(Preparing data)

在準備數據的過程,應該先做「資料清理(Data Cleaning)」的動作,乾淨的數據是在前置作業中非常關鍵的步驟。透過特徵萃取(Feature Extraction)以及特徵選擇(Feature Selection)去決定什麼樣的特徵對訓練是有效的。SourceZones KYCRIGHT™ 資料庫,提供了完善的資料梳理流程,達到資料品質的保證。

3、選擇模型(Choosing model)

根據需要被解決的問題及擁有的資料類型,來進行衡量評估,選擇合適的機器學習模型。

4、訓練機器(Training)

透過演算法來訓練機器,讓模組可以更上一層樓。

5、評估分析(Evaluation)

針對模組訓練結果進行評估及分析。

6、調整參數(Hyperparameter tuning)

如果訓練結果跟預期不同,將進行參數上的調整,重新訓練。經過多次的訓練後,我們可以統計並分析訓練結果,提高準確性。

7、預測推論(Prediction)

當你覺得你的訓練模型已經十分成熟,就可以進行進行預測了!透過輸入的參數,以訓練模型計算後,預測出答案。

延伸:深度學習(Deep Learning,DL)

深度學習是機器學習的分支,利用多層的神經網路自動擷取出資料的特徵(Feature extraction),以擷取的特徵為基礎,加上大量資料的過濾與學習,進而提升辨識的精確程度,也是一種特徵學習(Feature Learning)。深度學習可以取代專家的特徵工程所花費的時間。擁有強大的自動特徵抽取的能力,深度學習突破了以往機器學習無法完成的事,將不可能變成可能!

深度學習適合用來分析較複雜的數據,比如影像、音訊、影片、時間序列和文字檔等,近年在各行業開始出現廣泛的應用。

  • 自駕車的導航系統,可以識別路標、交通號誌和道路狀況,協助駕駛路程順利。
  • 協助醫療業判讀醫療影像,尋找新藥組合,提供醫療資訊。
  • 透過分析顧客過往的網路行為歷史,預測、推薦顧客可能會需要的產品或服務。
  • 機器故障預測,以深度學習演算法分析,預測機器什麼時候會故障,避免事故發生。

機器學習 vs 深度學習的差異

在機器學習中,特徵通常是透過由人力撰寫的演算法產生出來的,需要經過各領域的專家對資料進行許多的分析及研究,了解資料的特性後,才能產生出有用、效果良好的特徵。

深度學習不一樣的是,在特徵擷取的部分,都交給神經網路去處理,讓它在不斷地反覆運算中逐漸萃取出所需要的特徵,不斷改進模型,最後產生預測模型。這個步驟需要大量的反覆運算,也就是為什麼深度學習領域這幾年突飛猛進的原因!

我們再拿「貓狗辨識」舉個範例,

機器學習:資料→特徵萃取→分類→結果

經由人工判斷,從大量的貓狗資料中萃取特徵資料,從萃取出的資料中訓練模型,然後用最終的模型去辨識貓和狗。

深度學習:資料→分類(特徵萃取自學)→結果

深度學習不同的是,捨去人工標記的特徵萃取,使用多層的神經網路自動從資料中學習這組資料可以做什麼樣的特徵擷取。因此貓跟狗的特徵是根據提供的資料,模型自己去學習貓跟狗在特徵上的差異。

如何讓機器學得更好

大家都會訓練機器,但要怎麼訓練出品質良好的機器呢?最重要的是:資料的乾淨度。資料就像是飼料一樣,把機器當作飼養雞,我們把資料喂進去,如果這些資料是複雜且錯誤的,等於將不健康的飼料餵入,最終養出來的雞,會與預期有很大差距。因此,資料的豐富度及準確性,經常影響到機器最終的判讀。此外,要讓最終的訓練結果達到最佳化,也需要考慮到其他因素。SourceZones 團隊以多年的經驗,建構出一套「讓機器學得更好」的方式:

  1. 提供具有品質的數據資料
  2. 分析市場需求,有效地訓練新模組
  3. 建置多方位類型的模組開發,增加資料準確性
  4. 聆聽使用者與客戶回饋,做模組的改善

為了讓機器更加成熟,SourceZones 團隊打造出領先的技術架構,並持續針對市場需求做優化。我們的產品大量的應用了人工智慧、機器學習、自然語言理解以及知識圖譜等技術,協助企業克服資料整合的困難度,及解決資料的複雜性。希望您在看完這篇文章後,能更加了解人工智慧下的技術!如果您對人工智慧技術有興趣了解,更多相關服務詳請請見:SourceZones產品資訊

對「技術分享 | 人工智慧(3):人工智慧的分支技術 – 機器學習 Machine Learning」的一則回應

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com 標誌

您的留言將使用 WordPress.com 帳號。 登出 /  變更 )

Google photo

您的留言將使用 Google 帳號。 登出 /  變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 /  變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 /  變更 )

連結到 %s