新聞中心/行業動態/優質的資料是呼叫中心人工智能創新的基礎

優質的資料是呼叫中心人工智能創新的基礎

  人工智能和機器學習是2017年兩個最熱門的技術術語 ,在呼叫中心行業尤甚。這并不難理解,因為這些技術的潛在優點是令人興奮且深刻的。但是,人工智能和機器學習其實都仰賴于其他的基礎技術,以達到他們所承諾的結果。因此,人工智能領域內的創新受制于其他技術的限制。

  獲取高品質、可用資料是影響人工智能發展的一個重要因素。即使人工智能正享受著聚光燈下的時刻,大數據領域內的創新對人工智能技術的持續發展變得比以往更加重要。

        第三階段人工智能中的資料完整性

  人工智能發展的歷程可以分為三個階段。第一階段人工智能的特點是優化和“知識工程”程式,它幫現實世界的問題找到了有效的解決方案。第二階段人工智能的特點是機器學習程式,立基于統計概率的自動模式識別。現在,我們已經進入了人工智能的第三階段:假設生成程式,或稱“上下文正常化”。第三階段人工智能程式有能力檢查巨大的資料集,識別統計模式,并創建解釋模式存在的演算法。

  近年來,人工智能專案在復雜資料集的分析能力上有了長足的進步,并產生了新的洞察力--甚至是那些跳脫人類分析家的洞察力。當IBM機器人「華生」(Watson)在美國電視益智問答節目「Jeopardy!」擊敗人類競爭者時,它使用了先進的自然語言處理和廣泛的常識。

  制藥公司,如嬌生公司和默克藥廠已經開始投資在類似于第三階段的AI技術,以獲得超越競爭對手的優勢。制藥公司采用這種技術已有重大發現,如雷諾氏病患與魚油之間的關系。人工智能還有可能透過減少昂貴和耗時的錯誤,戲劇化地加速藥物開發過程。

  當然,AI也遭受了幾次高度公開的失敗。許多這些失敗的原因,如IBM「華生」和休斯敦安德森癌癥研究中心(MD Anderson Cancer Center),在人工智能領域是一個相當突出的問題:資料集的完整性。在華生的案例中,當安德森癌癥研究中心改變其電子病歷軟體系統,華生就無法與新資料庫互動,需要額外整合才有辦法運作。

  全要靠資料

  如果不能獲取可進行分析和產生洞察力所需的資料,那么無論人工智能和機器學習演算法再怎么進步也是于事無補的。

  由于生物資料集的深度、密度和多樣性等因素,使得生命科學資料集是眾所周知的不足且難以處理。因此,生物研究在很大程度上須依賴手工策劃的資料集,必須創建和清理,以測試人工設想的假說。在這一高度手動的過程中所涉及的工作提高了研究成本和生物醫學產品的成本,如疫苗和生物技術。這一過程的耗時性意味著在學術期刊上發表結論時它們可能已經過時了。

  在這種緩慢、低效和容易出錯的方式下創建和分析生物資料集,研究人員無意中造成了一個巨大的問題,即出版物的偏差和醫學資料的不精確性。

  有偏見和有缺陷的資料集是第一和第二階段AI程式的一個問題,但是第三階段AI軟體受這些限制的影響最大。例如,在醫學術語中縮寫的問題。一個縮寫經常有各種各樣的意思-“Ca”,根據它的上下文,可能意味“癌癥”或“鈣”。第三階段AI程式依賴復雜的上下文資訊來執行,而雜亂的、手工策劃的資料集降低了這些程式的有效性。

  資料的改變

  美國國會甫于今年(2009年)2月所通過的「經濟與臨床健康資訊科技法」(The Health Information Technology for Economic and Clinical Health Act, HITECH)開創了無處不在的電子病歷系統的時代。因此,現在有了豐富的資料集,包含即時、全面的生物資訊。這些新的資料集正在與生物專利、臨床試驗、立法機構、學術論文以及創新生態系統中的其他來源一起結合,以創造復雜的生物資料池。

  直到最近,由于人類在很大程度上的努力清理和組織資料使得這種大量的非結構化資料才對計算程式有用。但現在,AI現在已經進步到足以使用先進的演算法分析異構資料并結合機器學習、自然語言處理和先進的文本分析。我們已經從一個過時的、不完整的、不可獲取的資料世界進入了一個新的模式,AI可以構造以前非結構化的資料來進行即時分析和上下文正常化。

  第三階段AI為我們提供了干凈、集中的資料,反映了生物系統的復雜性。透過分析這些資料,我們可以深入了解當前的生物醫學環境。


注明:文章轉自CTI論壇

設置
香港六合彩走势图