我的業務要不要用人工智能?引入AI前你需要評估的(二)

這是一個系列文章,從各個角度來評估一個問題:“我的業務要不要用 AI ?能不能用 AI?” 本期評估角度——數據。
我的業務要不要用人工智能?引入AI前你需要評估的(二)
這是一個系列文章,從各個角度來評估一個問題:“我的業務要不要用 AI ?能不能用 AI?”本期評估角度——數據。

底層邏輯:數據驅動

基于規則的舊時代

在人工智能普及之前,大家用的產品都是「基于規則」的。

人工智能之前都是基于規則

我們通過總結規則,然后讓計算機自動的執行這些規則,我們日常工作和生活中很多問題都是基于規則來處理的,比如:

  • Excel 中的各種公式的規則就是:將選中的區域進行計算
  • 郵件的規則就是:將內容發給收件人
  • 公眾號的規則就是:將關注的公眾號內容推送給你

基于規則的好處就是:所以人都能知道在什么情況下得到什么結果,一切都是可以預判的。

但是基于規則的方法也有很大的弊端:很多問題,很難(甚至無法)總結出有效的規則。

基于規則的優缺點

基于數據的 AI 時代

人工智能發展到現在(2019年),最核心的底層邏輯是:「基于數據」。

基于數據的AI時代

規則能很好解決的問題當然是用規則來解決,因為他的成本低,可解釋性強。但是很多問題沒有有效個規則,這個時候人工智能的價值就凸顯了。

「基于數據」的方法簡單說就是:從海量數據中找規律,這些規律是很抽象的,并不能總結成具象的規則。比如:

  • 給機器看海量的貓和狗的照片,它就具備了「區分貓和狗」的能力
  • 給機器海量的中英文對照文章,它就具備了「中英文翻譯」的能力
  • 給機器海量的文章,它甚至可以具備「寫文章」的能力

基于數據的好處是:只要有足夠多的優質數據,那么機器就能學會某些技能,數據越多,能力越強。

但是基于數據的方法也有明顯的弊端:機器只能告訴你「是什么」,但是無法告訴你「為什么」。

基于數據的優缺點

easyai公眾號

擴展閱讀:

「2019更新」什么是人工智能?(AI的本質+發展史+局限性)

自然語言處理為什么從規則轉到統計的方法?

人工智能》有詳細介紹這段歷史

想要用 AI,需要知道數據金字塔

上文已經說明了「基于數據」的邏輯,那么支撐這個邏輯的就是「數據」。

沒有數據,就無從基于數據。所以想要用人工智能,需要考慮業務場景的數據3要素:

  1. 數據可獲取
  2. 數據全面
  3. 數據多

他們3個類似金字塔的結構,先有「數據可獲取」再談「數據全面」,有了「數據全面」再談「數據多」。

數據評估的3個要素

數據可獲取

想要解決問題,就需要具備「跟這個問題相關的數據」。比如上面提到的例子:

給機器看海量的貓和狗的照片,它就具備了「區分貓和狗」的能力。

這里需要的數據不光是照片本身,還需要將照片里的貓和狗標注出來,如下圖:

有時候需要對數據進行標注

所以,你要考慮的問題是:

  1. 我遇到的問題有哪些影響因素?
  2. 這些影響因素是數字化的嗎?如果不是,能否數字化?
  3. 這些數據是否可以獲取?成本高嗎?值得嗎?

數據全面

假如我們只能看到 10% 的照片,現在讓你區分照片中是貓還是狗,這會非常難。如下圖:

看照片10%很難判斷貓還是狗

當我們能看到照片的 50% 時,還能猜一下。

看到照片的 50% 時,還能猜一下

當我們可以看到100%的照片時,就信心十足了。

看到100%的照片時,就信心十足了

人是如此,機器也是如此,你都不讓我看全,我怎么分析啊!

所以,當我們想要利用人工智能技術來解決實際問題時,你需要仔細分析這個問題:

  1. 到底有哪些影響因素?是否有對應的數據?
  2. 有數據的因素是否足夠全面?
  3. 關鍵因素的數據有遺漏嗎?

數據多

還是區分貓和狗的例子。貓大概有40多個品種,狗大概有接近200個品種。并且照片可以從不同的角度,不同的背景,不同的光線下拍攝,會產生無數種組合。

想要有效的區分貓和狗,需要大量的不同的照片才行。kaggle(很權威的 AI 競賽網站)上有很多區分貓和狗的訓練數據,大部分都是上萬的量級(1w+的貓和1w+的狗)。

到底多少算夠用呢?

區分貓和狗這種非常簡單的任務都需要上萬的數據,對于更復雜的任務,就需要上百萬甚至上億的數據。具體要多少跟你要解決的問題復雜度,模型選擇,預期結果都有關系。

不過有一條原則是不會變:數據越多,效果越好!

數據越多,效果越好

案例分析

假如你是游戲公司的老板,想利用人工智能技術提升游戲的收入,從數據角度評估一下是否可行?

電商平臺通過推薦算法可以讓購物者花更多錢,那么在游戲里結合推薦算法,理論上也可以讓玩家花更多的錢。

推薦算法的本質是:挖掘用戶需求,將匹配需求的商品推薦給用戶。

應用到游戲里則是:挖掘用戶的需求和他的消費能力,將匹配需求的道具,以合適的價格推薦給用戶。

挖掘用戶的需求和他的消費能力,將匹配需求的道具,以合適的價格推薦給用戶

第一步:數據是否可獲取?

游戲算是數字化程度很高的領域了,但即便如此,還是有部分因素并沒有數據化。比如:

  • 一些游戲玩家都會在微信群里聊天和互動,這部分數據游戲是沒有的
  • 老婆發現老公在游戲里泡妞,被迫卸載了游戲。這種游戲外發生的事情有時候也會影響到游戲內。
  • 玩家的心理活動也是沒有數據的(這次活動打折好厲害,但是我要忍住!不然又要吃一星期泡面了~)

夠不夠用呢?下一步全面性的時候再分析。

「數據可獲取」看似是一個很白癡的問題,但是很多行業的數字化程度非常低,這個問題對于他們來說并不簡單。

第二步:數據全面性是否夠用?

想要判斷玩家的需求和消費能力,大致有下面一些影響因素:

  1. 用戶屬性玩家屬性(年齡、性別、地理位置…)角色屬性(等級、裝備情況、剩余鉆石數量…)
  2. 行為數據游戲行為(買過什么東西、參與過什么玩法、打過什么副本…)消費行為(活動頁面停留時長、買過什么東西、花過多少錢…)玩家互動(跟誰組過隊、跟誰打過架、跟誰參加過活動…)聊天數據(跟誰、說過什么話、游戲內+游戲外)心理活動(想要什么、喜歡什么、覺得多收錢值…)
  3. 商品屬性商品價格商品作用商品特點購買條件
跟玩家消費相關的因素

還是參考電商的經驗,亞馬遜、阿里巴巴都已經驗證過:

在缺失「聊天數據」「心理活動數據」「電商平臺外數據」的情況下,依然能有效的挖掘出用戶需求,刺激消費。

而游戲不但有推薦的權利,還有定價權,可以通過降價進一步的刺激消費。所以全面性角度是 OK 的。

PS:所以在全面性的評估上,不需要理論上 100% 全面,而是達到可用的程度即可,這個事前只能找案例參考。

第三步:數據夠不夠多?

推薦系統是一種特殊性的情況,他對數據量的要求很有彈性,在數據量少的事情有很多手段來解決冷啟動的問題。隨著數據量的增多,算法的作用逐步加大。

一個新用戶下載了淘寶,依然不妨礙推薦,只不過用的越多推薦的越靠譜一些而已。

PS:在評估數據是否足夠時,盡量找經驗豐富的技術咨詢一下。

所以,經過3個數據角度的評估,「通過推薦算法提升游戲收入」的設想應該是可行的。

總結

評估能不能用人工智能技術時,「數據」可以說是最重要的一個維度。

具體評估時,想清楚下面3個問題:

  1. 數據可獲取嗎?
  2. 數據全面嗎?
  3. 數據多嗎?

3個問題需要同時滿足,才算是「貌似可行」。

在評估「要不要用」和「能不能用」人工智能時,需要考慮很多問題。這個系列還會持續更新,關注我的公眾號查看所有內容:

公眾號:打不死的小強(xiaoqiang-me)


0條評論 添加新討論

登錄后參與討論
Ctrl+Enter 發表