資料科學家的工作日常1 - 在資料和程式中挖掘商業價值

ARON HACK 亞倫害的
·
(修改过)
·
IPFS
·
雖然數據分析師是新職位,但數據分析或是資料分析的概念一點都不新。公司裡面行之有年的職位,不管是行銷、業務、採購、倉管,每個職位都需要數據,也都需要分析。隨著大數據、資料科學、機器學習、AI等酷炫的新名詞、新技術與新應用出現,所需的知識與技能多到員工爆肝也學不完。

系列文章

〈資料科學家的工作日常1 — 在資料和程式中挖掘商業價值〉
〈資料科學家的工作日常2 – 求職前必須了解的公司組織編制〉
〈資料科學家的工作日常3 – 建立資料團隊的文化與程式規範〉

我在2019年年中進入零售業擔任資料科學家後,偶爾會有朋友或是朋友的朋友詢問相關工作內容及產業情況。畢竟資料科學家是與數據分析師比較新的職業,還有一些神祕色彩,許多人甚至連聽都沒聽過,還以為是數據分析師是股票分析師另類職稱。雖然確實有人將數據分析應用在股價預測上,但這是另一個故事了。

這篇文章會盡量拿掉所有專有名詞,用人話說明資料科學家的工作日常,提供一些總覽性的介紹,至於其他較實務面的細節與心得會留到之後的文章再分享。

數據分析的職位有三種

數據分析這個學門統稱為資料科學(Data Science),常見的職位有資料工程師(Data Engineer)、資料科學家(Data Scientist)和商業分析師(Business Analyst)。這裡先簡單說明這三者在能力要求上的差別,我所採取的定義是參考加拿大的資料科學媒體Towards Data Science的〈Data Engineer vs Data Scientist vs Business Analyst〉

如下圖所示,資料工程師最重要的技能是電腦科學能力,也就是台灣所說的資訊工程,他們所做的事情是收集、清理並準備好所有的資料,讓另外兩個角色可以方便取用資料。

資料科學家需要有較強的統計學知識,並且通常需要具備建立機器學習模型的能力,這也是這系列文章的主要角色。另外補充一點,資料科學家通常是建立機器學習模型的原型,並讓機器學習工程師佈署,可以參考一樣是Towards Data Science的〈Data Scientist vs Machine Learning Engineer Skills. Here’s the Difference.〉

商業分析師,也稱為數據分析師,更著重在數據與商業面的結合,最核心的技術能力是使用SQL從資料庫抓取所需的資料,並提供商業分析與洞察, 通常不太需有要建置機器學習模型的能力。

以上所述的分工雖然細緻,但實際上不會每間公司都有這麼完整的編制及分工。在國外如此,在台灣當然也是如此。

台灣的資料科學業界生態

在台灣,雖然資料科學家是新職位,但數據分析或是資料分析的概念一點都不新。公司裡面行之有年的職位,不管是行銷、業務、採購、倉管,每個職位都需要數據,也都需要分析。隨著大數據、資料科學、機器學習、AI等酷炫的新名詞、新技術與新應用出現,所需的知識與技能多到員工爆肝也學不完,光是學會熟練的運用程式語言就是個挑戰。因此,資料科學家開始被視為一個獨立的職位,甚至一個獨立的部門。

以產業來看,較注重數據分析的產業則有零售業、金融業、科技業、廣告業等。

(1) 組織劃分

由於這個職位出現的時間還不長,大家對於資料科學家還缺乏共同的定義。所以A公司的資料科學家可能偏向軟體開發,B公司的資料科學家可能隸屬市調部門,C公司的資料科學家可能掛在IT部門。因此,如果你想找數據分析或資料科學相關的工作,建議不要只看職稱,最好詳細看一下工作內容和所需能力,相對的,面試官在評估應徵者的能力時,也會著重在實際的專案經驗與能力。

我所在的單位則是獨立的分析部門,協助其他單位作商業上的決策,算是輔助型的單位,或說是智囊團、師爺類型的角色。可以說我們的服務是數據分析,而我們輔助的部門則是客戶,要怎麼了解客戶需求,協助顧客達成商業目標的服務,是我們主要的價值所在。

(2) 能力需求

除了所屬單位外,每間公司的資料科學家所需的技能也不一樣。有些分析師可以用Excel打天下,有些主要製作資料視覺化圖表,呈現出好懂、美觀,甚至具有互動工具的資料儀表板。另外有一種,也是比較接近我定義中的資料科學家,他們要寫程式,需具備一定的IT知識,要學統計和演算法。這種分析師有點像是IT,但又和IT不一樣。IT的工作通常是系統規劃、軟硬體維運和功能擴充,但資料科學家則是要在一堆資料中發掘未知的商業價值(Unknown Insights)。

未知的商業價值是什麼?可以講人話嗎?

數據分析與資料匯總

在講商業價值之前,先來談談數據分析(Data Analyze)或資料探勘(Data Mining),與資料匯總(Data Processing)之間的差異。一樣都是處理資料,因目的不同,又可以分成資料匯總與數據分析。前者總結已知事件,後者為了做出影響未來的決策,也就是預測。

舉例來說,如果你手上有一間服飾店的消費資料,你想知道過去一個月中哪些商品的營業額最高,這就是資料匯總。你的目標很明確,「挑出營業額最高的商品」,實際的操作步驟則是將所有商品的營業額分別算出來,然後挑出最高的那一個,結束。

假如你想知道的是,過去一個月中銷售最佳的這支商品,是不是因為促銷活動導致銷量爆增?促銷活動對這支商品的影響又是多少?以後的促銷活動適不適合再加入這支商品?這個問題明顯困難很多,不是因為它有三個問號,而是增加了許多必須考量的面向。

首先,我們要先知道這支商品在沒有促銷活動期間的銷量,並與促銷期間的銷量作比對,確認促銷活動對這支商品有正面影響。

其次,重複上個步驟,但我們要進一步計算促銷活動對於全部商品的影響。如果促銷活動平均可以提升全部商品20%的業績,卻能提升這支商品30%的業績,我們就可以初步判定這支商品適合做促銷。

說是初步,因為還有其他的細節需要考慮,像是商品毛利率。如果這支商品的毛利率本身就比較低,舉辦折扣促銷後毛利變得更加殘不忍睹。即使帳面上業績很漂亮,但這些都是不賺錢的生意,大家白忙一場。

排除以上原因後,建議你也不要信心滿滿的下結論,「這支商品很適合做促銷」,因為你老闆可能會一臉不爽的回答,「這個商品是羽絨衣,現在剛進入冬天,銷量當然會爆衝啊,就算不做促銷應該也很好賣吧?」。你可能要進一步考慮季節性因素,表面上你一樣在處理資料,但這時候你的問題會變成「季節性和促銷活動,哪一個對羽絨衣的業績正面影響較大?」

在實際的工作流程中,資料匯總是必經的過程,但能不能實際達到數據分析或或資料探勘的層次,並促成有價值的商業行動,我認為這就是資料科學家的價值之所在。


到ARON HACK網站看完整文章〈資料科學家的工作日常1 — 在資料和程式中挖掘商業價值〉

CC BY-NC-ND 2.0 授权

喜欢我的作品吗?别忘了给予支持与赞赏,让我知道在创作的路上有你陪伴,一起延续这份热忱!