【學習記錄 | 本週總結】 Week 24 - 抄抄抄 問問答答

coletangsy
·
·
IPFS
·
開始上網爬取各種資料,然後又上Kaggle 開始進行分析練習

星期三收到半個月前寫給自己的電郵,以下是部分內文截取:

「然後額外要處理的事情包括了Kaggle 上的數據分析練習、Leetcode 上的編程練習、一系列的使用Figma、Tableau 制作圖表的練習、以及定期寫下Matters的紀錄。啊,我今天得在Matters 上把我更新後的計劃記錄下來才行!」

看完的第一個想法就是「啊,先由Kaggle 上的數據分析練習開始吧。」


本週總結

  1. Web-scraping 項目完成,個人的Web-scraping 小項目第一部分也完成~
  2. 完成人生第一個 Kaggle 數據分析項目!




內容及反思

Web-scraping

本週跟同學一起完成了一個簡單的 Web-scraping & Data Analysis Project,我們好奇的是數據分析、UXUI、網絡安全 這三個職業在 APAC 的職缺數量,所以決定爬取求職平台上的空缺職位。當然目前我們爬取到的數據仍不夠全面,在爬取的過程中亦遇到很多問題,個人而言好像整段 code 都要修改才行(當然,我們約好,如果有空,可以繼續改進我們的 code)。

但是,在有限的數據下,我們仍發現一些挺有趣的東西(注意,我們的取樣還不夠全面,所以不一定準確)。在數據分析、UXUI、網絡安全 三種職位中,新加坡對於 網絡安全 的需求遠超其他兩種;而印度對UXUI 的需求比數據分析和網絡安全高。

我們組員再就著這兩個發現,搜集更多資料去嘗試解釋。更多的就先不說,待過幾天整理完放上Github 時再說(是的雖然完成了發表,但我還沒整理文檔)。

另外,這幾天晚上我也抽了點時間出來,開始爬取 英雄聯盟 PCS 賽區 的官方數據,爬取的項目內容都應該會更新到 Github 。說起來挺有趣,我本身不是一個英雄聯盟的玩家,如果問到很仔細的遊戲內容,其實我回答不上。但是就是喜歡看英雄聯盟的比賽,特別是台港澳賽區,也就是以前的LMS,現在合併後的PCS。如果有時間我都會在網上平台上收看比賽直播。

會開始爬取比賽數據,原因之一是用自己感興趣的東西來練習,會更有動力;二是因為曾經看到某一隊職業隊的分析師有一個超級了不起的數據庫及面板,那時候我就想著,有一天我也要把我的知識用在我感興趣的LOL 上。所以現在先把資料爬取下來,之後待學會制作dashboard 後,可能就可以弄出一個類似的東西來!

現在先把官網的數據都爬取了下來,下一步應該是爬取第三方記錄網站上的比賽記錄。按照目前的預想,只要有了完整的比賽記錄,其實應該可以計算出官網上的數據。所以爬取官網只是一個小小的起步練習,之後的才是真正的內容。


Kaggle 數據分析

有關 Kaggle 數據分析的題庫(?),我也忘了是從哪個地方看到的,我想可能是Kaggle上的討論區帖文。大概看了一眼,個人推斷目前以自己的知識水平,應該足夠應付當中5個數據分析項目,當然還有更多沒在帖文上的Dataset 等待我去發現。

看來這週的晚上,我可做了不少事情。我也是在晚上,完成了當天職缺爬取分析項目的內容後再做 CardioGoodFitness 分析。這一份其實與我Google Data Analytics Professional CertificateCapstone Project 有點相似。看來之後可以應用同一個分析流程,只是使用的編程語言由Python 改成 R。這個分析我按著之前整理出來的 Data Cleaning Cheat sheet 去做,這樣子做下來,有一個自己的Cheat sheet,對之後的處理確實很有用。由此引伸,我也該給 Web-scraping 準備一份。

之後的這一週,希望可以完成 Automobile Dataset | Kaggle 這一份數據分析,如果可以的話,再多做兩份,令自己更熟悉數據分析流程也是好的。


另外,看起來我也需要更多額外的學習內容,看來得繼續學習在 Udemy 上的 Data Science Bootcamp




新一週目標 (Week 25)

完成 Python Numpy Exercise (剩下 部分)

  1. Kaggle - Automobile Dataset EDA
  2. 整理 Web-scraping Cheat sheet(常用 code )
  3. 爬取第三方網站上 PCS 賽區比賽數據


  • 完成 Google Capstone Project (in R)  (之前的未完成任務)
    (安排到 7 月中 )




題外話

  1. 是的,看到我這個狀態就知道又是在很累的情況下記錄本週的學習過程。
  2. 我想,下一週的封面圖片可以用我自己設計的內容,這次封面圖片仍然來自我很喜歡的 Visual Artist @ evieshaffer


CC BY-NC-ND 2.0 授权

喜欢我的作品吗?别忘了给予支持与赞赏,让我知道在创作的路上有你陪伴,一起延续这份热忱!

coletangsy學習 Data Science、Machine Learning 中,透過記錄,一步一步往目標前進。
  • 来自作者
  • 相关推荐

【本週好奇】如何更新自己?

【顧客流失預測項目】2. 模型會長怎樣

久違