JY的興趣行李箱
Git 協作不可不知的重要指令
以下整理 套件開發協作時常遇到與用到的 Git 指令: SSH Key 與 HTTPS 的差別 ~$ git clone repo_link 其中 repo_link 的開頭有 https:// 和 git@ 兩種: gi...
【Python】複製一份 conda 環境的各種方式
使用 .yml 檔案 將當前環境設置輸出為 environment.yml ,再用來創建配置一致的新環境 (base) ~$ conda activate current_env ( meta charset="utf-8" current_en...
【資料分析】認識統計顯著性|A/B Testing 觀測數值增減多少才是顯著有效?
前言 不論是廣告投放或行銷中的A/B Test,對結果的評斷和優化,都是數據分析的環節之一。避免看到數字就憑著主觀解讀,而是設法找尋具科學證據的解釋,也是數據分析師的基本素養。本文介紹A/B Testing觀測結果的統計顯著性,期待你除了會使用線上免費工具計算實驗的顯著性之外,也能了解背後統計概念。
【自然語言處理】基於語義角色標註的事件三元組抽取實作
本文介紹自然語言處理中的經典任務之一:語義角色標註,並分享開源專案「事件三元組抽取」如何利用語義角色標注的結果,以及復現心得、改良想法。要解決的問題 有類似觀點或句子出現在多篇文章,我們不想要花時間過濾重複資訊有某事件有多項影響、情緒有正有負,我們想要更快更全面更客觀的蒐...
【技術分享】認識文本分析|Word2Vec, Doc2Vec 比較 (附Python程式碼)
本篇筆記 Python自然語言處理入門的常用方法 Word2Vec,及其延伸:Doc2Vec,表述他們之間的關聯,並以Python實作比較不同方法分辨同樣兩個語句的效果。(介於中間的還有Sent2Vec,概念與Doc2Vec相似) Word2Vec是什麼?
【技術分享】認識文本分析|給我一段話,我告訴你重點在哪:對文本重點字詞加權的TF-IDF方法
適逢上週五2019數位奇點獎,敝公司獲得【最佳數據科技創新獎】銅獎;當中的案件我們使用到tfidf產生的文本向量做KMeans分群。正好想試試再讓文章簡單好懂一點,本周就單純只介紹這個文本分析很常用到的統計方法:TF-IDF。一句話解釋TF-IDF——用來從一段文字/一個語料庫...
【技術分享】tensorflow-gpu 安裝紀錄 (Windows Server 2016)
系統環境確認 Windows Server 2016GeForce GTX 1070 Ti Python 3.7Visual Studio 2019 安裝步驟 1. 創建並啟用虛擬環境 conda create -n tensorflow_gpu py...
【技術分享】資料科學初學者建模易犯的錯誤盤點
並非每次我們接觸到的資料,針對每一個預測標的,都有獨立、整理好的特徵值;尤其是在面對時間序列資料時,我們也希望捕捉預測標的,隨時間變化的特徵變化規律。本篇整理時間序列建模時,注意的重點: (I) Scale-transformation 發生情境:屬性之間的值域差異大...
【Python 資料科學教程】環境架設、Numpy, Pandas 基礎 - Data Science with Python
不管是提升工作技能或對資料有興趣,都可以簡單上手 Python 數據分析,文末我們將提供 Colab 範本給讀者進行練習。滑到文末 *Colab 是什麼?Colaboratory (簡稱為「Colab」) 可讓你在瀏覽器上撰寫及執行 Python,且具備...
【資料探索性分析】#1 電商零售 – 天貓電商用戶行為
(一)主題 從天貓 TMall 用戶網站行為紀錄,透過視覺化整理: 基本的資料分布比較不同用戶分組的行為分布差異 *何謂探索性資料分析?運用 Python 套件進行視覺化或基本統計等方式,讓資料的特點更清楚地被了解及呈現;它也是資料科學中的一環。
【給初學者】自學三階段,教你入門資料分析 4 大環節
前言 有鑒於資料領域廣受各路工作者喜愛,未來各大公司一定也會導入更多有關數據應用,資料分析能力將成為基本門檻。本篇整理站長當時在初學時期是如何點資料分析技能樹的,希望對讀者們有幫助。本文大綱走起: 學習資料分析對你的意義資料分析基本流程與技能樹該如何讓自己更加脫穎而出?
【2021 Shopee Code League】解題紀錄|Week1:Multi-Channel Contact Problem
以下用中文解釋題意和解題思考過程,若有誤、更優解等建議,歡迎留言或私訊。本週題意 基本上希望的目的是,將聯繫蝦皮客服的用戶進行 unify(歸一化),方便計算客服流程的總聯繫次數。由於用戶會用不同信件、手機、基於不同訂單向客服反應意見,但實際上他們背後是同一位用戶。
【講座整理】品牌行銷九大輿情分析維度—iBuzz @NCCU MBA CEO論壇
前言 iBuzz (亞洲指標數位行銷顧問股份有限公司) 是台灣第一間做海外內自動化網路口碑輿情搜集系統,來分享的 CEO 黎榮章 學長 也是政大企家班的校友!據網路資料,他們在台灣的網路環境蒐集輿情口碑資料的總頻道來源超過17,289個,涵蓋八大頻道類型(新聞、文章、論壇...
【Python 網路爬蟲】克服網站反爬蟲機制的 8 種做法
隨著公開資料使用的普及化,網站對自家資料的保護也越來越嚴謹。開發者如何在符合道德和不觸發網站擋爬機制的同時,合法取得所需的公開資訊,是當今資料技術開發人員不可或缺的技能點之一。(I) 發送 Request 時帶上 Headers Request Headers 客...
【資源整理】資料分析學習路徑整理
職稱滿天飛,資料分析師、數據分析師、資料科學家、數據工程師、AI工程師、機器學習工程師…,我認為有一個光譜可由淺入深分類一下這些跟「數據」搭上邊的工作(例如 日常工作類型的比例是建立資料架構、清理資料、建模還是視覺呈現報告結果佔多數、會需要產業knowhow的比例多寡等等)。
[綜藝評論] Girls Planet 999 每週更新
每週中字片源搜集、比賽進度、選手風格分析