2014年11月10日

前往資料科學之道 - 第一課:資料科學家的工具盒

第一課:The Data Scientist’s Toolbox

大慨介紹整個課程,及安裝設定處理數據的軟體。
會用到的軟體:
  • R:
    • 資料處理軟體
    • 程式語言
    • 運行環境
    • 開源碼計劃
    • 社群
  • R Studio:一種開發環境,協助撰寫R指令時更加方便。
  • Git:版本管理系統,安裝在本機
  • GitHub:一個網路服務,提供線上版本管理,可以將本機的R腳本上傳與他人分享。

一些比較重要的句子:
  • 最重要的是問對問題,資料只是其次。
  • 我們要的是適合的資料,而非大資料抑或是小資料。


本機上的git與網路服務GitHub:
  1. 先在本機建立個資料夾(git 已設定好global user and email, GitHub已經申請好帳號)
  2. 初始化:git init
  3. 設定要公佈在GitHub上的位置,相對應於本機上的名字為origin:git remote add origin https://github.com/.......git
  4. 把GitHub上面的抓下來成為本機上的版本主幹(master):git pull origin master
  5. 可以寫東西了!用Vim建立一個腳本
  6. git add進行track的動作
  7. git commit 進入本機的版本主幹
  8. git push 到GitHub上面


參考資料:

沒有留言:

張貼留言

為避免垃圾訊息,留言需檢視後會才會顯示,請見諒。