2014年12月11日

前往資料科學之道 - 取得與清理資料

參與Coursera的課程: Getting and Cleaning Data些許心得:
  • 一般來說,我們在處理資料的時會經過下列流程:原始的資料 -> 整齊的資料 -> 溝通的資料
    • 原始的資料 -> 整齊的資料:由於原始的資料種類繁多,上自MariaDB, JSON, XML等等,下達csv、txt等。必須要先整理格式,才能使用進行分析。
    • 整齊的資料 -> 溝通的資料:資料進行分析後,依據使用環境,成為文字、表格、圖像、互動程式等等,將成果散布出去。
  • 這應該會是花最多時間的環節。
  • dplyr package 在這環節的實用性非常高。在執行這堂課的練習專案時可以明顯地感受到其效果。

沒有留言:

張貼留言

為避免垃圾訊息,留言需檢視後會才會顯示,請見諒。