Python數據挖掘——基礎知識

Python數據挖掘——基礎知識

  • 數據挖掘又稱從數據中 挖掘知識、知識提取、數據/模式分析

  • 即為:從數據中發現知識的過程

    • 1、數據清理 (消除噪聲,刪除不一致數據)

    • 2、數據集成 (多種數據源 組合在一起)

    • 3、數據選擇 (從數據庫中提取和分析任務相關的數據)

    • 4、數據變換 (通過匯總或聚焦操作,把數據變換和統一成適合挖掘的形式)

    • 5、數據挖掘 (基本步驟,使用智能化方法提取數據)

    • 6、模式評估 (根據某種興趣度量,識別代表知識的真正的有趣模式)

    • 7、知識表示 (使用可視化和知識表示技術,向用戶提供數據挖掘的知識)

  • 廣義:從大量的數據中挖掘有趣模式和知識的過程

  • 數據挖掘的模式:

    • 描述性:描述性挖掘任務刻畫目標數據中數據的一般性質

    • 預測性:預測性挖掘任務在當前數據上進行歸納,以便作出預測

  • 數據挖掘功能

    • 離群點分析

    • 特徵化與區分

      • 數據特徵化 是目標類數據的一般性/特性的匯總

      • 數據區分是將目標數據對象的一般性 與一個/多個對比類對象的一般性進行比較

    • 頻繁模式、關聯和相關性

      • 頻繁模式包括頻繁項集、序列模式和頻繁子結構

      • 頻繁項集挖掘是頻繁模式的基礎

    • 聚類分析

      • 最大化類內相似性

      • 最小化類間相似性

    • 分類與回歸

  • 數據挖掘使用的技術

    • 統計學

    • 數據庫系統

    • 數據倉庫

    • 信息檢索

    • 機器學習

    • 模式識別

    • 可視化

    • 算法

    • 高性能計算

    • 應用

  • 數據挖掘的主要問題

    • 挖掘方法

    • 用戶交互

    • 有效性與伸縮性

    • 數據類型的多樣性

    • 數據挖掘與社會

点赞

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *