亚洲精品无码乱码成人|最近中文字幕免费大全|日韩欧美卡一卡二卡新区|熟妇性饥渴一区二区三区|久久久久无码精品国产AV|欧美日韩国产va在线观看|久久精品一本到99热动态图|99国产精品欧美一区二区三区

您現(xiàn)在的位置是: 產(chǎn)經(jīng) > > 正文

數(shù)據(jù)挖掘步驟一般有哪些?數(shù)據(jù)挖掘名詞解釋

時間:2023-06-19 15:34:52 來源:環(huán)球周刊網(wǎng) 發(fā)布者:DN032

數(shù)據(jù)挖掘步驟一般有哪些

1、定義問題

在開始知識發(fā)現(xiàn)之前最先的也是最重要的要求就是了解數(shù)據(jù)和業(yè)務(wù)問題。必須要對目標(biāo)有一個清晰明確的定義,即決定到底想干什么。比如,想提高電子信箱的利用率時,想做的可能是“提高用戶使用率”,也可能是“提高一次用戶使用的價(jià)值”,要解決這兩個問題而建立的模型幾乎是完全不同的,必須做出決定。

2、建立數(shù)據(jù)挖掘庫

建立數(shù)據(jù)挖掘庫包括以下幾個步驟:數(shù)據(jù)收集,數(shù)據(jù)描述,選擇,數(shù)據(jù)質(zhì)量評估和數(shù)據(jù)清理,合并與整合,構(gòu)建元數(shù)據(jù),加載數(shù)據(jù)挖掘庫,維護(hù)數(shù)據(jù)挖掘庫。

3、分析數(shù)據(jù)

分析的目的是找到對預(yù)測輸出影響最大的數(shù)據(jù)字段,和決定是否需要定義導(dǎo)出字段。如果數(shù)據(jù)集包含成百上千的字段,那么瀏覽分析這些數(shù)據(jù)將是一件非常耗時和累人的事情,這時需要選擇一個具有好的界面和功能強(qiáng)大的工具軟件來協(xié)助你完成這些事情。

4、準(zhǔn)備數(shù)據(jù)

建立模型之前的最后一步數(shù)據(jù)準(zhǔn)備工作??梢园汛瞬襟E分為四個部分:選擇變量,選擇記錄,創(chuàng)建新變量,轉(zhuǎn)換變量。

5、建立模型

建立模型是一個反復(fù)的過程。需要仔細(xì)考察不同的模型以判斷哪個模型對面對的商業(yè)問題最有用。先用一部分?jǐn)?shù)據(jù)建立模型,然后再用剩下的數(shù)據(jù)來測試和驗(yàn)證這個得到的模型。有時還有第三個數(shù)據(jù)集,稱為驗(yàn)證集,因?yàn)闇y試集可能受模型的特的影響,這時需要一個獨(dú)立的數(shù)據(jù)集來驗(yàn)證模型的準(zhǔn)確。訓(xùn)練和測試數(shù)據(jù)挖掘模型需要把數(shù)據(jù)至少分成兩個部分,一個用于模型訓(xùn)練,另一個用于模型測試。

6、評價(jià)模型

模型建立好之后,必須評價(jià)得到的結(jié)果、解釋模型的價(jià)值。從測試集中得到的準(zhǔn)確率只對用于建立模型的數(shù)據(jù)有意義。在實(shí)際應(yīng)用中,需要進(jìn)一步了解錯誤的類型和由此帶來的相關(guān)費(fèi)用的多少。

數(shù)據(jù)挖掘名詞解釋

“數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。”

標(biāo)簽: 數(shù)據(jù)挖掘步驟一般有哪些 數(shù)據(jù)挖掘名詞

搶先讀

相關(guān)文章

熱文推薦

精彩放送

關(guān)于我們| 聯(lián)系我們| 投稿合作| 法律聲明| 廣告投放

版權(quán)所有© 2011-2023  產(chǎn)業(yè)研究網(wǎng)  www.www-332159.com

所載文章、數(shù)據(jù)僅供參考.本站不作任何非法律允許范圍內(nèi)服務(wù)!

聯(lián)系我們:39 60 29 14 2 @qq.com

皖I(lǐng)CP備2022009963號-13