国产亚洲精品福利在线无卡一,国产精久久一区二区三区,亚洲精品无码国模,精品久久久久久无码专区不卡

當(dāng)前位置: 首頁(yè) > news >正文

合肥市城鄉(xiāng)建設(shè)委員會(huì)網(wǎng)站無(wú)錫網(wǎng)站排名公司

合肥市城鄉(xiāng)建設(shè)委員會(huì)網(wǎng)站,無(wú)錫網(wǎng)站排名公司,160加工網(wǎng),做圖片網(wǎng)站用什么程序一、定義 數(shù)據(jù)挖掘(英語(yǔ):Data mining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(英語(yǔ):Knowledge-Discovery in Databases,簡(jiǎn)稱:KDD)中的一個(gè)步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)…

一、定義

數(shù)據(jù)挖掘(英語(yǔ):Data mining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(英語(yǔ):Knowledge-Discovery in Databases,簡(jiǎn)稱:KDD)中的一個(gè)步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。

數(shù)據(jù)挖掘是目前人工智能和數(shù)據(jù)庫(kù)領(lǐng)域研究的熱點(diǎn)問(wèn)題,主要基于人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、可視化技術(shù)等,高度自動(dòng)化地分析企業(yè)的數(shù)據(jù),做出歸納性的整理,從中挖掘出潛在的模式,從而幫助決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),應(yīng)用領(lǐng)域?yàn)榍閳?bào)檢索、情報(bào)分析、模式識(shí)別等。
?

二、數(shù)據(jù)挖掘?qū)ο?/h2>

數(shù)據(jù)的類型可以是結(jié)構(gòu)化的、半結(jié)構(gòu)化的,甚至是異構(gòu)型的。發(fā)現(xiàn)知識(shí)的方法可以是數(shù)學(xué)的、非數(shù)學(xué)的,也可以是歸納的。最終被發(fā)現(xiàn)了的知識(shí)可以用于信息管理、查詢優(yōu)化、決策支持及數(shù)據(jù)自身的維護(hù)等。

數(shù)據(jù)挖掘的對(duì)象可以是任何類型的數(shù)據(jù)源??梢允顷P(guān)系數(shù)據(jù)庫(kù),此類包含結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)源;也可以是數(shù)據(jù)倉(cāng)庫(kù)、文本、多媒體數(shù)據(jù)、空間數(shù)據(jù)、時(shí)序數(shù)據(jù)、Web數(shù)據(jù),此類包含半結(jié)構(gòu)化數(shù)據(jù)甚至異構(gòu)性數(shù)據(jù)的數(shù)據(jù)源。

發(fā)現(xiàn)知識(shí)的方法可以是數(shù)字的、非數(shù)字的,也可以是歸納的。最終被發(fā)現(xiàn)的知識(shí)可以用于信息管理、查詢優(yōu)化、決策支持及數(shù)據(jù)自身的維護(hù)等。

三、數(shù)據(jù)挖掘步驟


數(shù)據(jù)挖掘過(guò)程模型步驟主要包括定義問(wèn)題、建立數(shù)據(jù)挖掘庫(kù)、分析數(shù)據(jù)、準(zhǔn)備數(shù)據(jù)、建立模型、評(píng)價(jià)模型和實(shí)施。下面讓我們來(lái)具體看一下每個(gè)步驟的具體內(nèi)容:

(1) 定義問(wèn)題:在開始知識(shí)發(fā)現(xiàn)之前最先的也是最重要的要求就是了解數(shù)據(jù)和業(yè)務(wù)問(wèn)題。必須要對(duì)目標(biāo)有一個(gè)清晰明確的定義,即決定到底想干什么。比如,想提高電子信箱的利用率時(shí),想做的可能是“提高用戶使用率”,也可能是“提高一次用戶使用的價(jià)值”,要解決這兩個(gè)問(wèn)題而建立的模型幾乎是完全不同的,必須做出決定。

(2) 建立數(shù)據(jù)挖掘庫(kù):建立數(shù)據(jù)挖掘庫(kù)包括以下幾個(gè)步驟:數(shù)據(jù)收集,數(shù)據(jù)描述,選擇,數(shù)據(jù)質(zhì)量評(píng)估和數(shù)據(jù)清理,合并與整合,構(gòu)建元數(shù)據(jù),加載數(shù)據(jù)挖掘庫(kù),維護(hù)數(shù)據(jù)挖掘庫(kù)。

(3) 分析數(shù)據(jù):分析的目的是找到對(duì)預(yù)測(cè)輸出影響最大的數(shù)據(jù)字段,和決定是否需要定義導(dǎo)出字段。如果數(shù)據(jù)集包含成百上千的字段,那么瀏覽分析這些數(shù)據(jù)將是一件非常耗時(shí)和累人的事情,這時(shí)需要選擇一個(gè)具有好的界面和功能強(qiáng)大的工具軟件來(lái)協(xié)助你完成這些事情。

(4) 準(zhǔn)備數(shù)據(jù):這是建立模型之前的最后一步數(shù)據(jù)準(zhǔn)備工作??梢园汛瞬襟E分為四個(gè)部分:選擇變量,選擇記錄,創(chuàng)建新變量,轉(zhuǎn)換變量。

(5) 建立模型:建立模型是一個(gè)反復(fù)的過(guò)程。需要仔細(xì)考察不同的模型以判斷哪個(gè)模型對(duì)面對(duì)的商業(yè)問(wèn)題最有用。先用一部分?jǐn)?shù)據(jù)建立模型,然后再用剩下的數(shù)據(jù)來(lái)測(cè)試和驗(yàn)證這個(gè)得到的模型。有時(shí)還有第三個(gè)數(shù)據(jù)集,稱為驗(yàn)證集,因?yàn)闇y(cè)試集可能受模型的特性的影響,這時(shí)需要一個(gè)獨(dú)立的數(shù)據(jù)集來(lái)驗(yàn)證模型的準(zhǔn)確性。訓(xùn)練和測(cè)試數(shù)據(jù)挖掘模型需要把數(shù)據(jù)至少分成兩個(gè)部分,一個(gè)用于模型訓(xùn)練,另一個(gè)用于模型測(cè)試。

(6) 評(píng)價(jià)模型:模型建立好之后,必須評(píng)價(jià)得到的結(jié)果、解釋模型的價(jià)值。從測(cè)試集中得到的準(zhǔn)確率只對(duì)用于建立模型的數(shù)據(jù)有意義。在實(shí)際應(yīng)用中,需要進(jìn)一步了解錯(cuò)誤的類型和由此帶來(lái)的相關(guān)費(fèi)用的多少。經(jīng)驗(yàn)證明,有效的模型并不一定是正確的模型。造成這一點(diǎn)的直接原因就是模型建立中隱含的各種假定,因此,直接在現(xiàn)實(shí)世界中測(cè)試模型很重要。先在小范圍內(nèi)應(yīng)用,取得測(cè)試數(shù)據(jù),覺(jué)得滿意之后再向大范圍推廣。

(7) 實(shí)施:模型建立并經(jīng)驗(yàn)證之后,可以有兩種主要的使用方法。第一種是提供給分析人員做參考;另一種是把此模型應(yīng)用到不同的數(shù)據(jù)集上。

四、數(shù)據(jù)挖掘分析方法

4.1 概念

數(shù)據(jù)挖掘分為有指導(dǎo)的數(shù)據(jù)挖掘和無(wú)指導(dǎo)的數(shù)據(jù)挖掘。有指導(dǎo)的數(shù)據(jù)挖掘是利用可用的數(shù)據(jù)建立一個(gè)模型,這個(gè)模型是對(duì)一個(gè)特定屬性的描述。無(wú)指導(dǎo)的數(shù)據(jù)挖掘是在所有的屬性中尋找某種關(guān)系。具體而言,分類、估值和預(yù)測(cè)屬于有指導(dǎo)的數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則和聚類屬于無(wú)指導(dǎo)的數(shù)據(jù)挖掘。

1.分類:它首先從數(shù)據(jù)中選出已經(jīng)分好類的訓(xùn)練集,在該訓(xùn)練集上運(yùn)用數(shù)據(jù)挖掘技術(shù),建立一個(gè)分類模型,再將該模型用于對(duì)沒(méi)有分類的數(shù)據(jù)進(jìn)行分類。

2.估值:估值與分類類似,但估值最終的輸出結(jié)果是連續(xù)型的數(shù)值,估值的量并非預(yù)先確定。估值可以作為分類的準(zhǔn)備工作。

3.預(yù)測(cè):它是通過(guò)分類或估值來(lái)進(jìn)行,通過(guò)分類或估值的訓(xùn)練得出一個(gè)模型,如果對(duì)于檢驗(yàn)樣本組而言該模型具有較高的準(zhǔn)確率,可將該模型用于對(duì)新樣本的未知變量進(jìn)行預(yù)測(cè)。

4.相關(guān)性分組或關(guān)聯(lián)規(guī)則:其目的是發(fā)現(xiàn)哪些事情總是一起發(fā)生。

5.聚類:它是自動(dòng)尋找并建立分組規(guī)則的方法,它通過(guò)判斷樣本之間的相似性,把相似樣本劃分在一個(gè)簇中。

4.2 分析方法

1)決策樹法

決策樹在解決歸類與預(yù)測(cè)上有著極強(qiáng)的能力,它以法則的方式表達(dá),而這些法則則以一連串的問(wèn)題表示出來(lái),經(jīng)由不斷詢問(wèn)問(wèn)題最終能導(dǎo)出所需的結(jié)果。典型的決策樹頂端是一個(gè)樹根,底部有許多的樹葉,它將紀(jì)錄分解成不同的子集,每個(gè)子集中的字段可能都包含一個(gè)簡(jiǎn)單的法則。此外,決策樹可能有著不同的外型,例如二元樹、三元樹或混和的決策樹型態(tài)。

2)神經(jīng)網(wǎng)絡(luò)法

神經(jīng)網(wǎng)絡(luò)法是模擬生物神經(jīng)系統(tǒng)的結(jié)構(gòu)和功能,是一種通過(guò)訓(xùn)練來(lái)學(xué)習(xí)的非線性預(yù)測(cè)模型,它將每一個(gè)連接看作一個(gè)處理單元,試圖模擬人腦神經(jīng)元的功能,可完成分類、聚類、特征挖掘等多種數(shù)據(jù)挖掘任務(wù)。神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法主要表現(xiàn)在權(quán)值的修改上。其優(yōu)點(diǎn)是具有抗干擾、非線性學(xué)習(xí)、聯(lián)想記憶功能,對(duì)復(fù)雜情況能得到精確的預(yù)測(cè)結(jié)果;缺點(diǎn)首先是不適合處理高維變量,不能觀察中間的學(xué)習(xí)過(guò)程,具有“黑箱”性,輸出結(jié)果也難以解釋;其次是需較長(zhǎng)的學(xué)習(xí)時(shí)間。神經(jīng)網(wǎng)絡(luò)法主要應(yīng)用于數(shù)據(jù)挖掘的聚類技術(shù)中。

3)關(guān)聯(lián)規(guī)則法

關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫(kù)中數(shù)據(jù)項(xiàng)之間所存在的關(guān)系的規(guī)則,即根據(jù)一個(gè)事務(wù)中某些項(xiàng)的出現(xiàn)可導(dǎo)出另一些項(xiàng)在同一事務(wù)中也出現(xiàn),即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。在客戶關(guān)系管理中,通過(guò)對(duì)企業(yè)的客戶數(shù)據(jù)庫(kù)里的大量數(shù)據(jù)進(jìn)行挖掘,可以從大量的記錄中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系,找出影響市場(chǎng)營(yíng)銷效果的關(guān)鍵因素,為產(chǎn)品定位、定價(jià)與定制客戶群,客戶尋求、細(xì)分與保持,市場(chǎng)營(yíng)銷與推銷,營(yíng)銷風(fēng)險(xiǎn)評(píng)估和詐騙預(yù)測(cè)等決策支持提供參考依據(jù)。

4)遺傳算法

遺傳算法模擬了自然選擇和遺傳中發(fā)生的繁殖、交配和基因突變現(xiàn)象,是一種采用遺傳結(jié)合、遺傳交叉變異及自然選擇等操作來(lái)生成實(shí)現(xiàn)規(guī)則的、基于進(jìn)化理論的機(jī)器學(xué)習(xí)方法。它的基本觀點(diǎn)是“適者生存”原理,具有隱含并行性、易于和其他模型結(jié)合等性質(zhì)。主要的優(yōu)點(diǎn)是可以處理許多數(shù)據(jù)類型,同時(shí)可以并行處理各種數(shù)據(jù);缺點(diǎn)是需要的參數(shù)太多,編碼困難,一般計(jì)算量比較大。遺傳算法常用于優(yōu)化神經(jīng)元網(wǎng)絡(luò),能夠解決其他技術(shù)難以解決的問(wèn)題。

5)聚類分析法

聚類分析是把一組數(shù)據(jù)按照相似性和差異性分為幾個(gè)類別,其目的是使得屬于同一類別的數(shù)據(jù)間的相似性盡可能大,不同類別中的數(shù)據(jù)間的相似性盡可能小。根據(jù)定義可以把其分為四類:基于層次的聚類方法;分區(qū)聚類算法;基于密度的聚類算法;網(wǎng)格的聚類算法。常用的經(jīng)典聚類方法有K-mean,K-medoids,ISODATA等。

6)模糊集法

模糊集法是利用模糊集合理論對(duì)問(wèn)題進(jìn)行模糊評(píng)判、模糊決策、模糊模式識(shí)別和模糊聚類分析。模糊集合理論是用隸屬度來(lái)描述模糊事物的屬性。系統(tǒng)的復(fù)雜性越高,模糊性就越強(qiáng)。

7)web頁(yè)挖掘

通過(guò)對(duì)Web的挖掘,可以利用Web的海量數(shù)據(jù)進(jìn)行分析,收集政治、經(jīng)濟(jì)、政策、科技、金融、各種市場(chǎng)、競(jìng)爭(zhēng)對(duì)手、供求信息、客戶等有關(guān)的信息,集中精力分析和處理那些對(duì)企業(yè)有重大或潛在重大影響的外部環(huán)境信息和內(nèi)部經(jīng)營(yíng)信息,并根據(jù)分析結(jié)果找出企業(yè)管理過(guò)程中出現(xiàn)的各種問(wèn)題和可能引起危機(jī)的先兆,對(duì)這些信息進(jìn)行分析和處理,以便識(shí)別、分析、評(píng)價(jià)和管理危機(jī)。

8)邏輯回歸分析

反映的是事務(wù)數(shù)據(jù)庫(kù)中屬性值在時(shí)間上的特征,產(chǎn)生一個(gè)將數(shù)據(jù)項(xiàng)映射到一個(gè)實(shí)值預(yù)測(cè)變量的函數(shù),發(fā)現(xiàn)變量或?qū)傩蚤g的依賴關(guān)系,其主要研究問(wèn)題包括數(shù)據(jù)序列的趨勢(shì)特征、數(shù)據(jù)序列的預(yù)測(cè)以及數(shù)據(jù)間的相關(guān)關(guān)系等。

9)粗糙集法

是一種新的處理含糊、不精確、不完備問(wèn)題的數(shù)學(xué)工具,可以處理數(shù)據(jù)約簡(jiǎn)、數(shù)據(jù)相關(guān)性發(fā)現(xiàn)、數(shù)據(jù)意義的評(píng)估等問(wèn)題。其優(yōu)點(diǎn)是算法簡(jiǎn)單,在其處理過(guò)程中可以不需要關(guān)于數(shù)據(jù)的先驗(yàn)知識(shí),可以自動(dòng)找出問(wèn)題的內(nèi)在規(guī)律;缺點(diǎn)是難以直接處理連續(xù)的屬性,須先進(jìn)行屬性的離散化。因此,連續(xù)屬性的離散化問(wèn)題是制約粗糙集理論實(shí)用化的難點(diǎn)。

10)連接分析

它是以關(guān)系為主體,由人與人、物與物或是人與物的關(guān)系發(fā)展出相當(dāng)多的應(yīng)用。例如電信服務(wù)業(yè)可藉連結(jié)分析收集到顧客使用電話的時(shí)間與頻率,進(jìn)而推斷顧客使用偏好為何,提出有利于公司的方案。除了電信業(yè)之外,愈來(lái)愈多的營(yíng)銷業(yè)者亦利用連結(jié)分析做有利于企業(yè)的研究。

http://m.aloenet.com.cn/news/45216.html

相關(guān)文章:

  • 電子商務(wù)主要干什么seo推廣怎么做
  • 政府網(wǎng)站建設(shè)發(fā)展指引軟文吧
  • 怎樣用eclipse做網(wǎng)站品牌營(yíng)銷推廣方案怎么做
  • 網(wǎng)站建設(shè)需要會(huì)西安seo外包行者seo
  • 溫州電子商務(wù)網(wǎng)站建設(shè)windows優(yōu)化大師有哪些功能
  • 做網(wǎng)站內(nèi)容來(lái)源百度收錄提交網(wǎng)站后多久收錄
  • 宜春網(wǎng)站建設(shè)公司聯(lián)系方式百度seo 站長(zhǎng)工具
  • 沈陽(yáng)百度首頁(yè)優(yōu)化安徽seo優(yōu)化規(guī)則
  • 哈爾濱cms網(wǎng)站建設(shè)廣州網(wǎng)站建設(shè)系統(tǒng)
  • 建設(shè)一個(gè)導(dǎo)航網(wǎng)站百度搜索怎么優(yōu)化
  • 添加網(wǎng)站到百度中國(guó)十大軟件外包公司
  • 網(wǎng)站logo怎么做透明網(wǎng)絡(luò)運(yùn)營(yíng)課程培訓(xùn)班
  • 貴州有網(wǎng)站的企業(yè)杭州seo推廣服務(wù)
  • 做網(wǎng)站推廣前途百度問(wèn)答入口
  • 網(wǎng)頁(yè)版企業(yè)郵箱網(wǎng)絡(luò)優(yōu)化的流程
  • 什么網(wǎng)站免費(fèi)建設(shè)全網(wǎng)網(wǎng)站快速排名推廣軟件
  • 做教育機(jī)構(gòu)網(wǎng)站百度收錄提交入口網(wǎng)址
  • 網(wǎng)站服務(wù)器維護(hù)今天nba新聞最新消息
  • 網(wǎng)站上線需要哪些步驟2345電腦版網(wǎng)址導(dǎo)航
  • 怎樣做自己的國(guó)外網(wǎng)站網(wǎng)站收錄免費(fèi)咨詢
  • 如何在word上做網(wǎng)站網(wǎng)址房地產(chǎn)最新消息
  • 網(wǎng)絡(luò)公司網(wǎng)站建設(shè)彩鈴樣本軟文推廣文案范文
  • 廣州網(wǎng)站建設(shè) 廣州亦客網(wǎng)絡(luò)網(wǎng)絡(luò)推廣員工作好做嗎
  • 模版網(wǎng)站做支付功能小程序開發(fā)公司哪里強(qiáng)
  • 導(dǎo)購(gòu)網(wǎng)站如何做淘寶客站長(zhǎng)平臺(tái)網(wǎng)站
  • 做網(wǎng)站的域名怎么申請(qǐng)seo關(guān)鍵詞優(yōu)化的技巧和方法
  • 網(wǎng)站怎么做移動(dòng)圖片大全學(xué)生個(gè)人網(wǎng)頁(yè)優(yōu)秀模板
  • dreamweaver網(wǎng)站制作步驟360收錄
  • 廣州商城網(wǎng)站建設(shè)公司湖南靠譜seo優(yōu)化
  • 沈陽(yáng)模板 網(wǎng)站建設(shè)淘寶網(wǎng)店代運(yùn)營(yíng)正規(guī)公司