183.17.229.* 2020-07-13 13:23:34 |
大數(shù)據(jù)產(chǎn)生的背景是整個(gè)社會(huì)走向數(shù)字化,特別是社交網(wǎng)絡(luò)和各種傳感設(shè)備的發(fā)展。云計(jì)算和搜索引擎的發(fā)展,使得對(duì)大數(shù)據(jù)的**分析成為可能,核心問(wèn)題是如何在種類繁多、數(shù)量龐大的數(shù)據(jù)中快速獲取有價(jià)值信息。通過(guò)數(shù)據(jù)分析來(lái)實(shí)現(xiàn)企業(yè)戰(zhàn)略運(yùn)營(yíng)已經(jīng)成為常態(tài),那么數(shù)據(jù)分析過(guò)程中都有哪些常見錯(cuò)誤問(wèn)題?
數(shù)據(jù)分析過(guò)程中常見的錯(cuò)誤問(wèn)題:
1、分析目標(biāo)不明確
“海量的數(shù)據(jù)其實(shí)并不能產(chǎn)生海量的財(cái)富”,許多數(shù)據(jù)分析人員由于沒(méi)有制定清晰的分析目標(biāo),常常在海量數(shù)據(jù)中混亂,要么是收集了錯(cuò)誤的數(shù)據(jù),要么收集的數(shù)據(jù)不夠完整,這會(huì)導(dǎo)致數(shù)據(jù)分析的結(jié)果不夠準(zhǔn)確。
但如果一開始就鎖定了目標(biāo),你究竟要分析什么?再以結(jié)果為導(dǎo)向去思考,你就會(huì)知道需要用什么樣的數(shù)據(jù)去支撐你的分析?從而確定數(shù)據(jù)的來(lái)源、收集方式以及分析指標(biāo)。
2、收集數(shù)據(jù)時(shí)產(chǎn)生誤差
當(dāng)我們捕獲數(shù)據(jù)的軟件或硬件出錯(cuò)時(shí),就會(huì)出現(xiàn)一定的誤差。例如,使用日志與服務(wù)器不同步,則可能丟失移動(dòng)應(yīng)用程序上的用戶行為信息。同樣,如果我們使用像麥克風(fēng)這樣的硬件傳感器,我們的錄音可能會(huì)捕捉到背景噪音或其他電信號(hào)的干擾。
3、樣本缺乏代表性
在進(jìn)行數(shù)據(jù)分析時(shí),一定要有可信的數(shù)據(jù)樣本,這是確保數(shù)據(jù)分析結(jié)果靠不**的關(guān)鍵,如果數(shù)據(jù)樣本不具代表性,終分析的結(jié)果也就沒(méi)有價(jià)值。因此,對(duì)于數(shù)據(jù)樣本,也要求完整和**,用單一的、不具代表性的數(shù)據(jù)來(lái)代替全部數(shù)據(jù)進(jìn)行分析,這種片面的數(shù)據(jù)得到的分析結(jié)果有可能完全是錯(cuò)誤的。
例如,Twitter的用戶可能受到更高教育且收入更高,其年齡也會(huì)偏大一些。如果用這種有偏的樣本來(lái)預(yù)測(cè)目標(biāo)觀眾是年輕人的電影票房,其分析結(jié)論可能就不會(huì)合理了。所以確保你得到的樣本數(shù)據(jù)代表了研究總體。否則,你的分析結(jié)論就缺乏堅(jiān)實(shí)的基礎(chǔ)。
4、相關(guān)關(guān)系和因果關(guān)系混亂
大部分的數(shù)據(jù)分析人員在處理大數(shù)據(jù)時(shí)假設(shè)相關(guān)關(guān)系直接影響因果關(guān)系。使用大數(shù)據(jù)來(lái)理解兩個(gè)變量之間的相關(guān)性通常是一個(gè)很好的實(shí)踐方法,但是,總是使用“因果”類比可能導(dǎo)致虛假的預(yù)測(cè)和無(wú)效的決定。要想實(shí)現(xiàn)數(shù)據(jù)分析的好效果,必須理解相關(guān)關(guān)系和因果關(guān)系兩者的根本區(qū)別。相關(guān)關(guān)系往往是指同時(shí)觀察X和Y的變化,而因果關(guān)系意味著X導(dǎo)致Y。在數(shù)據(jù)分析中,這是兩個(gè)完全不同的事情,但是許多數(shù)據(jù)分析人員往往忽視了它們的區(qū)別。
“數(shù)據(jù)科學(xué)中相關(guān)關(guān)系不是因果關(guān)系”。如果兩個(gè)關(guān)系出現(xiàn)彼此相關(guān)的情況,也不意味著是一個(gè)導(dǎo)致了另一個(gè)的產(chǎn)生。
5、脫離業(yè)務(wù)實(shí)際
一個(gè)專業(yè)的數(shù)據(jù)分析人員,必須非常熟悉所分析項(xiàng)目的行業(yè)情況、業(yè)務(wù)流程以及相關(guān)知識(shí),因?yàn)閿?shù)據(jù)分析的終結(jié)果是解決項(xiàng)目中存在的問(wèn)題,或者給行業(yè)的決策者提供參考意見。如果不能很好地將業(yè)務(wù)知識(shí)和數(shù)據(jù)分析工作結(jié)合起來(lái),脫離業(yè)務(wù)實(shí)際而只關(guān)心數(shù)據(jù),在這種情況下得到的分析結(jié)果將不具有參考價(jià)值。
6、熱衷**分析
有的數(shù)據(jù)分析人員會(huì)過(guò)分追求所謂**的、**的、時(shí)髦的分析技術(shù),面對(duì)一個(gè)分析項(xiàng)目時(shí),先想到的是選擇一個(gè)**的技術(shù)去解決,而不是從課題本身的真實(shí)需求出發(fā)去思考合理、有性價(jià)比的分析技術(shù)。如果能用簡(jiǎn)單的方法得到相同的結(jié)果,就沒(méi)有必要引用復(fù)雜的數(shù)據(jù)分析模型。
大數(shù)據(jù)分析中常見的誤解.中琛魔方大數(shù)據(jù)分析平臺(tái)(www.zcmorefun.com)表示不同的技術(shù)往往需要不同的資源投入,而產(chǎn)出可能也是不同精度和不同表現(xiàn)形式。這其中孰優(yōu)孰劣,根據(jù)什么做判斷呢?我們要根據(jù)需求本身的精度、資源限制等來(lái)做出選擇。 |