隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)背后潛藏著巨大的商業(yè)機會不僅是大公司的專利,專注于數(shù)據(jù)挖掘和數(shù)據(jù)服務(wù)的創(chuàng)業(yè)公司更是不可小覷的新興力量。
大數(shù)據(jù)是近兩年來爆發(fā)的最熱門IT概念之一。進入2012年,這個領(lǐng)域的風潮逐漸從專業(yè)IT人士和數(shù)據(jù)分析師,擴散到所有關(guān)注科技、互聯(lián)網(wǎng)以及營銷領(lǐng)域的人群中,甚至還包括政界人士。這種背景下,在商業(yè)、經(jīng)濟及其他領(lǐng)域中,決策行為將日益基于數(shù)據(jù)和分析而作出,而并非基于經(jīng)驗和直覺;而在公共衛(wèi)生、經(jīng)濟預(yù)測等領(lǐng)域中,“大數(shù)據(jù)”的預(yù)見能力也已經(jīng)嶄露頭角。
數(shù)據(jù)背后潛藏著巨大的商業(yè)機會。以前只有Google、微軟這樣的公司能做大數(shù)據(jù)的深挖,現(xiàn)在已經(jīng)有越來越多的創(chuàng)業(yè)公司進入,不同公司在不同層面的數(shù)據(jù)分析和服務(wù)領(lǐng)域正創(chuàng)造出新的商業(yè)模式。這些專注于數(shù)據(jù)挖掘和數(shù)據(jù)服務(wù)的公司將成為電子商務(wù)乃至互聯(lián)網(wǎng)第三方服務(wù)業(yè)中的新興力量。
對于IT廠商來說,這是一個自身從傳統(tǒng)IT產(chǎn)品跨越到商業(yè)智能的絕佳機會;而對有志于這個領(lǐng)域的新型創(chuàng)業(yè)者來說,更是一個不可錯過的新興機會。以2012年的趨勢看,有六個模式值得關(guān)注:基于Hadoop的分析工具和產(chǎn)品、數(shù)據(jù)收集再加工服務(wù)、數(shù)據(jù)可視化產(chǎn)品、社交媒體數(shù)據(jù)分析工具與方案、基于數(shù)據(jù)挖掘的商業(yè)智能與情報咨詢服務(wù)。
基于Hadoop的分析工具和產(chǎn)品
越來越多企業(yè)開始使用Hadoop平臺處理大量數(shù)據(jù)。基于Hadoop做面向開發(fā)者的分析工具集,或者直接面向企業(yè)IT部門的分析管理工具,越來越成為一種流行趨勢。
很多傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)開始整合Hadoop服務(wù),以便更好地為企業(yè)服務(wù),如惠普、戴爾、甲骨文、IBM等知名公司都分別有針對自家需求的Hadoop服務(wù)。此外,云端上的Hadoop服務(wù)讓大數(shù)據(jù)分析和處理更加方便快捷。同時這也證明,目前開源的Hadoop相關(guān)的技術(shù)分析也存在明顯缺乏相應(yīng)的技術(shù)、環(huán)境、數(shù)據(jù)安全以及可行性,而這正是新商機。
Cloudera、Hortonworks和MapR是目前最被看好的“Hadoop三駕馬車”,它們屬于那種“純大數(shù)據(jù)”公司——核心業(yè)務(wù)圍繞Hadoop發(fā)行版和Hadoop應(yīng)用展開。由于大數(shù)據(jù)核心技術(shù)Hadoop屬于免費的開源技術(shù),用戶無需付費就可下載使用,所以Hadoop創(chuàng)業(yè)公司的盈利模式與Oracle這樣的傳統(tǒng)數(shù)據(jù)庫巨頭大不相同,它們主要靠提供Hadoop增值產(chǎn)品(軟件授權(quán)費)和增值服務(wù)掙錢。
目前,規(guī)模最大的Hadoop企業(yè)當屬Cloudera。簡單來說,Cloudera提供企業(yè)直接使用的企業(yè)版Hadoop,它開發(fā)了自己的工具包,讓通過Hadoop搜索數(shù)據(jù)變得更加容易。同時,Cloudera還在努力建設(shè)更廣泛的合作生態(tài)系統(tǒng),從而讓更多不同應(yīng)用能使用Hadoop服務(wù)。
出身Facebook的創(chuàng)始人Jeff Hammerbacher在創(chuàng)辦Cloudera前就使用Hadoop來分析社交用戶行為,后來他將相應(yīng)的技術(shù)轉(zhuǎn)移到了Cloudera之中,目前Cloudera獲得了7600萬美元的融資。
Cloudera目前比較受關(guān)注的領(lǐng)域是醫(yī)療健康行業(yè)。簡單來說,Cloudera采用大數(shù)據(jù)來改善大眾的健康,而整個衛(wèi)生保健行業(yè)也會因為受到大數(shù)據(jù)的驅(qū)動而催生更好的創(chuàng)新和服務(wù)。Hammerbacher指出,公司一個重要的客戶就是Explorys Medical。他們通過采集病人數(shù)據(jù),從而揭示疾病治療、護理和藥物測試等方面的見解。“我們要處理各種各樣的醫(yī)療數(shù)據(jù),比如說醫(yī)生處方、圖像、醫(yī)生筆記等。消費者可以通過分享這些數(shù)據(jù)而推動醫(yī)療行業(yè)的變革。”
社交媒體數(shù)據(jù)
社交媒體所產(chǎn)生的海量非結(jié)構(gòu)化數(shù)據(jù)一直以來都被作為大數(shù)據(jù)時代來臨的標志。人們已經(jīng)承認,隨著像Twittter、Fcacebook等社交網(wǎng)絡(luò)媒體的爆發(fā),越來越多的商業(yè)活動和信息會受到他們的影響。目前,基于社交媒體的創(chuàng)業(yè)公司數(shù)不勝數(shù),但從大數(shù)據(jù)角度進行商務(wù)挖掘和營銷戰(zhàn)略的,是最有前景的一類。畢竟,奧巴馬利用大數(shù)據(jù)在美國大選中獲勝的經(jīng)典案例也是出自社交媒體分析領(lǐng)域。
另一方面Twitter開放其數(shù)據(jù)管道Firehose對于社交大數(shù)據(jù)分析來說無疑是一個晴天大利好。利用Twitter實時數(shù)據(jù)你幾乎能進行各種數(shù)據(jù)分析,從奧斯卡電影人氣到美國總統(tǒng)支持率,再到產(chǎn)品用戶滿意度分析,可謂一座不設(shè)防的數(shù)據(jù)大金礦。
但是掘金Twitter“快數(shù)據(jù)”也對分析系統(tǒng)提出了很高要求,DataSift是少數(shù)能吃下Twitter數(shù)據(jù)的頂級社會化分析工具之一。
DataSift是一個社交數(shù)據(jù)分析平臺,向企業(yè)市場人員提供twitter、Facebook、Youtube、博客、甚至Wikipedia等社交媒體的數(shù)據(jù)可視化分析技術(shù)和服務(wù),監(jiān)測社交營銷成效,并幫助品牌公司掌握突發(fā)新聞的輿論點,并制定有針對性的營銷方案。它甚至創(chuàng)建了一個自己的互聯(lián)網(wǎng)規(guī)模的關(guān)鍵詞過濾系統(tǒng),能夠快速評估熱門關(guān)鍵詞。
另一個優(yōu)勢是DataSift從Twitter購買了多年的數(shù)據(jù)同步授權(quán),能夠訪問所有Twitter管道數(shù)據(jù),并將子集賣給第三方,主要是企業(yè)客戶。目前只有Gnip獲得了同樣的授權(quán)。舉個簡單的例子,DataSift可以根據(jù)Twitter的數(shù)據(jù)對兩屆奧運會進行橫向?qū)Ρ龋瑥闹辛私獠⒎治龉妼Ξ敃r新聞和事件的反應(yīng)。DataSift的前景逐漸明朗,現(xiàn)在客戶數(shù)已經(jīng)超過了10000個。DataSift目前已經(jīng)擁有超過200個客戶,其中不乏財富500強企業(yè),DataSift 的收入主要來自向客戶收取的每月200美元的服務(wù)費用。
數(shù)據(jù)收集在加工服務(wù)
數(shù)據(jù)的商業(yè)價值越來越被挖掘,但Hadoop并不能代表一切。一家著名的大數(shù)據(jù)公司ParAccel則顛覆了Hadoop的神話。ParAccel的CEO Chuck Berger指出,太多創(chuàng)業(yè)公司陷入了“大數(shù)據(jù)=非結(jié)構(gòu)化數(shù)據(jù)的大數(shù)據(jù)=Hadoop”的邏輯。除了非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)以外,結(jié)構(gòu)化數(shù)據(jù)也在快速增長。
ParAccel在數(shù)據(jù)領(lǐng)域也是久負名氣的。它們最成功的案例之一是向美國執(zhí)法機構(gòu)提供數(shù)據(jù)分析能力——ParAccel通過了一些渠道獲得不少犯罪數(shù)據(jù),并對15000個有犯罪前科的人進行跟蹤,從而向執(zhí)法機構(gòu)提供了參考性較高的犯罪預(yù)測。所以ParAccel也被成為“犯罪的預(yù)言者”。
今年登陸納斯達克的“大數(shù)據(jù)概念股”Splunk也是這方面的佼佼者。由于Splunk是以MapReduce架構(gòu)為基礎(chǔ)的軟件,在普通的硬件上安裝Splunk 和Splunk轉(zhuǎn)發(fā)器,就能構(gòu)成大量字節(jié),形成龐大的系統(tǒng)數(shù)據(jù),這個量級可以達到每天數(shù)TB并逐漸向PB數(shù)量級擴大。而他們的軟件可以為機器生成的海量數(shù)據(jù)建立索引,將其整理成可以搜索的鏈接。公司們則像使用Google那樣來搜索這些鏈接,用來實時分析消費者行為。
推薦閱讀
最新統(tǒng)計:2012年中國威客市場數(shù)據(jù)分析報告
威客的英文Witkey是The key of wisdom 的縮寫,是指那些通過互聯(lián)網(wǎng)把自己的智慧、知識、能力、經(jīng)驗轉(zhuǎn)換成實際收益的人,他們在互聯(lián)網(wǎng)上通過解決科學(xué)、技術(shù)、工作、生活、學(xué)習(xí)中的問題從而讓知識、智慧、經(jīng)驗、技能體>>>詳細閱讀
本文標題:大數(shù)據(jù)創(chuàng)業(yè)樣本
地址:http://www.geekbao.cn/a/shuju/20121228/93440.html