商業(yè)數(shù)據(jù)分析有很多種,以日志數(shù)據(jù)為代表的機(jī)器數(shù)據(jù)是互聯(lián)網(wǎng)公司最常見數(shù)據(jù)之一,國際上,提供日志分析業(yè)務(wù)的Splunk公司也已實現(xiàn)幾百億人民幣市值。作為企業(yè)方數(shù)據(jù)資產(chǎn)之一,日志等機(jī)器數(shù)據(jù)承載著企業(yè)中諸多過程記錄信息,基于這些數(shù)據(jù),更多價值點(diǎn)值得企業(yè)方與數(shù)據(jù)分析公司合作進(jìn)行深度挖掘,以便增進(jìn)營收、減少成本并優(yōu)化效率。
致力于非結(jié)構(gòu)化數(shù)據(jù)分析的開數(shù)科技(OPEN01)利用“日志分析+NLP(Natural Language Processing,自然語言處理)”,實現(xiàn)實時企業(yè)大數(shù)據(jù)分析,為企業(yè)提供全面且完善的數(shù)據(jù)分析服務(wù)。其技術(shù)合伙人Samuel Lee博士作為麻省理工大學(xué)計算科學(xué)與人工智能實驗室(MIT-CSAIL)科學(xué)家,在大數(shù)據(jù)與人工智能方面有著深刻技術(shù)背景,曾主持研發(fā)了BioModels量化模型全球數(shù)據(jù)標(biāo)準(zhǔn)與系統(tǒng),并被記載入歐盟ISBE方案架構(gòu)書;商業(yè)合伙人熊梓鍇博士則是擁有深厚商業(yè)數(shù)據(jù)分析從業(yè)經(jīng)歷的戰(zhàn)略運(yùn)營管理專家,曾在著名咨詢公司羅蘭貝格(Roland Berger,國際知名管理咨詢公司)從事戰(zhàn)略咨詢、世界五百強(qiáng)企業(yè)Bayer醫(yī)藥負(fù)責(zé)戰(zhàn)略管理與銷售效能管理、并曾在凱博(Copal Partners,全球化金融分析和行業(yè)研究公司)擔(dān)任過高級分析工作,在創(chuàng)立開數(shù)科技之前,熊博士還是精準(zhǔn)醫(yī)療公司Genetron Health泛生子創(chuàng)始團(tuán)隊成員。
談起開數(shù)科技創(chuàng)立契機(jī),熊博士表示:過往咨詢和戰(zhàn)略從業(yè)經(jīng)歷,使其有機(jī)會在多個行業(yè)領(lǐng)域,接觸到企業(yè)內(nèi)部最真實的數(shù)據(jù)分析需求。這其中有超過80%數(shù)據(jù)是以非結(jié)構(gòu)化的形式存在,這些數(shù)據(jù)結(jié)構(gòu)復(fù)雜多樣、數(shù)據(jù)關(guān)聯(lián)性較差。在企業(yè)實際商業(yè)決策過程中,原始數(shù)據(jù)結(jié)構(gòu)并不適合直接展開分析,在結(jié)構(gòu)層面就對數(shù)據(jù)分析造成困難,更無法從多個維度聯(lián)系數(shù)據(jù)并產(chǎn)生商業(yè)價值。
早在十年前,熊博士就曾與Samuel博士在劍橋結(jié)識。由于專業(yè)關(guān)系,二人曾多次討論商業(yè)與數(shù)據(jù)分析結(jié)合可能性,以及如何最終實現(xiàn)“讓計算機(jī)讀懂?dāng)?shù)據(jù)”這一目標(biāo)。彼時二人發(fā)現(xiàn),數(shù)據(jù)分析有兩個難點(diǎn)尚未解決:首先是企業(yè)對數(shù)據(jù)分析需求還未充分產(chǎn)生,行業(yè)普遍還處于信息化的初級階段;其次是計算能力和算法發(fā)展仍不足,在當(dāng)時還缺乏完備機(jī)器學(xué)習(xí)算法能讓計算機(jī)擁有對大規(guī)模數(shù)據(jù)閱讀能力和自我提升。
也正是從那時起,二人就開始在技術(shù)和商業(yè)需求方面進(jìn)行探索,最終在2016年創(chuàng)辦成立開數(shù)科技,寓意“打開數(shù)字,挖掘并展示數(shù)據(jù)深層價值”。在IT設(shè)備儲存數(shù)據(jù)已常態(tài)化的今天,數(shù)據(jù)價值挖掘卻越來越難,其中一個主要原因在于非結(jié)構(gòu)化數(shù)據(jù)不能簡單實現(xiàn)結(jié)構(gòu)化。對此,熊博士向億歐介紹,從技術(shù)難度來說,對日志等機(jī)器數(shù)據(jù)、以及文本等自然語言這些非結(jié)構(gòu)化數(shù)據(jù)的分析是數(shù)據(jù)行業(yè)難點(diǎn)。首先一個原因在于數(shù)據(jù)量:非結(jié)構(gòu)化數(shù)據(jù)占比非常巨大,而日志、文字等文本數(shù)據(jù)之間又存在強(qiáng)聯(lián)系,大量數(shù)據(jù)和交叉維度分析對計算機(jī)處理能力提出了高要求;其次,數(shù)據(jù)分析結(jié)果的實時性也逐漸被企業(yè)重視,并對IT架構(gòu)提出更高要求,傳統(tǒng)BI(Business Intelligence,商業(yè)智能)分析軟件在進(jìn)行數(shù)據(jù)智能化分析時很難實現(xiàn)實時分析,大數(shù)據(jù)量使得系統(tǒng)計算壓力驟增,而難以掌握實時分析結(jié)果,則直接影響企業(yè)決策的制定和實施。
基于此,開數(shù)科技著眼于現(xiàn)有企業(yè)數(shù)據(jù)分析需求和物聯(lián)網(wǎng)發(fā)展前景,開發(fā)了“朗錄”(CAMPASS)平臺軟件,通過云端服務(wù)和軟硬一體機(jī)形式,為中型和大型客戶提供機(jī)器數(shù)據(jù)分析的企業(yè)服務(wù)。
其中朗錄的網(wǎng)絡(luò)服務(wù)器模塊通過挖掘服務(wù)器日志數(shù)據(jù),為企業(yè)提供一下功能:
1)運(yùn)營維護(hù):通過日志分析判斷諸如網(wǎng)站故障等原因,并提供防護(hù)建議,檢查日常運(yùn)營過程中可能出現(xiàn)的潛在風(fēng)險與故障原因;
2)精準(zhǔn)營銷:在日志中不乏用戶大量行為記錄,企業(yè)可以獲得精準(zhǔn)用戶畫像,為營銷提供數(shù)據(jù)支撐;
3)合規(guī)審計:日志作為服務(wù)器最本源的機(jī)器數(shù)據(jù),被認(rèn)為是最佳的“信息取證”來源,有助于了解企業(yè)目前的規(guī)范性是否達(dá)標(biāo),并作為審計跟蹤的有力支撐。
基于云端SaaS服務(wù),企業(yè)用戶可以隨時通過互聯(lián)網(wǎng)獲取數(shù)據(jù)分析結(jié)果。更重要的是,作為大數(shù)據(jù)分析產(chǎn)品,朗錄實現(xiàn)了實時數(shù)據(jù)可視化查看,通過二維重構(gòu),企業(yè)用戶可實時查看地理、時間等多維度下數(shù)據(jù)分析結(jié)果,方便企業(yè)及時做出經(jīng)營調(diào)整,真正實現(xiàn)對現(xiàn)實業(yè)務(wù)驅(qū)動與改善。
而在人工智能方面,開數(shù)科技則是通過NLP技術(shù)及機(jī)器學(xué)習(xí)算法,實現(xiàn)強(qiáng)文本挖掘和知識網(wǎng)絡(luò)搭建。上述技術(shù)帶來的革新意義在于:NLP可以讓計算機(jī)直接讀懂自然語言數(shù)據(jù),結(jié)合機(jī)器學(xué)習(xí)算法分析,可以讓數(shù)據(jù)處理更為高效、產(chǎn)出更有價值的分析結(jié)果。以用戶訪問為例,區(qū)域性用戶訪問可以反映產(chǎn)品投放集中度,而用戶在社交網(wǎng)站、商業(yè)網(wǎng)站的互動也能集中反映用戶對產(chǎn)品的取向性。傳統(tǒng)做法是對特征數(shù)據(jù)進(jìn)行定義,當(dāng)特征數(shù)據(jù)出現(xiàn)后即呈現(xiàn)對應(yīng)結(jié)果;事實上,自然語言復(fù)雜程度遠(yuǎn)高于定義所能提供的維度,加之?dāng)?shù)據(jù)量巨大,僅靠人工列舉無法完全獲得可靠結(jié)果,更難以形成知識網(wǎng)絡(luò)。
傳統(tǒng)的數(shù)據(jù)分析產(chǎn)品專注于展示實現(xiàn)數(shù)據(jù)的統(tǒng)計結(jié)果,一方面由于數(shù)據(jù)孤島的存在,難以展開多維數(shù)據(jù)分析;另一方面從效率考慮,沒有良好的算法,即便是當(dāng)下先進(jìn)的彈性計算資源也很難承受大數(shù)據(jù)運(yùn)算壓力。NLP技術(shù)、機(jī)器學(xué)習(xí)算法和先進(jìn)IT架構(gòu)的引入,可以很好的解決問題并真正釋放數(shù)據(jù)的價值。
憑借NLP和機(jī)器學(xué)習(xí)算法、成熟的機(jī)器數(shù)據(jù)處理和分析技術(shù),開數(shù)科技打造了具有情感分析引擎、人群畫像分析、產(chǎn)品口碑分析、熱議統(tǒng)計分析、用戶行為分析、品牌傳播分析的大數(shù)據(jù)智能平臺。通過了解網(wǎng)站所處數(shù)據(jù)特異性,基于行業(yè)、企業(yè)數(shù)據(jù)環(huán)境,針對性分析客戶關(guān)聯(lián)數(shù)據(jù),包括微博、企業(yè)博客、公開文本等,最終實現(xiàn)數(shù)據(jù)強(qiáng)關(guān)聯(lián),獲得更具價值的分析結(jié)果。
對于市場前景,熊博士向億歐分析:中國企業(yè)對海量數(shù)據(jù)的分析需求可以推至2008年電商行業(yè)爆發(fā)開始,當(dāng)時中國市場涌現(xiàn)大量電商企業(yè),互聯(lián)網(wǎng)進(jìn)一步發(fā)展和豐富,隨著交易和網(wǎng)站信息井噴,海量數(shù)據(jù)出現(xiàn)并產(chǎn)生價值?!霸腥丝诩t利、市場紅利使得早期電商企業(yè)獲得快速成長,然而在后移動互聯(lián)網(wǎng)時代,簡單的跑馬圈地機(jī)會越來越少,企業(yè)更多情況下需要精耕細(xì)作以提升效率?!毙荑麇|博士認(rèn)為,電商數(shù)據(jù)需求只是互聯(lián)網(wǎng)眾多企業(yè)需求的冰山一角,出行、視頻、企業(yè)服務(wù)等領(lǐng)域也都需要數(shù)據(jù)分析。未來,更多智能化、工業(yè)化改造中出現(xiàn)的智能工業(yè)設(shè)備、物聯(lián)網(wǎng)設(shè)備進(jìn)一步加深了機(jī)器數(shù)據(jù)挖掘需求,市場前景會更大。
作為一家數(shù)據(jù)分析型企業(yè),開數(shù)科技在戰(zhàn)略和產(chǎn)品方面并不局限于日志分析,而是致力于打造面對企業(yè)的非結(jié)構(gòu)化數(shù)據(jù)分析平臺,該平臺上會形成一系列服務(wù)于不同應(yīng)用場景的數(shù)據(jù)產(chǎn)品。這些產(chǎn)品與市場上其他數(shù)據(jù)產(chǎn)品將共同開拓未來的大數(shù)據(jù)市場。
在客戶服務(wù)方面,開數(shù)科技以“云端+部署”形式,滿足不同層級企業(yè)客戶需求。一方面,可以為KA級客戶提供定制化企業(yè)服務(wù),基于企業(yè)特點(diǎn)行業(yè)屬性實現(xiàn)“軟硬結(jié)合”服務(wù);而中小企業(yè)則可以根據(jù)其提供的功能全面的云端SaaS服務(wù),快速有效實現(xiàn)日常數(shù)據(jù)分析需求。
回過頭來聊創(chuàng)業(yè),Samuel Lee博士和熊梓鍇博士都擁有資深的國際一流研究背景,旨在用自身技術(shù)滿足市場上尚未被滿足的、快速成長的非結(jié)構(gòu)化數(shù)據(jù)分析需要。在人工智能技術(shù)大爆發(fā)、創(chuàng)業(yè)公司林立的情況下,身處新一波創(chuàng)業(yè)浪潮中,科學(xué)技術(shù)水平仍然是大數(shù)據(jù)公司的核心競爭力與壁壘。
三、四十年前美國市場上就已出現(xiàn)科學(xué)家創(chuàng)業(yè)浪潮,“將知識轉(zhuǎn)化為生產(chǎn)力”是當(dāng)時大學(xué)與商業(yè)公司合作的主要訴求,傳統(tǒng)硅谷公司中,科學(xué)家搭配商業(yè)人才是常有的創(chuàng)業(yè)路線。因此熊梓鍇博士認(rèn)為,科學(xué)家背景的知識型創(chuàng)業(yè)在中國也將成為一股潮流,市場上會涌現(xiàn)出越來越多技術(shù)驅(qū)動型創(chuàng)業(yè)團(tuán)隊。在產(chǎn)業(yè)升級浪潮中,開數(shù)科技希望憑借技術(shù)實力與行業(yè)見解,在產(chǎn)業(yè)升級機(jī)會下幫助到更多互聯(lián)網(wǎng)企業(yè)以及傳統(tǒng)企業(yè),實現(xiàn)數(shù)據(jù)驅(qū)動業(yè)務(wù)增長的目標(biāo),讓更多企業(yè)感受到數(shù)據(jù)分析帶來的商業(yè)價值。