谷銀觀點

河南快3群:谷銀基金行業月度簡報 | 大數據板塊

2019-05-17 程潔 閱讀

河南快32019529072 www.fsishg.com.cn 政策/知識/技術總結

大數據開發需要掌握的技術總結

大數據是對海量數據存儲、計算、統計、分析等一系列處理手段,處理的數據量是TB級,甚至是PB或EB級的數據,是傳統數據處理手段無法完成的,大數據涉及分布式計算、高并發處理、高可用處理、集群、實時性計算等等,匯集的是IT最熱門、最流行的IT技術,大數據是機器學習、深度學習、AI等尖端可以領域的基礎架構。

大數據技術為決策提供依據,在政府、企業、科研項目等決策中扮演著重要的角色,在社會治理和企業管理中起到了不容忽視的作用,例如我國、美國以及歐盟等國家都已將大數據列入國家發展戰略,微軟、谷歌、百度以及亞馬遜等大型企業也將大數據技術列為未來發展的關鍵籌碼。

那么,常用的大數據技術有哪些呢?

第一階段JavaSE + MySql + Linux

Java基礎 → OOP編程 →Java集合→ IO/NIO → Eclipse → Intellij IDEA → Socket網絡技術 → Mysql 數據庫 → JDBC Api → JVM內存結構 → 階段項目實戰 → Linux(VMware、CentOS、目錄結構、Linux命令)

第二階段Hadoop 與 生態系統

Hadoop→ MapReduce → Hive →Avro與Protobuf → Zookeeper → HBase → phoenix →Redis → Flume分布式 → SSM(Spring、SpringMVC、Mybatis) →Kafka架構

第三階段Storm 與Spark 及其生態圈

Scala→ Spark Job → Spark RDD→ spark job部署與資源分配 → Sparkshuffle → Spark SQL → SparkStreaming → Spark ML → azkaban

第四階段Python與數據分析、機器學習算法

第五階段項目實戰、技術綜合運用

大數據商業實戰階段需掌握的技術有:實操企業大數據處理業務場景,分析需求、解決方案實施,綜合技術實戰應用。


大數據處理技術的總結和分析

數據分析處理需求分類

1 事務型處理

在我們實際生活中,事務型數據處理需求非常常見,例如:淘寶網站交易系統、12306網站火車票交易系統、超市POS系統等都屬于事務型數據處理系統。

這類系統數據處理特點包括以下幾點:

一是事務處理型操作都是細粒度操作,每次事務處理涉及數據量都很小;

二是計算相對簡單,一般只有少數幾步操作組成,比如修改某行的某列;

三是事務型處理操作涉及數據的增、刪、改、查,對事務完整性和數據一致性要求非常高;

四是事務性操作都是實時交互式操作,至少能在幾秒內執行完成;

五是基于以上特點,索引是支撐事務型處理一個非常重要的技術。

在數據量和并發交易量不大情況下,一般依托單機版關系型數據庫,例如ORACLE、MYSQL、SQLSERVER,再加數據復制(DataGurad、 RMAN、MySQL數據復制等)等高可用措施即可滿足業務需求。

在數據量和并發交易量增加情況下,一般可以采用ORALCE RAC集群方式或者是通過硬件升級(采用小型機、大型機等,如銀行系統、運營商計費系統、證卷系統)來支撐。

事務型操作在淘寶、12306等互聯網企業中,由于數據量大、訪問并發量高,必然采用分布式技術來應對,這樣就帶來了分布式事務處理問題,而分布式事務處理很難做到高效,因此一般采用根據業務應用特點來開發專用的系統來解決本問題。

2 數據統計分析

數據統計主要是被各類企業通過分析自己的銷售記錄等企業日常的運營數據,以輔助企業管理層來進行運營決策。典型的使用場景有:周報表、月報表等固定時間提供給領導的各類統計報表;市場營銷部門,通過各種維度組合進行統計分析,以制定相應的營銷策略等。

數據統計分析特點包括以下幾點:

一是數據統計一般涉及大量數據的聚合運算,每次統計涉及數據量會比較大。

二是數據統計分析計算相對復雜,例如會涉及大量goupby、 子查詢、嵌套查詢、窗口函數、聚合函數、排序等;有些復雜統計可能需要編寫SQL腳本才能實現。

三是數據統計分析實時性相對沒有事務型操作要求高。但除固定報表外,目前越來越多的用戶希望能做做到交互式實時統計;

傳統的數據統計分析主要采用基于MPP并行數據庫的數據倉庫技術。主要采用維度模型,通過預計算等方法,把數據整理成適合統計分析的結構來實現高性能的數據統計分析,以支持可以通過下鉆和上卷操作,實現各種維度組合以及各種粒度的統計分析。

另外目前在數據統計分析領域,為了滿足交互式統計分析需求,基于內存計算的數據庫倉庫系統也成為一個發展趨勢,例如SAP的HANA平臺。

3 數據挖掘

數據挖掘主要是根據商業目標,采用數據挖掘算法自動從海量數據中發現隱含在海量數據中的規律和知識。

數據挖掘主要過程是:根據分析挖掘目標,從數據庫中把數據提取出來,然后經過ETL組織成適合分析挖掘算法使用寬表,然后利用數據挖掘軟件進行挖掘。傳統的數據挖掘軟件,一般只能支持在單機上進行小規模數據處理,受此限制傳統數據分析挖掘一般會采用抽樣方式來減少數據分析規模。

數據挖掘的計算復雜度和靈活度遠遠超過前兩類需求。一是由于數據挖掘問題開放性,導致數據挖掘會涉及大量衍生變量計算,衍生變量多變導致數據預處理計算復雜性;二是很多數據挖掘算法本身就比較復雜,計算量就很大,特別是大量機器學習算法,都是迭代計算,需要通過多次迭代來求最優解,例如K-means聚類算法、PageRank算法等。

因此總體來講,數據分析挖掘的特點是:

1、數據挖掘的整個計算更復雜,一般是由多個步驟組成計算流,多個計算步驟之間存在數據交換,也就是會產生大量中間結果,難以用一條sql語句來表達。

2、計算應該能夠非常靈活表達,很多需要利用高級語言編程實現。

熱點、趨勢、動態

2019年第七屆中國數據分析行業峰會圓滿落幕

2019年4月27日由中國商業聯合會、中國商業聯合會數據分析專業委員會主辦的以“數往知來 領跑華東”為主題的第七屆中國數據分析行業峰會在山東濟南魯能希爾頓酒店盛大開幕。來自阿里、騰訊、萬寶盛華、工業4.0俱樂部等世界頂尖企業及國內眾多企事業單位的專家、學者、數據分析師們與眾多關注中國大數據發展的朋友共聚濟南,暢享大數據實戰應用價值。

本屆峰會賓朋滿座,人山人海。截止發稿,僅峰會的線上圖文直播頻道觀看已超20000余次,線上視頻直播頻道有4000余人次全程觀看了本屆峰會盛況。中國商業聯合會副會長傅龍成先生致開幕詞【數往知來·領跑華東】,闡述了自己對中國大數據行業發展的獨到見解,并期許中國數據分析人才能夠在大數據變革之中,真正成為國家大數據發展戰略中的中流砥柱。中國商業聯合會數據分析專業委員會會長鄒東生先生反復強調大數據發展前行道路上人才的重要性,并指出大數據的靈魂是分析,而數據分析人才是行業發展的核心驅動力。除了峰會主會場嘉賓的精彩分享,本屆峰會更是同時設置了大數據與智能制造、大數據與商業BI、大數據與實戰應用、大數據執業人才專場四場分論壇。來自中國工程院、濰柴控股集團、帆軟軟件、ATA全美在線、太陽紙業等眾多專家學者,毫無保留的分享了各自領域內數據分析的實戰應用與科研成果。

第七屆中國數據分析行業峰會是一場知識與實戰的盛宴,全國各地的專家學者和大數據人才共聚一堂,共同探討如何讓數據快速、高效的轉化為生產力,并創造商業價值。

投資、并購、重組

生物科技公司“人和未來”完成2.5億元融資

近期消息,總部位于北京的生物科技公司“人和未來”日前宣布,公司剛剛完成了新一輪的A輪融資,融資金額達2.5億元人民幣,投資方為稼沃資本和海捷資本。據了解,“人和未來”成立于2014年7月,是一家以基因科技為核心的健康解決方案提供商,其主營業務包括醫學診斷、智慧健康管理以及生物醫療大數據三個方面。本輪融資完成之后,該公司估值將達到27.5億人民幣。

阿里云“再下一城”,將在印度建成首個數據中心

近些年來,印度在科技方面的發展有目共睹,而在云計算領域,印度儼然已經成為亞洲增速最快的市場之一。早在18年6月,阿里巴巴集團就表示了要進如印度市場的決心。近日更有媒體報道稱,阿里云將在印度孟買建立其在當地的首家數據中心,還中心將于明年3月底建成。

想要共同做“比特幣”的生意,暴風播酷云與BitcoinFile正式達成戰略合作

近日,暴風集團旗下的暴風BFC播酷云宣布已經和BitcoinFile正式達成戰略合作。資料顯示,BIFI是比特幣一個全新的分叉項目,是基于區塊鏈技術的點對點分布式文件系統協議。根據雙方簽訂的協議顯示,未來播酷云將在全球范圍內為BIFI網絡提供全節點支持,而BIFI網絡正式上線播酷云后,也將按照BIFI網絡的規則,將獲得的回報分配給播酷云的用戶。

大數據招聘平臺“億封簡歷”完成A輪融資

日前,基于大數據技術的招聘服務平臺“億封簡歷”宣布完成了新一輪的A輪融資,融資金額暫未透露,投資方為啟賦資本、聯創資本和寧波梅山保稅港區達宏投資。資料顯示,億封簡歷成立于2014年,前身是實力派,主要通過自然語言處理、數據挖掘等人工智能技術,幫助HR獵頭管理線上渠道及本地簡歷。同時通過深度學習,解決人崗匹配難題。


上市公司/標桿企業分析

國內做大數據的公司依舊分為兩類:

一類是現在已經有獲取大數據能力的公司,如百度、騰訊、阿里巴巴等互聯網巨頭以及華為、浪潮、中興等國內領軍企業,涵蓋了數據采集,數據存儲,數據分析,數據可視化以及數據安全等領域。

另一類則是初創的大數據公司,他們依賴于大數據工具,針對市場需求,為市場帶來創新方案并推動技術發展。其中大部分的大數據應用還是需要第三方公司提供服務。

國內大數據主力陣營如下:

(注:以下排名不分先后)

1、阿里巴巴,阿里巴巴擁有交易數據和信用數據,更多是在搭建數據的流通、收集和分享的底層架構;

2、華為,華為云服務整合了高性能的計算和存儲能力,為大數據的挖掘和分析提供專業穩定的IT基礎設施平臺,近來華為大數據存儲實現了統一管理40PB文件系統;

3、百度,百度的優勢體現在海量的數據、沉淀十多年的用戶行為數據、自然語言處理能力和深度學習領域的前沿研究。近來百度正式發布大數據引擎,將在政府、醫療、金融、零售、教育等傳統領域率先開展對外合作;

4、浪潮,浪潮互聯網大數據采集中心已經采集超過2PB數據,并已建立5大類數據分類處理算法。近日成功發布海量存儲系統的最新代表產品AS130000;

5、騰訊,騰訊擁有用戶關系數據和基于此產生的社交數據,騰訊的思路主要是用數據改進產品,注重QZONE、微信、電商等產品的后端數據打通;

6、 探碼科技,探碼科技自主研發的DYSON只能分析系統,可以完整的實現大數據的采集、分析、處理。一直做的國外項目美國最大的律師平臺、醫生平臺和酒店、機票預訂平臺的數據采集、分析、處理。將在國內推出一系列面向政務、企業的創新型大數據研究項目與合作,為各大企業提供高端信息技術咨詢服務;

7、中興通訊,中興通訊推出的“聚焦ICT服務的高效數據中心整體服務解決方案”,可幫助運營商有效解決大數據時代建設IDC面臨的大部分問題,提升運營商ICT融合服務能力;

8、神州融,神州融整合了國內權威的第三方征信機構和電商平臺等信貸應用場景的征信大數據,通過覆蓋信貸全生命周期管理的頂尖風控技術,為微金融機構提供大數據驅動的信貸風控決策服務;

9、中科曙光,中科曙光XData大數據一體機可實現任務自動分解,并在多數據??檣喜⑿兄蔥?,全面提高了復雜查詢條件下的效率;

10、華勝天成,勝天成自主研發的大數據產品“i維數據”,頗具創新,近期又與IBM達成戰略合作關系,涵蓋Linux on Power市場、智慧城市、存儲業務、管理服務、咨詢與應用管理服務;

11、神州數碼,“神州數碼”啟動了“智慧城市”戰略布局,先后推出了市民融合服務平臺、自助終端服務平臺等產品,并在佛山、武漢等“智慧城市”建設中實踐運用;

12、用友,用友在商業分析、大數據處理等領域進行研發,先后推出了用友BQ、用友AE等產品;

13、東軟,東軟大數據戰略以醫療行業為突破口,憑借在社保、醫療行業積累的資源,搭建了東軟熙康這一智慧醫療平臺;

14、金蝶,金蝶KBI與金蝶ERP無縫集成,實現BI數據采集——集成——分析決策支持的一體化應用;

15、寶德,寶德大數據云備份,是一個專為大數據而設的云備份方案,支持實體機及虛擬機備份,而且具有無限擴充的可能,并且完全自動;

16、啟明星辰,大數據時代的IP治理和審計,啟明星辰提供了終端審計、終端數據防泄露、日志審計,通過綜合審計平臺來幫助用戶解決IP治理需求等解決方案;

17、拓爾思,通過收購天行網安,可以拓展在公安行業的應用,目前正著力開拓行業應用市場,挖掘各個產業鏈中的大數據價值;

18、榮之聯,零售、證券、生物、政府等都是榮之聯大數據業務的主要目標行業,已為零售業提供了大數據分析的解決方案,解決了庫存問題;

19、中科金財,作為國內領先的高端IT綜合服務商,主要服務于金融業的大數據;

20、美亞柏科,專注于公安市場,其業務包括電子數據取證、電子數據鑒定、網絡輿情分析、數字維權、公證云、搜索云以及取證云服務;

21、賽思信安,國內存儲技術與服務供應商賽思信安推出了自主研發的大數據管理系統,適用范圍包括互聯網、公眾服務、商業智能、金融、醫療衛生、能源等多個行業;

22、華宇軟件,作為大數據、食品安全、法務軟件等相關熱門行業軟件,同時也是公安領域大數據的上市公司;

23、天璣科技,天璣科技的數據中心運維管理服務,為大數據的分析能力提供了強大的后臺支撐和保障;

24、東方國信,東方國信主營業務為企業商業智能軟件及系統解決方案,收購北科億力和科瑞明,有效拓展了工業和金融大數據領域;

25、華三,華三全融合虛擬化網絡技術能夠極大簡化網絡結構,減輕網絡管理和維護量,為企業數據中心大規模建設提供最強有力的技術支持;

26、??低?,??低踴謨⑻囟鸋adoop發行版,并融合可以靈活按需調配IT資源對應用和服務進行支持的開放架構云計算技術,打造出了視頻智能云計算方案;

27、高德,高德與阿里將在地圖搜索、產品商業化、數據共享、云計算等領域展開合作,特別是在數據共享方面,高德和阿里巴巴將共建一個大數據服務體系;

28、四維圖新,作為提供導航地圖、地理信息系統軟件建設的內容提供商,現在已嘗試使用大數據為政府部門提供決策;

29、海捷科技,專注于商業智能領域(BI)、數據倉庫領域、數據庫領域的專業咨詢、項目實施、軟件開發、系統集成等方面,為金融、電信、快速消費品等行業提供相應方案;

30、北京信合運通,信合運通專注于為運營商和行業客戶提供基于大數據的深度分析和挖掘技術、渠道支撐服務及行業解決方案。


個人用戶登錄 機構用戶登錄
賬號:
密碼:
忘記密碼
新用戶注冊
會員注冊
注冊類型: 個人 機構








發送驗證碼

找回密碼

發送驗證碼


修改密碼


郵箱綁定
更換手機


委托人權限登錄

由于個人隱私既客戶權限問題請點擊輸入身份證號碼進行查看您的資料