大數據技術,就是從各種類型的數據中快速獲得有價值信息的技術。大數據領域已經涌現出了大量新的技術,它們成為大數據采集、存儲、處理和呈現的有力武器。大數據處理關鍵技術一般包括:大數據采集、大數據預處理、大數據存儲及管理、大數據分析及挖掘、大數據展現和應用(大數據檢索、大數據可視化、大數據應用、大數據安全等)。

1.大數據采集技術

數據采集是指通過RFID射頻數據、傳感器數據、社交網絡交互數據及移動互聯網數據等方式獲得的各種類型的結構化、半結構化(或稱之為弱結構化)及非結構化的海量數據,是大數據知識服務模型的根本。重點要突破分布式高速高可靠數據爬取或采集、高速數據全映像等大數據收集技術;突破高速數據解析、轉換與裝載等大數據整合技術;設計質量評估模型,開發數據質量技術。

大數據采集一般分為大數據智能感知層:主要包括數據傳感體系、網絡通信體系、傳感適配體系、智能識別體系及軟硬件資源接入系統,實現對結構化、半結構化、非結構化的海量數據的智能化識別、定位、跟蹤、接入、傳輸、信號轉換、監控、初步處理和管理等。必須著重攻克針對大數據源的智能識別、感知、適配、傳輸、接入等技術?;≈С挪悖禾峁┐笫莘衿教ㄋ璧男檳夥衿?,結構化、半結構化及非結構化數據的數據庫及物聯網絡資源等基礎支撐環境。重點攻克分布式虛擬存儲技術,大數據獲取、存儲、組織、分析和決策操作的可視化接口技術,大數據的網絡傳輸與壓縮技術,大數據隱私?;ぜ際醯?。

2.大數據預處理技術

主要完成對已接收數據的辨析、抽取、清洗等操作。

1、抽?。閡蚧袢〉氖菘贍芫哂卸嘀紙峁購屠嘈?,數據抽取過程可以幫助我們將這些復雜的數據轉化為單一的或者便于處理的構型,以達到快速分析處理的目的。

2、清洗:對于大數據,并不全是有價值的,有些數據并不是我們所關心的內容,而另一些數據則是完全錯誤的干擾項,因此要對數據通過過濾“去噪”從而提取出有效數據。

3.大數據存儲及管理技術

大數據存儲與管理要用存儲器把采集到的數據存儲起來,建立相應的數據庫,并進行管理和調用。重點解決復雜結構化、半結構化和非結構化大數據管理與處理技術。主要解決大數據的可存儲、可表示、可處理、可靠性及有效傳輸等幾個關鍵問題??⒖煽康姆植際轎募低常―FS)、能效優化的存儲、計算融入存儲、大數據的去冗余及高效低成本的大數據存儲技術;突破分布式非關系型大數據管理與處理技術,異構數據的數據融合技術,數據組織技術,研究大數據建模技術;突破大數據索引技術;突破大數據移動、備份、復制等技術;開發大數據可視化技術。

開發新型數據庫技術,數據庫分為關系型數據庫、非關系型數據庫以及數據庫緩存系統。其中,非關系型數據庫主要指的是NoSQL數據庫,分為:鍵值數據庫、列存數據庫、圖存數據庫以及文檔數據庫等類型。關系型數據庫包含了傳統關系數據庫系統以及NewSQL數據庫。

開發大數據安全技術。改進數據銷毀、透明加解密、分布式訪問控制、數據審計等技術;突破隱私?;ず屯評砜刂?、數據真偽識別和取證、數據持有完整性驗證等技術。

4.大數據分析及挖掘技術

大數據分析技術。改進已有數據挖掘和機器學習技術;開發數據網絡挖掘、特異群組挖掘、圖挖掘等新型數據挖掘技術;突破基于對象的數據連接、相似性連接等大數據融合技術;突破用戶興趣分析、網絡行為分析、情感語義分析等面向領域的大數據挖掘技術。

數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數據挖掘涉及的技術方法很多,有多種分類法。

根據挖掘任務可分為分類或預測模型發現、數據總結、聚類、關聯規則發現、序列模式發現、依賴關系或依賴模型發現、異常和趨勢發現等等;

根據挖掘對象可分為關系數據庫、面向對象數據庫、空間數據庫、時態數據庫、文本數據源、多媒體數據庫、異質數據庫、遺產數據庫以及環球網Web;

根據挖掘方法分,可粗分為:機器學習方法、統計方法、神經網絡方法和數據庫方法?;餮爸?,可細分為:歸納學習方法(決策樹、規則歸納等)、基于范例學習、遺傳算法等。統計方法中,可細分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數判別等)、聚類分析(系統聚類、動態聚類等)、探索性分析(主元分析法、相關分析法等)等。神經網絡方法中,可細分為:前向神經網絡(BP算法等)、自組織神經網絡(自組織特征映射、競爭學習等)等。數據庫方法主要是多維數據分析或OLAP方法,另外還有面向屬性的歸納方法。

從挖掘任務和挖掘方法的角度,著重突破:

1、可視化分析。數據可視化無論對于普通用戶或是數據分析專家,都是最基本的功能。數據圖像化可以讓數據自己說話,讓用戶直觀的感受到結果。

2、數據挖掘算法。圖像化是將機器語言翻譯給人看,而數據挖掘就是機器的母語。分割、集群、孤立點分析還有各種各樣五花八門的算法讓我們精煉數據,挖掘價值。這些算法一定要能夠應付大數據的量,同時還具有很高的處理速度。

3、預測性分析。預測性分析可以讓分析師根據圖像化分析和數據挖掘的結果做出一些前瞻性判斷。

4、語義引擎。語義引擎需要設計到有足夠的人工智能以足以從數據中主動地提取信息。語言處理技術包括機器翻譯、情感分析、輿情分析、智能輸入、問答系統等。

5、數據質量和數據管理。數據質量與管理是管理的最佳實踐,透過標準化流程和機器對數據進行處理可以確?;竦靡桓鱸ど柚柿康姆治黿峁?。

分類: 知識中心

發表評論

電子郵件地址不會被公開。 必填項已用*標注