首頁-人工智能- 大數據日志收集及智能分析

  • 背景

    隨著企業(yè)信息化的長期發(fā)展和建設,在每個成熟領域均出現了大量的應用系統(tǒng),信息化系統(tǒng)已經成為企業(yè)的命脈,是企業(yè)生成和發(fā)展密不可分的一部分。其要求的業(yè)務聯系性等級越來越高、故障回復時間越來越短,尤其伴隨互聯網業(yè)務的發(fā)展,對系統(tǒng)異常的容忍度也越來越低,這就要求IT部門從上層的業(yè)務應用到底層的基礎設施都要做到全面的掌控,并能夠及時的發(fā)現和解決問題。

    系統(tǒng)運行狀態(tài)和告警信息都是通過系統(tǒng)的運行日志承載的,眾多系統(tǒng)每天會生成海量的日志數據,各企業(yè)將大量的日志信息遺棄或進行回檔入庫,并不能在實際的應用系統(tǒng)管理過程中充分發(fā)揮其價值,反而成為了一種負擔。
  • 解決方案

    基于大數據平臺技術構建統(tǒng)一的應用系統(tǒng)日志數據集市,充分利用大數據平臺特性將企業(yè)內眾多格式多樣和不統(tǒng)一的日志數據源全部進行采集,并集中存儲于大數據平臺,包括:系統(tǒng)日志、網絡日志、安全日志、應用系統(tǒng)運行日志、操作行為日志等等。

    數據處理按照日志數據本身的特性和管理需要進行實時和非實時的數據處理方式,實現對海量歷史數據的和實時數據的分析,協助系統(tǒng)管理人員實現對應用系統(tǒng)運行過程中出現的各種問題的敏捷洞察,快速定位及排障,并能夠通過對歷史數據的演變過程及時發(fā)現未來可能出現的異常狀況。

    通過聚類、回歸分析、關聯規(guī)則、神經網絡等算法實現對海量日志數據的分析可視化和深度挖掘,、完成對應用系統(tǒng)全面監(jiān)控、預警、故障溯源、統(tǒng)計分析等功能。充分利用機器學習和人工智能分析方法,實現對應用系統(tǒng)運行的趨勢分析,在容量規(guī)劃、性能優(yōu)化、客戶滿意度等方面全面發(fā)力,提升IT部門的運維管理能力,提升企業(yè)信息化管理水平。
  • 系統(tǒng)架構

    基礎數據平臺基于大數據平臺框架,在深度學習、人工智能算法、分布式日子服務等方面提供基礎功能模塊支撐。

    在日志采集模塊針對各類應用系統(tǒng)通過可延展的日志采集服務、從日志源采集日志。用戶只需配置源地址、目的地址、收集規(guī)則等簡單配置即可實現日志的高可靠、高可用采集。

    采集到的日志通過日志處理模塊,通過日志接入消息服務Kafka作為消息隊列傳遞給Spark Cluster對日志數據進行計算處理,按照日志數據的采集時間分為熱數據(7~30天)、溫數據(30~90天)和冷數據(90天以上),分別、將處理后的數據寫入到ElasticSearch Cluster、Hive、HDFS中進行保存。

    日志分析模塊首先通過日志數據治理模塊對數據進行清洗、規(guī)則校驗在通過高速分析引擎對日志數據進行各類分析模型進行關聯分析、故障分析、容量分析、業(yè)務支撐分析等。

    在應用與展示模塊,通過數據可視化展示模塊將告警信息、趨勢信息等各種KPI指標進行集中呈現。
  • 方案價值

    1. 充分發(fā)掘數據價值
    全面收集企業(yè)日志數據,通過關聯、聚類等算法對海量日志數據進行分析挖掘,全面提升數據的可用性、易用性。
    2. 提高工作效率
    對系統(tǒng)層、網絡層、應用層等各層級的日志數據進行采集,實現了全方位日志統(tǒng)一管理,支持對各種精確和模糊查詢;根據運維規(guī)范和業(yè)務管理規(guī)范形成了多維度的數據分析,對已知關注的KPI指標進行直接的呈現。
    3. 全面的數據可視化
    提供故障分析、業(yè)務鏈路分析、安全評估分析、容量規(guī)劃分析、趨勢預警分析等各類直觀的可視化圖表,各種情況直觀呈現,極大提升管理效率。
    4. 提升運營管理能力
    通過對日志數據的管理和挖掘,發(fā)揮其最大價值,并可以根據實際使用情況不斷演進,合理制定企業(yè)IT發(fā)展戰(zhàn)略。