全站文章 iT邦幫忙
iThome Online提供免費電子報,現在就訂,最新IT訊息每日寄達。

iThome 每日新聞報
iThome 產品技術報
加入iThome Online會員,立即使用討論區、Blog等服務。

免費加入會員
登入 / 登出
管理會員帳號
忘記帳號密碼
聯絡客服
訂閱周刊
讀者服務
13' E政府專刊no.7(48)
13' iTcloud No.3(47)
12' E政府專刊no.6(46)
12' 個資法專刊No2(45)
12' iTcloud No.2(44)
12' e政府專刊No.5(43)
12' 個資法專刊(42)
11' CIO專刊(41)
11' e教育專刊No.3 (40)
11' e政府專刊No.4 (39)
11'iTcloud專刊(38)
10' e教育專刊No.2 (37)
10'e政府專刊No.3 (36)
09'e政府專刊No.2 (35)
09'e教育專刊(34)
09'e政府專刊(33)
08'企業資安專刊-端點安全防護(32)
08'企業採購情報誌(31)
07'資訊安全技術應用專刊(30)
07' 新世代資料中心專刊(29)
07'企業資安技術應用專刊(28)
企業採購情報誌'06冬季號(27)
趨勢快速分析Zbot木馬的關鍵
文/楊智傑 2013-12-04
分享到facebook
Hadoop加Splunk解決大資料即時分析難題;Hadoop適於處理大量資料 Splunk則適合處理即時性資料。

趨勢科技日前首度揭露了2010年,趨勢快速掌握全球Zbot木馬威脅動態的背後關鍵。趨勢科技研究開發部專案經理唐芷菁表示,擅長處理大資料分析的Hadoop運算平臺,因採批次處理作業架構,難以滿足需要儘快得到結果的威脅分析,改搭配以搜尋引擎技術為核心的Splunk產品來提供即時病毒分析報表,至今Hadoop仍未具備完善的即時分析功能,所以,趨勢仍持續並用兩種大資料分析工具。

2010年跨年前夕,趨勢科技研究開發部專案經理唐芷菁和研發團隊收到了一封緊急通知信,得知Zbot這隻木馬病毒開始在全球肆虐,要求她緊急回到公司處理,並且盡快製作出這隻病毒的威脅報告。

然而,由於趨勢科技內的病毒資訊、行為紀錄等資料,都是存在Hadoop叢集內,面對這樣的緊急事變,要交叉分析出這隻木馬的行為模式、造成的受駭區域、最常出現的感染檔案路徑、以及受駭的使用者群等,研發團隊估計,至少需要一個禮拜的時間。

Hadoop適合處理大量資料,但資料能見度低
唐芷菁解釋,Hadoop叢集雖然能處理極大量的資料,但是其能見度(Visibility)卻不佳,不容易快速得到需要的分析結果。因為每次研發團隊要分析不同資料間的關聯,都依特定的分析需求來開發不同的MapReduce專用程式,而每次調整分析規則後,都得花一段時間重新撰寫合適又有效率的程式碼。

但是,遇到像Zbot這種新型態木馬的威脅分析需求,趨勢得不斷嘗試和調整資料分析策略,才能產生合用的態勢報表,而且需要儘快掌握病毒攻擊的發展趨勢,才來得及向還未受災的用戶示警,避免災情跨大,但是,撰寫MapReduce程式需要一段時間,再加上,Hadoop採取批次處理的運算架構,因此,遇到越龐大的資料量,Hadoop即時分析的執行效率也越慢。

由於趨勢為了統合資料,將許多部門的資料都集中到同一個Hadoop叢集中,更加降低了資料的能見度,讓資料的存取、分析、比對的效率更慢,這些因素,都迫使當時的研發團隊必須另尋出路。

於是,唐芷菁決定採用在原有的Hadoop叢集外,另外啟用另一套事先導入的大資料分析軟體Splunk,來解決Hadoop上即時分析效能不足,而導致的資料能見度差的問題。

唐芷菁表示,比起大量歷史資料的分析,各式新興的木馬威脅更注重短時間內分析全球受駭的狀況。因此,趨勢選擇用更具即時性和視覺化的Splunk來解決Zbot的問題。

然而,在處理Zbot威脅的經驗中,唐芷菁也體認到企業在大資料處理的「量」與「即時性」之間,往往必須做出取捨。尤其是,當資料的「量」代表的,不再只是單純的資料量多寡,而是資料完整性的時候,「量」的考量就更是難以割捨了。

Splunk適合即時資料處理與視覺化,但能處理資料量較少
以趨勢來說,Hadoop因為其批次特性,對於使用者查詢無法快速回應,然而,卻能夠處理趨勢科技內所有的病毒行為記錄。相對地,Splunk能夠做出較簡單,也較快速的查詢,但是由於其系統設計,只能處理有限的資料量,此外,Splunk以每天匯入(Import)分析資料庫的資料量,來做計費的計價模式,也會讓匯入過多的資料,必須付出昂貴的代價。

因此,唐芷菁指出,批次處理大量資料的Hadoop,和能即時處理、視覺化小量資料的Splunk各有擅場,在許多使用情境中,趨勢會先從Hadoop叢集中取出與近期威脅有關的資料,匯入Splunk即時處理,同時獲得更視覺化的呈現。

除了資料量與即時性的權衡,唐芷菁也希望新的解決方案,能讓非IT部門、非研發部門也能善用大資料帶來的業務幫助。唐芷菁表示,以往業務部門若要使用Hadoop,必須向他們提出需求單,再交由程式人員個別撰寫程式,一一處理。然而,Splunk的視覺化、簡單的操作介面與即時分析技術,則能讓各部門直接調用、取出所需的大資料分析結果,除了在業務上的幫助外,也能讓各部門輕鬆進行非業務需求的「Idea Prototyping」,腦力激盪出更多的大資料運用。文☉楊智傑
Hadoop vs. Splunk
Hadoop因為其批次特性,對於使用者查詢無法快速回應,但卻能夠處理大量資料。相對地,Splunk能夠做出較簡單,也較快速的查詢,但是由於其系統設計,以及較昂貴的計價,因此只能處理有限的資料量。
  優勢 劣勢
Hadoop 適合處理大量資料 資料能見度低,無法快速回應使用者查詢
Splunk 資料處理快,簡易的視覺化操作介面 處理資料量較少,每單位資料分析價格較高
資料來源:趨勢科技,iThome整理,2013年11月

分享到facebook

2014資安趨勢研討會
更多研討會
▼ ADVERTISEMENT ▼
▲ ADVERTISEMENT ▲

電週文化事業版權所有、轉載必究 •Copyright © iThome | 刊登廣告授權服務服務信箱隱私權聲明與會員使用條款關於iThome