2012年12月14日 星期五

小心局域網環路引起的廣播風暴

筆者公司局域網採用的是星型拓撲結構千兆以太網技術,中心機房配備一台華為6506三層路由交換機,各樓層採用華為3026或者背板堆疊的2026接入核心交換機,各部門計算機通過直接接入或用級連方式通過接入層交換機接進網絡。中心的服務器有多台,提供FTP、文件服務、Web等多項服務。全網分為5個VLAN,根據業務不同為不同網段定義了IP地址。

  隨著接進網絡PC的不斷增多及信息流量的增加,在網絡維護中碰到過各類問題及故障,現在分析其中影響較大的一個故障,談談在治理與維護上的一點經驗和體會。

  ◆故障現象

  某日有多個用戶反映網絡連接情況時通時斷,有時同一樓層的計算機都無法互相Ping通,故障用戶分佈在多個樓層,故障點不集中。對個別端口做互換測試,故障仍然存在。在故障計算機上進行測試,發現可以Ping通網絡中的部分服務器或計算機,Ping核心交換機的IP地址常出現不通、丟包、時延大的現象。利用華為的網絡軟件對可治理的交換機做檢查,沒有明顯的報錯。

  ◆故障排查

  首先懷疑為核心交換機物理故障,觀察交換機的指示燈狀態以及各端口的狀態,顯示正常。對核心交換機清除緩存、關閉重啟,並檢查交換機的配置情況,沒有改變。

  經過以上的檢查和測試,分析故障應該不在硬件部分,利用Sniffer抓包分析軟件將網絡中的數據包抓下來分析,發現有大量數據包來自同一個MAC地址,目的地址是根本不存在的IP,懷疑是類似於「衝擊波殺手」一類會造成網絡堵塞的蠕蟲病毒。根據網絡正常時建立的IP地址及MAC地址對應表查出該機屬於某層的一台PC,初步確認故障點後將MAC地址對應的計算機從網絡中斷開並升級殺毒軟件,然後重新接入網絡,此時故障仍然存在。

  為了確定具體故障點,要求該單位提供其接入拓撲圖分析,發現該單位將分屬於兩個不同VLAN的連線分別連接兩個不同的Hub,當天為了使用方便,將兩個Hub用級聯的方式連接到了一起,將其連線斷開後,故障徹底排除。

  ◆故障原因

  此次故障原因分析主要是由於網絡中有環路存在,造成每一幀都在網絡中重複廣播,引起了廣播風暴。要消除這種網絡循環連接帶來的網絡廣播風暴可以使用STP協議(生成樹協議),以網絡中一台交換機為節點生成一棵轉發樹,而樹是沒有環路的,這樣所有的數據都只在這棵樹所指示的路徑上傳輸,就不會產生廣播風暴,但由於SPT算法的開銷非常大,所以交換機上都未啟用該協議。

  為避免在接入層出現同樣的故障,從而影響整個局域網絡用戶的使用,所以在接入層啟用樹生成協議是必要的,或者在診斷故障時可以打開SPT協議協助確定故障點。

  ◆經驗總結

  在故障發生時,應首先瞭解故障前網絡的改動,建立完善的網絡文檔資料。包括網絡布線圖、IP及MAC對應表等,否則在確定MAC地址端口時會消耗大量的時間。現在有很多局域網工具軟件都可以通過掃瞄獲取網絡中的計算機的這些信息,如LanExplorer等。

沒有留言:

張貼留言