Board logo

標題: [開箱] 吃飽飯沒事幹系列之Mellanox MCX555A 100Gbps NIC開箱 [打印本頁]

作者: inori    時間: 2023-9-5 17:24     標題: 吃飽飯沒事幹系列之Mellanox MCX555A 100Gbps NIC開箱

本帖最後由 inori 於 2023-9-7 11:09 編輯

你沒看錯亦沒寫錯,  不是100Mbps, 也不是10Gbps, 是100Gbps
其實差不多19年開始已經有人在玩100Gbps洋垃圾
在ebay找到兩張挺化算的買來試試看
賣家是在以色列發貨
兩張咭都是Made in India
[attach]2387750[/attach]
[attach]2387751[/attach]
[attach]2387771[/attach]

還有就是要買一條30M QSFP28的AOC 主動式光纖線
因為比5M更長的話就沒法使用DAC
我是買原裝Mellanox的, 代用的有兼容性的問題存在免得中伏
還有這線材有是分ETH版跟IB版, 我是買IB版的能兼容ETH, 反之不行
[attach]2387753[/attach]
[attach]2387754[/attach]

QSFP28插頭比SFP+粗差不多一倍
[attach]2387755[/attach]
[attach]2387756[/attach]

眾所周知Server grade hardware上的被動Heatsink是絕對不合適使用在家居環境
雖然加小風扇就應該可以解決問題, 但這會變成多佔了一個PCIE槽
[attach]2387757[/attach]

而且作為一個身患強迫症末期的病人當然這裡要魔改一下
買了兩塊尺寸比較大的紫銅Heatsink
[attach]2387758[/attach]

切割鑽孔修剪打磨拋光足足用了一天的時間
攻牙M2.5用來上風扇螺絲可以方便風扇安裝拆卸清潔
[attach]2387759[/attach]
[attach]2387760[/attach]

大成告成
[attach]2387761[/attach]
[attach]2387762[/attach]
[attach]2387763[/attach]
[attach]2387764[/attach]
[attach]2387765[/attach]
[attach]2387766[/attach]

且慢……還要拉線……將家具搬開把光纖線放進線槽又用了半天
[attach]2387767[/attach]
[attach]2387768[/attach]

終於可以上機測試
100G Switch最便宜的也要5-6k左右還不確定兼容性, 唯有先玩直連吧
[attach]2387769[/attach]
[attach]2387770[/attach]

上機後Windows直接有上古driver已自動安裝
[attach]2387773[/attach]

當然要update一下driver跟firmware
Nvidia(2020收購了Mellanox)將firmware update tool, firmware 跟 driver分別放了在三個地方
https://network.nvidia.com/produ ... are/firmware-tools/
https://network.nvidia.com/support/firmware/connectx5ib/
https://network.nvidia.com/produ ... et/windows/winof-2/
[attach]2387774[/attach]
[attach]2387775[/attach]
[attach]2387776[/attach]

安裝新driver後就能夠在Information的tab看到frimware version跟port type, default是跑IB的所以就算是直連也沒有Link Speed
[attach]2387777[/attach]
因為其實它應該係叫作IB咭(InfiniBand)而不是Ethernet咭,
不過在沒有Mellanox Switch的情況下基本上是沒有辦法設定IB
所以現在唯有轉跑ETH mode
先把Frimware update

裝好firmware update tool後只要將frimware file放在C:\底下
然後command prompt退回去C:\執行這個commnad就可以自動detect有沒有更新
  1. mlxfwmanager
複製代碼
[attach]2387778[/attach]
[attach]2387779[/attach]
找到便可以執行這句來更新
  1. mlxfwmanager -u -d [PCI Device Name] -i [FW File Name]
複製代碼
成功update frimware後就restart電腦
[attach]2387780[/attach]

然後就是把port type由IB改為ETH
首先執行這句來找device name(其實上面mlxfwmanager也有顯示)
  1. mst status
複製代碼
之後執行這句查看目前的link type是哪個屬性
  1. mlxconfig -d [PCI Device Name] -q
複製代碼
[attach]2387781[/attach]
可以看目前是在跑IB
由IB改為ETH執行這句
  1. mlxconfig -d [PCI Device Name] set LINK_TYPE_P1=2
複製代碼
[attach]2387782[/attach]

Restart後就已經可以在Link Speed看到成功直連100Gbps
[attach]2387783[/attach]
[attach]2387784[/attach]

先來一個簡單的file copy測試
(存取一個在gen3 NVMe SSD上的檔案)
峰值大約在30Gbps左右~=3.4GB/s, 輕鬆打破Gen3 SSD的極限
[attach]2387785[/attach]
使用Mellanox自帶的工具nd_send_bw來測試一下極限
峰值在98.04Gbps, 算是收貨吧
[attach]2387786[/attach]

下一步就是要建立RDMA
[attach]2387787[/attach]
RDMA簡單來說就是令Remote的主機可以繞過Server的OS跟CPU,
直接存取記憶體中的資料, 從而減少使用CPU資源
這個年頭NVMe SSD的速度gen5單支已經去到12GB/s以上
每次存取Server上的資料都要經過CPU實在是浪費了CPU的處理能力跟SSD的速度
從taskmanager可以看到NIC在跑的時間都佔用了CPU資源
[attach]2387788[/attach]

Windows Server 2022之間的通信已自動在跑RMDA的如果網咭支持的話
可惜M$沒有下放這個功能到家用的Windows
所以只能使唯一有RDMA功能的Windows Pro workstation來跟Windows server通信
但這個組合也只能夠單向 ,
意思就是由workstation方面發出的指令才能啟動RDMA,
例如由workstation到Server上存/取檔案,
相反如果由Server方到workstation上存/取檔案則不能啟動RDMA

先首要檢查自己的NIC是否support RDMA
看到RDMA Capable是True就沒有問題
  1. Get-SmbClientNetworkInterface
複製代碼
[attach]2387789[/attach]

打開Powershell執行下面的command
想知道command的詳細用途可以自行google
  1. Install-WindowsFeature -Name "Data-Center-Bridging"
  2. Remove-NetQosPolicy -Confirm:$False
  3. Remove-NetQosTrafficClass -Confirm:$False
  4. Disable-NetQosFlowControl -Priority 0,1,2,3,4,5,6,7
  5. Set-NetQosDcbxSetting -InterfaceAlias [NIC Name] –Willing $false -Confirm:$False
  6. New-NetQosPolicy "SMBDirect" -NetDirectPortMatchCondition 445 -PriorityValue8021Action 3
  7. New-NetQosPolicy "Cluster" -Cluster -PriorityValue8021Action 7
  8. New-NetQosPolicy "DEFAULT" -Default -PriorityValue8021Action 0
  9. Enable-NetQosFlowControl -Priority 3,7
  10. New-NetQosTrafficClass "SMB" -Priority 3 -BandwidthPercentage 98 -Algorithm ETS
  11. New-NetQosTrafficClass "Cluster" -Priority 7 -BandwidthPercentage 1 -Algorithm ETS
  12. Set-NetAdapterAdvancedProperty -Name [NIC Name] -RegistryKeyword "*FlowControl" -RegistryValue 0
  13. Get-NetAdapterQos -Name [NIC Name] | Enable-NetAdapterQos
  14. Get-NetAdapterRDMA -Name [NIC Name] | Enable-NetAdapterRDMA
  15. Set-NetOffloadGlobalSetting -NetworkDirectAcrossIPSubnets Allowed
  16. Get-NetAdapterRdma [NIC Name]
複製代碼
如成功啟動RDMA的話會如下圖最後所示
[attach]2387790[/attach]

以上就是windows設置RDMA的方法, 其他的OS例如linux, turenas等設置RDMA貌似更簡單

由於現在所有通訊已經by pass了OS跟CPU,所以沒法監測
再測試一次就可以看到taskmanager中的NIC就算在跑都沒有流量而且CPU使用率也沒有上升
[attach]2387791[/attach]
而這次測試也發現看來SMB的Single thread seq極限是4.6GB/s(40Gbps)左右, 跟100Gbps還有很遠的距離

其實還有一個方法可以監測到NIC的流量
就是把RDMA的Inbound和Outbound加到Performance monitor裡
不過這界面比較難看
[attach]2387792[/attach]
[attach]2387793[/attach]

最後來一個極限測試
這是Server上Ramdisk跑CDM的速度
[attach]2387794[/attach]

然後透過Workstation用SMB direct連接Server上的Ramdisk跑CDM
12159MB/s~=99.7Gbps
[attach]2387795[/attach]
[attach]2387796[/attach]

100Gbps NIC來說暫時還可以跑到Gen5 SSD的極限
不過有一點要注意的就是ConnectX-5系列還是使用PCI-E 3.0
要跑全速100Gbps的話就必需插在x16槽,
目前HEDT只有AMD在更新,
消費級來說找一塊能跑兩條真x16(顯卡+100G NIC)的主板看以mission impossible
要不就課金上ConnectX-5Ex/6/7 PCI-E 4.0那麼使用x8就可以跑100Gbps

正在考慮要不要入手CRS504/CRS518
作者: Once    時間: 2023-9-5 17:46

Ching 利害
我屋企都仲未可以行得曬10G
作者: upsagel    時間: 2023-9-5 20:52

強帖留名 機外儲存完美解決
作者: upsagel    時間: 2023-9-5 20:53

可以透露下 兩張挺化算的 幾錢?
作者: ~小雞~    時間: 2023-9-5 22:04

有料, 多謝分享
作者: TH30    時間: 2023-9-5 22:19

你沒看錯亦沒寫錯,  不是100Mbps, 也不是10Gbps, 是100Gbps

inori 發表於 2023-9-5 05:24 PM


在鯕片上挖坑是用甚麼工具?
作者: Jip仔    時間: 2023-9-5 22:27

好葡萄呀
作者: KT.Cheung    時間: 2023-9-5 23:05

咁樣玩 埋單幾錢?
點解唔玩40Gbps先 直上100Gbps 差唔多$$?

via HKEPC IR 5.1.14 - iOS(5.1.1F)
作者: inori    時間: 2023-9-6 00:37

本帖最後由 inori 於 2023-9-6 01:11 編輯
可以透露下 兩張挺化算的 幾錢?
upsagel 發表於 2023-9-5 08:53 PM


兩張咭埋單$5000鬆啲
我買果間佢寫係全新, 見佢d評價都好高分張咭到手的確係好新
有啲賣Used既好似一張$200鎂左右有交易
條線都$1000
[attach]2387852[/attach]

咭Nvidia自己賣緊$8000一張, 線就$3000幾一條
[attach]2387853[/attach]
作者: inori    時間: 2023-9-6 00:41

本帖最後由 inori 於 2023-9-6 05:05 編輯
咁樣玩 埋單幾錢?
點解唔玩40Gbps先 直上100Gbps 差唔多$$?

via HKEPC IR 5.1.14 - iOS(5.1.1F) ...
KT.Cheung 發表於 2023-9-5 11:05 PM


40Gbps一下就比Gen3 SSD差不多打爆
我8隻U2有7隻都係7.68TB Gen4無理由委屈佢地行低速
而且日後upgrade Gen5唔洗煩又要拉線因為40G行QSFP+,100G行QSFP28
加上見有唔少案例係connectx-3/4用係12/13代intel CPU會有問題, 亦唔支援RoCEv2同NVME-oF
所以唔考慮太舊既40Gbps系列, 新既40Gbps系列又倒不如直接上100Gbps差不遠
[attach]2387854[/attach]
作者: inori    時間: 2023-9-6 00:55

本帖最後由 inori 於 2023-9-6 00:57 編輯
在鯕片上挖坑是用甚麼工具?
TH30 發表於 2023-9-5 10:19 PM


你指正面的話我先用尖咀鉗剪走啲fins先, 然後再用鎢鋼鑼刀銼平
背面的話先用鑽咀鑽到差不多鑽穿, 然後再慢慢用鎢鋼鑼刀往下削,挺花時間的
作者: kenken33    時間: 2023-9-6 01:07

最近先剛開始準備玩40G洋垃圾
作者: murderfreaker    時間: 2023-9-6 03:54

我睇落塊板,有啲似係中國嗰啲再造PCB
但有可能係因為你開閃燈導致。

不過真係是但,就算粒IC本身都已經有咁上下貴。
作者: lau1097    時間: 2023-9-6 09:30

樓主好嘢.
十分喜歡睇呢啲文

via HKEPC IR 5.1.14 - iOS(5.1.1F)
作者: kirafung    時間: 2023-9-6 11:59

好詳細 學到野.
作者: t101    時間: 2023-9-6 14:20

用DAC應該唔太熱,如果換fiber optics要小心散熱
作者: ToNg.    時間: 2023-9-6 15:13

師兄有料
100G卡淨係工作上接觸過

via HKEPC IR 5.1.14 - iOS(5.1.1F)
作者: kenken33    時間: 2023-9-7 10:00

本帖最後由 kenken33 於 2023-9-16 16:58 編輯
用DAC應該唔太熱,如果換fiber optics要小心散熱
t101 發表於 6-9-2023 14:20


AOC 應該唔會點熱,100G DAC 咁鬼粗又硬唔適合拉咁遠同走線槽,除左SWITCH堆疊線基本唔見有人10G 以上會用 DAC

單模塊加線例如需要外接mpo  lc 舊模塊就發熱幾勁下
作者: t101    時間: 2023-9-7 12:02

AOC 應該唔會點熱,100G DAC 咁鬼粗又硬唔適合拉咁遠同走線槽,除左SWITCH堆疊線基本唔見有人10G 以上會 ...
kenken33 發表於 2023-9-7 10:00


睇清楚,原來係AOC cable,唔係DAC。
短距離應該OK
optics係怕熱的。
作者: upsagel    時間: 2023-9-13 12:35

你沒看錯亦沒寫錯,  不是100Mbps, 也不是10Gbps, 是100Gbps
其實差不多19年開始已經有人在玩100Gbps洋 ...
inori 發表於 2023-9-5 17:24



    多謝樓主的分享,已將本帖的引用在 2.5Gbps還嫌不夠?10~100GbE Multi-gigs佈網技術和成本一覽 希望有更多人睇到樓主的精心出品
作者: t101    時間: 2023-9-13 17:21

多謝樓主的分享,已將本帖的引用在  希望有更多人睇到樓主的精心出品 ...
upsagel 發表於 2023-9-13 12:35


good summary

nvme 3500MB/s 需要大概 28Gbps





歡迎光臨 電腦領域 HKEPC Hardware (https://www.hkepc.com/forum/) Powered by Discuz! 7.2