電腦領域 HKEPC Hardware - Powered by Discuz! Board

標題: Raid 5 由5隻HD組成, 一次過死兩隻碟.....有經驗ching入嚟幫幫手 [打印本頁]

作者: kk30 時間: 2021-5-18 21:10 標題: Raid 5 由5隻HD組成, 一次過死兩隻碟.....有經驗ching入嚟幫幫手

本帖最後由 kk30 於 2021-5-24 14:15 編輯

我部係Synology DS1520+ 由5隻 6TB HD組成，但突然間2隻碟一齊死，想試下抄番啲資料出嚟，但已經抄唔到資料出嚟。死嗰2隻碟仲係新買約一星期。無辦法下唯有reboot睇下點，reboot完佢又話重新接駁，現在做緊Data scrubbing 做完唔知有冇機會救得番呢?

作者: Kin_2012 時間: 2021-5-18 21:15

我部係Synology DS1520+ 由5隻 6TB HD組成，但突然間2隻碟一齊死，想試下抄番啲資料出嚟，但已經抄唔到資料 ...
kk30 發表於 2021-5-18 21:10

Raid5 本來就已經唔適合近代硬碟用, 危險係必然, 用得就做多幾份 backup

作者: kk30 時間: 2021-5-18 21:17

回覆 2# Kin_2012

最重要嗰1.3TB資料有備份，但另外嗰十幾T資料希望都救得番

作者: KinChungE 時間: 2021-5-18 22:02

照圖片睇, 個array已經起翻, 應該已經讀到data
你有冇試下開黎睇? 開到的話盡快backup

作者: wunit 時間: 2021-5-18 22:21

直接落在DMS落call比synology, 開定support入面個Enable remote access (router唔使開port, 咩都唔使set), 開定一個temp admin account

比個identification key + admin account user/pwd比synology, 簡易講話炒左Raid-5, 叫佢識下幫你mount起做read-only, 抄得幾多得幾多

冇比漏野的話通常2個工作日左右會有人覆你同remote

準備定一隻USB碟, 一mount到read-only就先抄走重要野

作者: kk30 時間: 2021-5-18 22:29

這裡話可以按下來修復，我想等完整做完Data scrubbing之後才按修復

作者: tingcrab 時間: 2021-5-19 00:09

一次過死兩隻唔尋常，平時有無間唔中一頭半個月做data scrubbing？如果一直都無咁呢個可能係原因，硬碟無死，只係平時無做scrubbing個raid data integrity有輕微出錯所導致。

但呢種情況我自己遇過嗰陣個volume重叫做讀得返九成。未知你個情況係完全讀唔到定點…

via HKEPC Reader for Android

作者: kk30 時間: 2021-5-19 00:15

本帖最後由 kk30 於 2021-5-19 00:18 編輯

回覆 7# tingcrab

唔知關唔關事，這個Raid 5 原本係由3 X 6TB 組成，近這星期先後兩次加一隻6TB HD上去加大個容量，會唔會係咁樣令到個raid 5 唔穏定，而今次出錯嗰兩隻HD就係最新加入嗰兩隻HD

作者: vtrchan 時間: 2021-5-19 11:36

果兩隻HDD係咩牌子型號?

作者: tingcrab 時間: 2021-5-19 15:22

回復 8 #kk30

其實如果副RAID5/6一直都無做過disk scrubbing的話，好大機會係咁樣無故地死。再加多隻上去可能parity再將問題加大，最終trigger disk failure繼而排山倒海地整個raid crash咗。

Software Raid尤其madam嘅需要間唔中做disk scrubbing以避免此等情況。最初S記無UI做只能行console去做，但後來S記都應該知會有問題所以後來的DSM版本已加此功能落Storage Manager UI中…

via HKEPC Reader for Android

作者: 觀星是答案 時間: 2021-5-19 16:02

回復 kk30

其實如果副RAID5/6一直都無做過disk scrubbing的話，好大機會係咁樣無故地死。再加多隻上去可能 ...
tingcrab 發表於 2021-5-19 15:22

而且仲可以排程做 , 避免唔記得

圖片附件: Capture.PNG (2021-5-19 16:02, 13.63 KB) / 下載次數 32
https://www.hkepc.com/forum/attachment.php?aid=2264145&k=eabbfc043fcfda2822f0115269e7768e&t=1781083010&sid=4Nk9Iz8s0j

作者: jackwong717 時間: 2021-5-19 16:28

我部不能說昨日都係炒左隻basic bt碟，唔救資料，洗晒d資料又正常番。

Android 紅米note8pro

作者: sitewa 時間: 2021-5-19 19:16

我部係Synology DS1520+ 由5隻 6TB HD組成，但突然間2隻碟一齊死，想試下抄番啲資料出嚟，但已經抄唔到資料 ...
kk30 發表於 2021-5-18 21:10

我試過, 我就RAID 5 4隻, DS412+
不過好少少就係一隻一隻咁死, 當死左一隻時候已經換新一碟rebuild raid, 點知rebuild 時再死另一隻,
最後成個RAID 掛左, 好在有backup, 所以真係祝你好運，希望你救刑Data

作者: kk30 時間: 2021-5-19 23:26

果兩隻HDD係咩牌子型號?
vtrchan 發表於 2021-5-19 11:36

新嗰兩隻都係 Seagate Ironwolf PRO 6T

作者: kk30 時間: 2021-5-19 23:28

本帖最後由 kk30 於 2021-5-19 23:30 編輯

一次過死兩隻唔尋常，平時有無間唔中一頭半個月做data scrubbing？如果一直都無咁呢個可能係原因，硬碟無死 ...
tingcrab 發表於 2021-5-19 00:09

其實我三月中已經做過一次Data scrubbing, 下一次排程咗係九月中再做, 排程半年做一次

現在見過鬼怕黑, 改為排程三個月做一次

作者: kk30 時間: 2021-5-19 23:36

行咗接近20小時data scrubbing後, 應該回復正常

作者: tingcrab 時間: 2021-5-20 01:56

其實我三月中已經做過一次Data scrubbing, 下一次排程咗係九月中再做, 排程半年做一次

現在見過鬼 ...
kk30 發表於 2021-5-19 23:28

我都唔知半年做一次都出問題，之前我都係三個月先做一次…

via HKEPC Reader for Android

作者: 風十三 時間: 2021-5-20 14:21

我都唔知要做，快快趣趣行返轉先。

via HKEPC IR Extreme 4.2.3 - Android(4.2.0)

作者: java2 時間: 2021-5-20 14:53

我是排程每月做一次

其實我三月中已經做過一次Data scrubbing, 下一次排程咗係九月中再做, 排程半年做一次

現在見過鬼 ...
kk30 發表於 2021-5-19 23:28

作者: saldtch 時間: 2021-5-20 15:34

回覆 2# Kin_2012

師兄此話何解呢?

作者: harryytm 時間: 2021-5-20 15:40

本帖最後由 harryytm 於 2021-5-20 15:58 編輯

回覆 Kin_2012

師兄此話何解呢?
saldtch 發表於 2021-5-20 15:34

RAID 5 只容許壞 1 隻碟
RAID 6 容許壞 2 隻碟
壞多過呢個數目成個 RAID 啲 Data 就讀唔到

RAID 1/5/6 嘅作用只係壞碟嘅時候
換壞碟嘅時候 keep 住可以繼續讀到啲 Data
並做唔到任何備份嘅作用
喺家用環境停一陣唔洗死
所以屋企用無需要用 RAID 1/5/6
多咗嘅硬用嚟做 offline-backup 好過

作者: KinChungE 時間: 2021-5-20 16:37

RAID 5 只容許壞 1 隻碟
RAID 6 容許壞 2 隻碟
壞多過呢個數目成個 RAID 啲 Data 就讀唔到

RAID 1/5/6 嘅 ...
harryytm 發表於 2021-5-20 15:40

好多人家用行RAID-5係為左慳錢

backup要兩倍storage
RAID-5只需要一隻碟

作者: saldtch 時間: 2021-5-20 17:01

回覆 21# harryytm

oh 因為我用左9 隻3T 來行3個Raid 5 所以無諗過, 我以為Raid 5個failure tolerance 都夠

作者: jackwong717 時間: 2021-5-20 17:37

好多人家用行RAID-5係為左慳錢
backup要兩倍storage
RAID-5只需要一隻碟
KinChungE 發表於 2021-5-20 16:37

RAID-5係成隻NAS既資料,(只需要一隻碟)
BACKUP重要資料可以只係幾百GB(只需要一隻好舊既碟)

因人而議......BACKUP係唔一定成隻NAS去BACKUP

作者: KinChungE 時間: 2021-5-20 18:00

回覆 harryytm

oh 因為我用左9 隻3T 來行3個Raid 5 所以無諗過, 我以為Raid 5個failure tolerance ...
saldtch 發表於 2021-5-20 17:01

咁多隻碟RAID-5祝你好運

基本上6隻碟已經幾乎一定要RAID-6
你要諗rebuild都有機會fail, 越多碟越易rebuild中途fail

作者: saldtch 時間: 2021-5-20 18:03

回覆 25# KinChungE

行左6年一隻都未死過, 不過每星期都會做scrubbing

作者: Kin_2012 時間: 2021-5-20 22:11

回覆 Kin_2012

師兄此話何解呢?
saldtch 發表於 2021-5-20 15:34

係因為近代大容量硬碟的 URE 高, google 大把資料.

Raid5 根本早已唔安全

作者: harryytm 時間: 2021-5-20 23:02

回覆 harryytm

oh 因為我用左9 隻3T 來行3個Raid 5 所以無諗過, 我以為Raid 5個failure tolerance ...
saldtch 發表於 2021-5-20 17:01

RAID 只能做到即時 Mirror
但做唔到檔案備份嘅作用
刪錯或改錯檔案無得還原

作者: 風十三 時間: 2021-5-20 23:29

1. SHR2 容死HDD2
2. Offline backup 容死HDD2
3. Backup2 應否選擇不RAID ?

作者: Kin_2012 時間: 2021-5-21 00:00

RAID 只能做到即時 Mirror
但做唔到檔案備份嘅作用
刪錯或改錯檔案無得還原 ...
harryytm 發表於 2021-5-20 23:02

只能說你對 raid 應用的認識不足, 知道咩叫 snapshot ?

作者: jackwong717 時間: 2021-5-21 07:49

回復 30 #Kin_2012

炒左個raid,咪又係企响度

Android 紅米note8pro

作者: Kin_2012 時間: 2021-5-21 08:25

回復 Kin_2012

炒左個raid,咪又係企响度

Android 紅米note8pro
jackwong717 發表於 2021-5-21 07:49

咩叫炒左?

不過都無咩所謂, 萬能 key 一定對..

炒左個火牛, 咪又係企响度
炒左塊底板, 咪又係企响度
炒左條電線, 咪又係企响度
炒左張顯卡, 咪又係企响度
炒左張網卡, 咪又係企响度

炒左XYZ, 咪又係企响度

作者: wyhui5124 時間: 2021-5-21 09:46

最重要係BACKUP

愈back得密,lost得愈少

作者: saldtch 時間: 2021-5-21 09:46

本帖最後由 saldtch 於 2021-5-21 10:12 編輯

回覆 27# Kin_2012

原來如此，我仲用緊3T 無問題吧？大容量應該用咩raid？

作者: saldtch 時間: 2021-5-21 09:48

回覆 28# harryytm

我呢幾個raid就正正係用來單向mirror

作者: Kin_2012 時間: 2021-5-21 11:54

回覆 Kin_2012

原來如此，我仲用緊3T 無問題吧？大容量應該用咩raid？
saldtch 發表於 2021-5-21 09:46

上網好多資料...例如...

SATA disk (URE = 1e-14)

作者: saldtch 時間: 2021-5-21 13:36

回覆 36# Kin_2012

我睇過而家係1E15

不過下次再build 野都應該唔用Raid 5 了

作者: Kin_2012 時間: 2021-5-21 13:43

回覆 Kin_2012

我睇過而家係1E15

不過下次再build 野都應該唔用Raid 5 了 ...
saldtch 發表於 2021-5-21 13:36

隻隻碟唔同，睇番 spec.
不過相差唔遠的， Enterprise disk (URE = 1e-15).

Failure rate 可以自己計，有公式的，至於 Raid 5 安唔安全相信大家已經有答案，其實十幾年前已經出晒警告，不過唔少人唔知或者當無事姐。。

作者: saldtch 時間: 2021-5-21 14:47

回覆 38# Kin_2012

所以而家應該將Raid 5 轉Raid 6 先? 之後再諗點轉Raid 10?

作者: Kin_2012 時間: 2021-5-21 15:02

本帖最後由 Kin_2012 於 2021-5-21 15:08 編輯

回覆 Kin_2012

所以而家應該將Raid 5 轉Raid 6 先? 之後再諗點轉Raid 10?
saldtch 發表於 2021-5-21 14:47

根據計算，以你幾隻 3t 計，raid6 rebuild 出事率低好多，家用黎講可以接受了。

作者: hellohelloman 時間: 2021-5-21 17:49

我raid 6 當backup

作者: harryytm 時間: 2021-5-22 13:17

我raid 6 當backup
hellohelloman 發表於 2021-5-21 17:49

RAID 6 唔係 BACKUP
純粹只係安全過單碟少少
一定要配合 Offline Backup 先至夠安全

作者: Kin_2012 時間: 2021-5-22 15:43

RAID 6 純粹只係安全過單碟少少...

harryytm 發表於 2021-5-22 13:17

無知真係可怕......

少少?

作者: pbodq 時間: 2021-5-25 11:14

這裡話可以按下來修復，我想等完整做完Data scrubbing之後才按修復
kk30 發表於 2021-5-18 10:29 PM

小事，只係系統頭兩個partitions花左，這兩個，5隻碟都係行RAID 1 mirror。後面堆data partitions，5隻RAID5一般無散到(MDRAID無話散，一般就等如無事，強行抄資料出來即可)。

按repair後佢會對抄RAID 1。

出現這不同步原因.....太流了，有時不同碟不同型號，其中一兩款，任何原因delay write，sync遲了，handle唔唔好就會甩...
點解Syno現在要搵東芝度身出firmware....

作者: 風十三 時間: 2021-5-26 12:18

答單一問：
今早發生，系統把(10TB)bay2離線，本來諗住放隻8TB頂住先，上網睇說明，原來只可大不可細(所以修復果度唔比click)，見而家啲碟炒到咁高，又再試下把原來的10TB放翻入去，格式化後佢又自動修復中，是否不一定是壞HDD？

作者: onlyuclub 時間: 2021-5-26 15:11

做disk scrubbing有咩用?
我隻NAS用咗5年冇做過disk scrubbing都好地地, 係唔係要做返?

作者: 風十三 時間: 2021-5-26 17:10

請教下Rebuild緊，是否還可以做date backup?

圖片附件: Screenshot 2021-05-26 170859.jpg (2021-5-26 17:10, 29 KB) / 下載次數 40
https://www.hkepc.com/forum/attachment.php?aid=2265174&k=f7dd023bf3a611ad362db3e6f80eb5b7&t=1781083010&sid=4Nk9Iz8s0j

作者: erickleung 時間: 2021-5-26 21:28

應該不是classic Raid 5. 而是Synology hybrid raid ( based on Linux soft raid). 還是call Synology 吧.

作者: KinChungE 時間: 2021-5-26 21:58

請教下Rebuild緊，是否還可以做date backup?
風十三發表於 2021-5-26 17:10

rebuild緊可以照用, 不過會拖慢rebuild
最好當然完全唔掂佢, 等佢成功rebuild先用

作者: pbodq 時間: 2021-5-26 22:58

答單一問：
今早發生，系統把(10TB)bay2離線，本來諗住放隻8TB頂住先，上網睇說明，原來只可大不可細(所以 ...
風十三發表於 2021-5-26 12:18 PM

在絕大多數情況下，SMART無任何問題，就基本上是健康
SMART要求：除了無一般5,C5之外，無read write error rate / retry／線訊號CRC誤差等。

好多時是Synology唔穩定，rebuild就ok
關於rebuild/repair：
1.有次我試過開著Docker / SQL server，Syno係唔比rebuild / repair system partition (大部分apps是裝在system partitions)，要停左services先可以，但並非經常出現這樣現像。至於往後的data partitions，我亦"偶然"遇過不能SMB write或Docker data write in，但另外某些built-in apps是可以同時write share folders的。感覺就是無規律。唔知個Linux點樣lock process read only。

2.亦有次試過system partition花到不能repair，要像你這樣手動erase / format一次才能rebuild

所以我覺得Syno在synchronize方面唔夠robust

你個dialog box唔夠details, degrade可細分，其他頁面會有details
1.只炒system partitions
2.整隻碟全炒

前者的話，data partitions係會繼續正常地sync，對於data integrity本身無影響。Syno repair 時，亦只需很省功夫地快速Sync一次system partitions。

因為我係用SHR RAID6 同時掘幾款礦，又混雜大量不同牌子型號，不同定位的碟：WD七彩碟改TTL delay timer / SMR / enterprise等等。最近7x24 種田，無休無縫read write七至八天，就會甩碟，degrade system partitions RAID1。現在我每跑完一星期後，就會idle一小時休息

班廠商成日話自己d NAS enterprise series點樣點樣error handling，retry timeout云云，一落場亂七八糟併埋一齊後，個Linux MDRAID唔應你就唔應你。d廣告標榜呢d野，我當gimmick，現實應用難符合假設性。

之前更試過特登全用有bad sectors的碟去做

甩碟經歷多了，你就會歸納到如何應對Syno sychronization問題

作者: pbodq 時間: 2021-5-26 23:22

做disk scrubbing有咩用?
我隻NAS用咗5年冇做過disk scrubbing都好地地, 係唔係要做返? ...
onlyuclub 發表於 2021-5-26 03:11 PM

目的是全面檢查data integrity，若有error，會嘗試修正

如果用緊SHR Btrfs，本身每data block read in，Synology已經係實時做integrity check，並自動修正。
而刻意全面地做檢查有個好處，能提早評估隻碟有無問題，健康有無惡化。(有時未必係隻碟物理有問題，而係OS bug寫錯野)

就好似你會唔會每年都花時間去照自己條大腸 / 胃，抑或等到大便有血 / 有d痛先去驗?
當然，做檢查本身係有損耗，醫生一定聲明免責話有機會篤穿條腸或意外併發症云云

作者: 風十三 時間: 2021-5-27 00:44

回覆 49# KinChungE
Thanks

作者: 風十三 時間: 2021-5-27 00:46

回覆 50# pbodq

好詳盡的經驗
Thanks

作者: fakeman 時間: 2021-5-27 03:03

我raid 6 當backup
hellohelloman 發表於 2021-5-21 17:49

raid 只係減少因為死碟而引起 down time 機會, 但絕對唔係 backup, 試想像下, 你如果而家中咗好似 qnap 個 ransomeware 俾人 encrypt 晒 d 嘢, 個 raid 6 幫唔幫到你?

作者: 風十三 時間: 2021-6-1 01:06

下列為 Synology 的每月硬碟健康資訊報表。您亦可在儲存空間管理員 > HDD/SSD > 健康資訊中檢視各顆硬碟的健康資訊。

僅有出現問題的硬碟會顯示於此。

硬碟 8

S.M.A.R.T. 狀態：正常
重新連接硬碟次數： 1
重新辨識硬碟次數： 0
預估壽命： 92%

無咗8%壽命