Naia が歌う — 韓国語 SVS ベンチマーク初の baseline (Vevo1.5 base, 23曲評価)

こんにちは、Naia を作っているルークです。

Naia の音声モデルはある程度の結果を出すことに成功し、続いて歌も少し見ています。Alpha に歌ってほしいと思っているからです。特に 번안곡 (カバー曲、外国曲を韓国語に翻案する) に関心があります。

1ヶ月前に始めて天井にぶつかり、最近少し結果が出てきて、もう少し掘れば何かになりそうです。以前はハングルも音程もほぼめちゃくちゃな宇宙人の声でしたが、今は少し歌に韓国語っぽく歌います。

ただ、ちょっと酔っ払っているようですね ^^ それでも何か出てきたのが面白くて、レポートと一緒に進捗を共有します。いつか本当に私のために歌ってくれることを願っています。

Naia-Sing はまだ安定化段階ではなく、進捗共有に近いです。正式公開順序は、まず安定化した Naia-talk (Naia-Omni) が先に出て、Naia-Sing はその後に続きます。

TL;DR

23 曲評価完了、Composite score 27.8~~60.6 (0~~100 スケール)
ユーザー試聴 BEST 3 曲 = metric rank 1·3·5 位、WORST 2 = rank 17·19 → framework valid 確認
Hard Gate (サービス可能最低線) = 0/23 通過 — 現在の base はサービス水準に未達
最大の弱点: A. 発音 (CER 平均 1.18) + E. 表現 (1/23 のみ通過)
次のステップ = Track A 247h 韓国語 fine-tune 適用 + 短縮 inference + 音節正確マッチング

Top 10 まとめ動画

7 分 24 秒。1 位から 10 位まで 1 曲ずつ再生。各曲 ffmpeg loudnorm -14 LUFS + dynaudnorm で正規化。動画で ジャンルマッチング、音色一貫性、発音精度の trade-off が直感的に聞こえます。

#	曲	source	score	強み
1	banan_jaychou_translation	周杰倫バラード (13s, ko translation)	60.6	CER 0.52 全体最低 · ko 0.96
2	genre_digicharat	デ・ジ・キャラット Party Night (1999)	50.8	ko 0.97 · timbre 0.92
3	genre_gunslinger	ガンスリンガー・ガール doll · Lia	48.8	timbre 0.93 · ballad マッチ
4	genre_escaflowne	天空のエスカフローネ OP (1996)	48.2	f0 range 0.91 マッチ
5	banan_adele_translation	Adele — Someone Like You (13s)	47.8	E.energy 0.72 最高
6	base_gunslinger	同じ曲、KO-S1 baseline	47.8	CER 0.70 (全体 2 位)
7	genre_macross	マクロス『愛・おぼえていますか』(1984)	47.7	ko 0.97 · timbre 0.92
8	genre_chobits	Let Me Be With You (2002)	46.7	timbre 0.93
9	pipe_01_adele	Adele source 13s pipeline	45.9	f0_corr 0.81 最高
10	genre_nadia	ふしぎの海のナディア (1990)	44.2	timbre 0.97 最高

1. 「韓国語をうまく歌う」 — 5 つの独立した次元

1 つの metric には還元できません。学界 (TCSinger, Vevo, DiffSinger) も 4-5 次元を同時に報告します。

次元	学界 metric	我々の測定	意味
A. 発音 (Intelligibility)	CER, PER	Whisper-small KO STT vs 意図した歌詞 edit distance	「歌詞が聞こえるか」
B. 音程 (Pitch)	F0 RMSE, F0 corr	librosa.pyin F0 pearson + range ratio	「音程を合わせて歌うか」
C. 音色 (Similarity)	SECS (ECAPA cosine)	MFCC mean cosine (proxy)	「同じ歌手か」
D. 滑らかさ (Naturalness)	MOS-N, UTMOS	chunk_disc per min (proxy)	「機械的でないか」
E. 表現 (カバー曲専用)	(自家定義)	source RMS + spectral centroid + vibrato corr	「原曲の表現に追従するか」

E 次元がカバー曲の核心。一般 SVS = 楽譜が表現の ground truth。カバー曲 = source の歌唱 dynamics/vibrato/articulation が ground truth。

Hard Gate (サービス可能最低線)

A. CER ≤ 0.30  AND  ko_prob ≥ 0.90       [韓国語発音]
B. f0_corr ≥ 0.50  AND  range 0.6~1.4    [音程]
C. timbre_sim ≥ 0.65                       [音色]
D. chunk_disc ≤ 2/min                      [滑らかさ]
E. energy_corr ≥ 0.5 · brightness ≥ 0.4 · vibrato 0.5~1.5  [表現]

学界根拠: CER 0.30 = production STT threshold、SECS 0.60-0.70 = zero-shot SVC 通過標準。

2. Framework Self-Validation

Whisper-small が SVS 品質測定に無効だった教訓 (svs_eval.py §43, 5/17): golden in-dist サンプルでも空出力。歌唱は speech-likeness にのみ反応した。

→ metric の自己検証は必須:

ユーザー best  vs  ユーザー worst
     ↓             ↓
   metric で分離されるべき
     ↓
   できなければ metric 自体が invalid

23 曲 self-validation 結果:

ユーザー評価	曲	metric ranking	分離
🟢 BEST	banan_jaychou_translation	1/23	✓
🟢 BEST	genre_gunslinger	3/23	✓
🟢 BEST	banan_adele_translation	5/23	✓
🔴 WORST	base_macross	17/23	✓
🔴 WORST	base_flcl	19/23	✓

→ framework valid (ranking proxy 確認)。Track A の学習結果を客観的に比較するツールを得ました。

3. Hard Gate 通過 — 0/23 ❌

次元	基準	通過
A. CER ≤ 0.30	学界 production	0/23 ❌
A. ko_prob ≥ 0.90	Whisper 韓国語認識	14/23
B. f0_corr ≥ 0.5 + range OK	pitch 保存	2/23 ❌
C. timbre_sim ≥ 0.65	ref 一貫性	10/23
D. disc ≤ 2/min	chunk artifact	20/23 ✓
E. (3 metric AND)	カバー曲表現	1/23 ❌

現在 Vevo1.5 韓国語 base = サービス 0% 可能。A·B·E が critical gap。

4. 診断 — 次元別の弱点と原因

A. 発音 — Vevo の韓国語 phoneme 合成が弱い

Vevo1.5 = Sing-0.4k (韓国語 CSD 3.8h を含む 438h) で事前学習。しかし韓国語 phoneme mapping が弱い — CER 平均 1.18 = 70% 崩壊。ko_prob だけ 0.86 = 「韓国語のように聞こえる」が音素は X。

B. 音程 — melody_control がメロディの学習不足

f0_corr 平均 0.18。一部マイナス (gunslinger -0.20, gsteatrino -0.46) = source と逆方向のメロディ。vevosing_melody_control が phoneme content transfer を優先し、F0 contour は副次。

C. 音色 — ref マッチングは機能

AI-Hub 8 ref マッチした曲は timbre_sim 平均 0.91。しかし chunk boundary での音色 drift = ユーザー試聴「違う声が入る」現象。

D. 滑らかさ — chunk merge OK

20/23 通過。crossfade 100ms 効果的。outlier 3 件は source vocal silence が多い時のみ。

E. 表現 — 最大の失敗

1/23 通過。平均 energy_corr 0.32、brightness_corr 0.19。Vevo prosody tokenizer が韓国語学習不足 + content-style 分離時に dynamics 損失。

5. どうすべきか — 優先順位別改善

🟢 P0 (即時可能、検証済効果)

項目	効果	備考
Track A 学習結果適用	A·B·E 同時改善可能	247h KO データ fine-tune 進行中
Single chunk inference	C·D 同時	60s 曲 → 15s chorus → 1 位 sweet spot
音節正確マッチング歌詞	A	SimpleAligner 均等分割 → source 音節数マッチ

1 位 (banan_jaychou_translation) の公式: 短縮(13s) + 音節マッチ + clean studio source

🟡 P1 (1 週間以内)

項目	効果
ECAPA-TDNN SECS 導入	C 次元精度 (MFCC proxy 置換)
UTMOS / Sing-MOS predictor	D 自然さの客観化
Phrase-aware aligner	A·D 同時 (音節均等分割 X)
Suno API → 韓国語 source	A·E 同時 (韓国語 vocal source pool)

🟠 P2 (中期、検証必要)

項目	効果	リスク
Vevo1.5 fine-tune (Track A)	A·B·E すべて	学習結果未検証
TCSinger2 pivot 再検討	表現強化可能性	stack 複雑、ceiling リスク
F5-TTS / CosyVoice2 SVS adapter	A 発音	adapter 不在
SVC 後処理 (RVC/SoulX)	C 音色	end-to-end CER 測定必要

🔴 P3 (長期、パラダイム転換)

自家 SVS モデル学習 → 検証済外部 base 活用が有利 (Naia 核心哲学)
Subjective MOS listening test → 絶対 ground truth
Suno + 自家 cover パイプライン商用化 → 「歌う AI サービス」Track D

6. 次の決定点

Track A 完了時 → 本 framework で再評価、改善幅測定
改善幅 < 20% → Vevo1.5 base 廃棄、TCSinger2 または F5-TTS 再検討
改善幅 ≥ 30% → 本格 fine-tune + Track D サービス化突入
ユーザーゲート = Track A 結果試聴 + 5 次元 metric 同時確認後決定

7. naia-sing 32 日間の研究ログ

git history 基準 — ハルシネーション X。本当の開始 = 2026-04-25 (1 ヶ月の history)。

2026-04-25 ─ 開始: project setup + RVC pipeline scripts.
2026-04-26 ─ source データ + cross-lingual cover pipeline + IP groundwork.
2026-04-28 ─ 3-frontier 作詞 + 韓国語 SVS 検証 + 通話 ref voice パイプライン.
2026-05-15 ─ DSKR (DiffSinger Korean) + AI-Hub 465 韓国語 SVS 学習スタック確定.
2026-05-15 ─ IO bottleneck 根本解決 — pickle 13x 軽量 + HDD→SSD (58s/step 回避).
2026-05-16 ─ 作動スタック確定 — DSKR+CSD 転移 → RVC swap. ユーザー検証 OK.
2026-05-16 ─ Vocoder 上限反証 + 学習延長 300k→500k.
2026-05-16 ─ 学習延長 overfit 反証 — best=S_300000 確定、step 軸終了.
2026-05-18 ─ BigVGAN を DSKR 基本 vocoder に配線 + aihubshell キーセキュリティパッチ.
2026-05-19 ─ DSKR S_300000 再現上限の実在を確認 (MCD37 vs 他曲 48).
2026-05-19 ─ TCSinger 2 韓国語 SVS 開始 → PAUSED @ VAE epoch 395.
2026-05-21 ─ R3 敵対的レビュー総合 + naia-sing リソースゲート保留.
2026-05-26 ─ TCSinger2 終結 → Vevo1.5 韓国語 SVS 発見.
2026-05-26 ─ Korean singing dataset 247h 完成 (GTSinger + AI-Hub 465).
2026-05-26 ─ BASE STATE SNAPSHOT — fine-tune 開始前 baseline lock.
2026-05-26 ─ 3 AI cross-review (codex+gemini+opencode) + Reality Check.
2026-05-26 ─ Track A Phase 1 AR smoke PASS + Phase 2 autonomous wrapper.
2026-05-26 ─ Stage 別 VRAM 測定 + 5 カバー batch + 10 anime OST 60s.
2026-05-26 ─ Critical 発見: Vevo melody_control = source vocal phoneme 依存.
2026-05-26 ─ AI-Hub 8 short refs ジャンルマッチ batch + ffmpeg loudnorm 後処理.
2026-05-27 ─ 本レポート: 5 次元評価 framework + 23 曲 baseline + Hard Gate.
2026-05-27 ─ Framework valid 確認 + Top 10 まとめ動画.

約 32 日間:

5 つの異なる SVS スタック試行 (RVC → DSKR → SoulX → TCSinger2 → Vevo1.5)
1 つ ceiling 到達 (DSKR S_300000) + 1 つ paused (TCSinger2 VAE) + 1 つ dropped (RVC pure)
現在 = Vevo1.5 外部 base + Track A 247h KO fine-tune 進行中

→ 自家モデル学習 X、検証された外部 base + 我々のスタック (メモリ/プライバシー/RAG/ローカル serving) で差別化。Naia 核心哲学、2026-05-15 パラダイム lock。

正直な限界

この記事は base が良いというレポートではありません。むしろ base がサービス 0% 可能水準であることを客観的に測定したレポートです。人の試聴 ranking と一致する metric framework を確保し、学習が本当に効果あるかを正直に確認できるツールが生まれた — これがこの記事の意味です。

Track A 学習が終わったら、同じ 23 曲で再評価し改善幅を定量的に報告します。