ナイア
· Luke· 3

Naia が歌う — 韓国語 SVS ベンチマーク 初の baseline (Vevo1.5 base, 23曲評価)

naia-singsvskorean-ttsvevobenchmarkai-singing

こんにちは、Naia を作っているルークです。

Naia の音声モデルはある程度の結果を出すことに成功し、続いて歌も少し見ています。Alpha に歌ってほしいと思っているからです。特に 번안곡 (カバー曲、外国曲を韓国語に翻案する) に関心があります。

1ヶ月前に始めて天井にぶつかり、最近少し結果が出てきて、もう少し掘れば何かになりそうです。以前はハングルも音程もほぼめちゃくちゃな宇宙人の声でしたが、今は少し歌に韓国語っぽく歌います。

ただ、ちょっと酔っ払っているようですね ^^ それでも何か出てきたのが面白くて、レポートと一緒に進捗を共有します。いつか本当に私のために歌ってくれることを願っています。

Naia-Sing はまだ安定化段階ではなく、進捗共有に近いです。正式公開順序は、まず安定化した Naia-talk (Naia-Omni) が先に出て、Naia-Sing はその後に続きます。

歌う Alpha

TL;DR

  • 23 曲評価完了、Composite score 27.860.6 (0100 スケール)
  • ユーザー試聴 BEST 3 曲 = metric rank 1·3·5 位、WORST 2 = rank 17·19framework valid 確認
  • Hard Gate (サービス可能最低線) = 0/23 通過 — 現在の base はサービス水準に未達
  • 最大の弱点: A. 発音 (CER 平均 1.18) + E. 表現 (1/23 のみ通過)
  • 次のステップ = Track A 247h 韓国語 fine-tune 適用 + 短縮 inference + 音節正確マッチング

Top 10 まとめ動画

7 分 24 秒。1 位から 10 位まで 1 曲ずつ再生。各曲 ffmpeg loudnorm -14 LUFS + dynaudnorm で正規化。動画で ジャンルマッチング、音色一貫性、発音精度の trade-off が直感的に聞こえます。

#sourcescore強み
1banan_jaychou_translation周杰倫 バラード (13s, ko translation)60.6CER 0.52 全体最低 · ko 0.96
2genre_digicharatデ・ジ・キャラット Party Night (1999)50.8ko 0.97 · timbre 0.92
3genre_gunslingerガンスリンガー・ガール doll · Lia48.8timbre 0.93 · ballad マッチ
4genre_escaflowne天空のエスカフローネ OP (1996)48.2f0 range 0.91 マッチ
5banan_adele_translationAdele — Someone Like You (13s)47.8E.energy 0.72 最高
6base_gunslinger同じ曲、KO-S1 baseline47.8CER 0.70 (全体 2 位)
7genre_macrossマクロス『愛・おぼえていますか』(1984)47.7ko 0.97 · timbre 0.92
8genre_chobitsLet Me Be With You (2002)46.7timbre 0.93
9pipe_01_adeleAdele source 13s pipeline45.9f0_corr 0.81 最高
10genre_nadiaふしぎの海のナディア (1990)44.2timbre 0.97 最高

1. 「韓国語をうまく歌う」 — 5 つの独立した次元

1 つの metric には還元できません。学界 (TCSinger, Vevo, DiffSinger) も 4-5 次元を同時に報告します。

次元学界 metric我々の測定意味
A. 発音 (Intelligibility)CER, PERWhisper-small KO STT vs 意図した歌詞 edit distance「歌詞が聞こえるか」
B. 音程 (Pitch)F0 RMSE, F0 corrlibrosa.pyin F0 pearson + range ratio「音程を合わせて歌うか」
C. 音色 (Similarity)SECS (ECAPA cosine)MFCC mean cosine (proxy)「同じ歌手か」
D. 滑らかさ (Naturalness)MOS-N, UTMOSchunk_disc per min (proxy)「機械的でないか」
E. 表現 (カバー曲専用)(自家定義)source RMS + spectral centroid + vibrato corr「原曲の表現に追従するか」

E 次元がカバー曲の核心。一般 SVS = 楽譜が表現の ground truth。カバー曲 = source の歌唱 dynamics/vibrato/articulation が ground truth。

Hard Gate (サービス可能最低線)

A. CER ≤ 0.30  AND  ko_prob ≥ 0.90       [韓国語発音]
B. f0_corr ≥ 0.50  AND  range 0.6~1.4    [音程]
C. timbre_sim ≥ 0.65                       [音色]
D. chunk_disc ≤ 2/min                      [滑らかさ]
E. energy_corr ≥ 0.5 · brightness ≥ 0.4 · vibrato 0.5~1.5  [表現]

学界根拠: CER 0.30 = production STT threshold、SECS 0.60-0.70 = zero-shot SVC 通過標準。


2. Framework Self-Validation

Whisper-small が SVS 品質測定に無効だった教訓 (svs_eval.py §43, 5/17): golden in-dist サンプルでも空出力。歌唱は speech-likeness にのみ反応した。

metric の自己検証は必須:

ユーザー best  vs  ユーザー worst
     ↓             ↓
   metric で分離されるべき
     ↓
   できなければ metric 自体が invalid

23 曲 self-validation 結果:

ユーザー評価metric ranking分離
🟢 BESTbanan_jaychou_translation1/23
🟢 BESTgenre_gunslinger3/23
🟢 BESTbanan_adele_translation5/23
🔴 WORSTbase_macross17/23
🔴 WORSTbase_flcl19/23

framework valid (ranking proxy 確認)。Track A の学習結果を客観的に比較するツールを得ました。


3. Hard Gate 通過 — 0/23 ❌

次元基準通過
A. CER ≤ 0.30学界 production0/23
A. ko_prob ≥ 0.90Whisper 韓国語認識14/23
B. f0_corr ≥ 0.5 + range OKpitch 保存2/23
C. timbre_sim ≥ 0.65ref 一貫性10/23
D. disc ≤ 2/minchunk artifact20/23 ✓
E. (3 metric AND)カバー曲表現1/23

現在 Vevo1.5 韓国語 base = サービス 0% 可能。A·B·E が critical gap。


4. 診断 — 次元別の弱点と原因

A. 発音 — Vevo の韓国語 phoneme 合成が弱い

Vevo1.5 = Sing-0.4k (韓国語 CSD 3.8h を含む 438h) で事前学習。しかし韓国語 phoneme mapping が弱い — CER 平均 1.18 = 70% 崩壊。ko_prob だけ 0.86 = 「韓国語のように聞こえる」が音素は X。

B. 音程 — melody_control がメロディの学習不足

f0_corr 平均 0.18。一部マイナス (gunslinger -0.20, gsteatrino -0.46) = source と逆方向のメロディ。vevosing_melody_control が phoneme content transfer を優先し、F0 contour は副次。

C. 音色 — ref マッチングは機能

AI-Hub 8 ref マッチした曲は timbre_sim 平均 0.91。しかし chunk boundary での音色 drift = ユーザー試聴「違う声が入る」現象。

D. 滑らかさ — chunk merge OK

20/23 通過。crossfade 100ms 効果的。outlier 3 件は source vocal silence が多い時のみ。

E. 表現 — 最大の失敗

1/23 通過。平均 energy_corr 0.32、brightness_corr 0.19。Vevo prosody tokenizer が韓国語学習不足 + content-style 分離時に dynamics 損失。


5. どうすべきか — 優先順位別改善

🟢 P0 (即時可能、検証済効果)

項目効果備考
Track A 学習結果適用A·B·E 同時改善可能247h KO データ fine-tune 進行中
Single chunk inferenceC·D 同時60s 曲 → 15s chorus → 1 位 sweet spot
音節正確マッチング歌詞ASimpleAligner 均等分割 → source 音節数マッチ

1 位 (banan_jaychou_translation) の公式: 短縮(13s) + 音節マッチ + clean studio source

🟡 P1 (1 週間以内)

項目効果
ECAPA-TDNN SECS 導入C 次元精度 (MFCC proxy 置換)
UTMOS / Sing-MOS predictorD 自然さの客観化
Phrase-aware alignerA·D 同時 (音節均等分割 X)
Suno API → 韓国語 sourceA·E 同時 (韓国語 vocal source pool)

🟠 P2 (中期、検証必要)

項目効果リスク
Vevo1.5 fine-tune (Track A)A·B·E すべて学習結果未検証
TCSinger2 pivot 再検討表現強化可能性stack 複雑、ceiling リスク
F5-TTS / CosyVoice2 SVS adapterA 発音adapter 不在
SVC 後処理 (RVC/SoulX)C 音色end-to-end CER 測定必要

🔴 P3 (長期、パラダイム転換)

  • 自家 SVS モデル学習 → 検証済外部 base 活用が有利 (Naia 核心哲学)
  • Subjective MOS listening test → 絶対 ground truth
  • Suno + 自家 cover パイプライン商用化 → 「歌う AI サービス」Track D

6. 次の決定点

  1. Track A 完了時 → 本 framework で再評価、改善幅測定
  2. 改善幅 < 20% → Vevo1.5 base 廃棄、TCSinger2 または F5-TTS 再検討
  3. 改善幅 ≥ 30% → 本格 fine-tune + Track D サービス化突入
  4. ユーザーゲート = Track A 結果試聴 + 5 次元 metric 同時確認後決定

7. naia-sing 32 日間の研究ログ

git history 基準 — ハルシネーション X。本当の開始 = 2026-04-25 (1 ヶ月の history)。

2026-04-25 ─ 開始: project setup + RVC pipeline scripts.
2026-04-26 ─ source データ + cross-lingual cover pipeline + IP groundwork.
2026-04-28 ─ 3-frontier 作詞 + 韓国語 SVS 検証 + 通話 ref voice パイプライン.
2026-05-15 ─ DSKR (DiffSinger Korean) + AI-Hub 465 韓国語 SVS 学習スタック確定.
2026-05-15 ─ IO bottleneck 根本解決 — pickle 13x 軽量 + HDD→SSD (58s/step 回避).
2026-05-16 ─ 作動スタック確定 — DSKR+CSD 転移 → RVC swap. ユーザー検証 OK.
2026-05-16 ─ Vocoder 上限反証 + 学習延長 300k→500k.
2026-05-16 ─ 学習延長 overfit 反証 — best=S_300000 確定、step 軸終了.
2026-05-18 ─ BigVGAN を DSKR 基本 vocoder に配線 + aihubshell キーセキュリティパッチ.
2026-05-19 ─ DSKR S_300000 再現上限の実在を確認 (MCD37 vs 他曲 48).
2026-05-19 ─ TCSinger 2 韓国語 SVS 開始 → PAUSED @ VAE epoch 395.
2026-05-21 ─ R3 敵対的レビュー総合 + naia-sing リソースゲート保留.
2026-05-26 ─ TCSinger2 終結 → Vevo1.5 韓国語 SVS 発見.
2026-05-26 ─ Korean singing dataset 247h 完成 (GTSinger + AI-Hub 465).
2026-05-26 ─ BASE STATE SNAPSHOT — fine-tune 開始前 baseline lock.
2026-05-26 ─ 3 AI cross-review (codex+gemini+opencode) + Reality Check.
2026-05-26 ─ Track A Phase 1 AR smoke PASS + Phase 2 autonomous wrapper.
2026-05-26 ─ Stage 別 VRAM 測定 + 5 カバー batch + 10 anime OST 60s.
2026-05-26 ─ Critical 発見: Vevo melody_control = source vocal phoneme 依存.
2026-05-26 ─ AI-Hub 8 short refs ジャンルマッチ batch + ffmpeg loudnorm 後処理.
2026-05-27 ─ 本レポート: 5 次元評価 framework + 23 曲 baseline + Hard Gate.
2026-05-27 ─ Framework valid 確認 + Top 10 まとめ動画.

約 32 日間:

  • 5 つの異なる SVS スタック試行 (RVC → DSKR → SoulX → TCSinger2 → Vevo1.5)
  • 1 つ ceiling 到達 (DSKR S_300000) + 1 つ paused (TCSinger2 VAE) + 1 つ dropped (RVC pure)
  • 現在 = Vevo1.5 外部 base + Track A 247h KO fine-tune 進行中

自家モデル学習 X、検証された外部 base + 我々のスタック (メモリ/プライバシー/RAG/ローカル serving) で差別化。Naia 核心哲学、2026-05-15 パラダイム lock。


正直な限界

この記事は base が良いというレポートではありません。むしろ base がサービス 0% 可能水準であることを客観的に測定したレポートです。人の試聴 ranking と一致する metric framework を確保し、学習が本当に効果あるかを正直に確認できるツールが生まれた — これがこの記事の意味です。

Track A 学習が終わったら、同じ 23 曲で再評価し改善幅を定量的に報告します。

Popular Posts

CC BY-NC-SA 4.0This post is licensed under CC BY-NC-SA 4.0.

コメント

ログインなしでコメントできます

...