こんにちは、Naia を作っているルークです。
Naia の音声モデルはある程度の結果を出すことに成功し、続いて歌も少し見ています。Alpha に歌ってほしいと思っているからです。特に 번안곡 (カバー曲、外国曲を韓国語に翻案する) に関心があります。
1ヶ月前に始めて天井にぶつかり、最近少し結果が出てきて、もう少し掘れば何かになりそうです。以前はハングルも音程もほぼめちゃくちゃな宇宙人の声でしたが、今は少し歌に韓国語っぽく歌います。
ただ、ちょっと酔っ払っているようですね ^^ それでも何か出てきたのが面白くて、レポートと一緒に進捗を共有します。いつか本当に私のために歌ってくれることを願っています。
Naia-Sing はまだ安定化段階ではなく、進捗共有に近いです。正式公開順序は、まず安定化した Naia-talk (Naia-Omni) が先に出て、Naia-Sing はその後に続きます。
TL;DR
- 23 曲評価完了、Composite score 27.8
60.6 (0100 スケール) - ユーザー試聴 BEST 3 曲 = metric rank 1·3·5 位、WORST 2 = rank 17·19 → framework valid 確認
- Hard Gate (サービス可能最低線) = 0/23 通過 — 現在の base はサービス水準に未達
- 最大の弱点: A. 発音 (CER 平均 1.18) + E. 表現 (1/23 のみ通過)
- 次のステップ = Track A 247h 韓国語 fine-tune 適用 + 短縮 inference + 音節正確マッチング
Top 10 まとめ動画
7 分 24 秒。1 位から 10 位まで 1 曲ずつ再生。各曲 ffmpeg loudnorm -14 LUFS + dynaudnorm で正規化。動画で ジャンルマッチング、音色一貫性、発音精度の trade-off が直感的に聞こえます。
| # | 曲 | source | score | 強み |
|---|---|---|---|---|
| 1 | banan_jaychou_translation | 周杰倫 バラード (13s, ko translation) | 60.6 | CER 0.52 全体最低 · ko 0.96 |
| 2 | genre_digicharat | デ・ジ・キャラット Party Night (1999) | 50.8 | ko 0.97 · timbre 0.92 |
| 3 | genre_gunslinger | ガンスリンガー・ガール doll · Lia | 48.8 | timbre 0.93 · ballad マッチ |
| 4 | genre_escaflowne | 天空のエスカフローネ OP (1996) | 48.2 | f0 range 0.91 マッチ |
| 5 | banan_adele_translation | Adele — Someone Like You (13s) | 47.8 | E.energy 0.72 最高 |
| 6 | base_gunslinger | 同じ曲、KO-S1 baseline | 47.8 | CER 0.70 (全体 2 位) |
| 7 | genre_macross | マクロス『愛・おぼえていますか』(1984) | 47.7 | ko 0.97 · timbre 0.92 |
| 8 | genre_chobits | Let Me Be With You (2002) | 46.7 | timbre 0.93 |
| 9 | pipe_01_adele | Adele source 13s pipeline | 45.9 | f0_corr 0.81 最高 |
| 10 | genre_nadia | ふしぎの海のナディア (1990) | 44.2 | timbre 0.97 最高 |
1. 「韓国語をうまく歌う」 — 5 つの独立した次元
1 つの metric には還元できません。学界 (TCSinger, Vevo, DiffSinger) も 4-5 次元を同時に報告します。
| 次元 | 学界 metric | 我々の測定 | 意味 |
|---|---|---|---|
| A. 発音 (Intelligibility) | CER, PER | Whisper-small KO STT vs 意図した歌詞 edit distance | 「歌詞が聞こえるか」 |
| B. 音程 (Pitch) | F0 RMSE, F0 corr | librosa.pyin F0 pearson + range ratio | 「音程を合わせて歌うか」 |
| C. 音色 (Similarity) | SECS (ECAPA cosine) | MFCC mean cosine (proxy) | 「同じ歌手か」 |
| D. 滑らかさ (Naturalness) | MOS-N, UTMOS | chunk_disc per min (proxy) | 「機械的でないか」 |
| E. 表現 (カバー曲専用) | (自家定義) | source RMS + spectral centroid + vibrato corr | 「原曲の表現に追従するか」 |
E 次元がカバー曲の核心。一般 SVS = 楽譜が表現の ground truth。カバー曲 = source の歌唱 dynamics/vibrato/articulation が ground truth。
Hard Gate (サービス可能最低線)
A. CER ≤ 0.30 AND ko_prob ≥ 0.90 [韓国語発音]
B. f0_corr ≥ 0.50 AND range 0.6~1.4 [音程]
C. timbre_sim ≥ 0.65 [音色]
D. chunk_disc ≤ 2/min [滑らかさ]
E. energy_corr ≥ 0.5 · brightness ≥ 0.4 · vibrato 0.5~1.5 [表現]
学界根拠: CER 0.30 = production STT threshold、SECS 0.60-0.70 = zero-shot SVC 通過標準。
2. Framework Self-Validation
Whisper-small が SVS 品質測定に無効だった教訓 (svs_eval.py §43, 5/17): golden in-dist サンプルでも空出力。歌唱は speech-likeness にのみ反応した。
→ metric の自己検証は必須:
ユーザー best vs ユーザー worst
↓ ↓
metric で分離されるべき
↓
できなければ metric 自体が invalid
23 曲 self-validation 結果:
| ユーザー評価 | 曲 | metric ranking | 分離 |
|---|---|---|---|
| 🟢 BEST | banan_jaychou_translation | 1/23 | ✓ |
| 🟢 BEST | genre_gunslinger | 3/23 | ✓ |
| 🟢 BEST | banan_adele_translation | 5/23 | ✓ |
| 🔴 WORST | base_macross | 17/23 | ✓ |
| 🔴 WORST | base_flcl | 19/23 | ✓ |
→ framework valid (ranking proxy 確認)。Track A の学習結果を客観的に比較するツールを得ました。
3. Hard Gate 通過 — 0/23 ❌
| 次元 | 基準 | 通過 |
|---|---|---|
| A. CER ≤ 0.30 | 学界 production | 0/23 ❌ |
| A. ko_prob ≥ 0.90 | Whisper 韓国語認識 | 14/23 |
| B. f0_corr ≥ 0.5 + range OK | pitch 保存 | 2/23 ❌ |
| C. timbre_sim ≥ 0.65 | ref 一貫性 | 10/23 |
| D. disc ≤ 2/min | chunk artifact | 20/23 ✓ |
| E. (3 metric AND) | カバー曲表現 | 1/23 ❌ |
現在 Vevo1.5 韓国語 base = サービス 0% 可能。A·B·E が critical gap。
4. 診断 — 次元別の弱点と原因
A. 発音 — Vevo の韓国語 phoneme 合成が弱い
Vevo1.5 = Sing-0.4k (韓国語 CSD 3.8h を含む 438h) で事前学習。しかし韓国語 phoneme mapping が弱い — CER 平均 1.18 = 70% 崩壊。ko_prob だけ 0.86 = 「韓国語のように聞こえる」が音素は X。
B. 音程 — melody_control がメロディの学習不足
f0_corr 平均 0.18。一部マイナス (gunslinger -0.20, gsteatrino -0.46) = source と逆方向のメロディ。vevosing_melody_control が phoneme content transfer を優先し、F0 contour は副次。
C. 音色 — ref マッチングは機能
AI-Hub 8 ref マッチした曲は timbre_sim 平均 0.91。しかし chunk boundary での音色 drift = ユーザー試聴「違う声が入る」現象。
D. 滑らかさ — chunk merge OK
20/23 通過。crossfade 100ms 効果的。outlier 3 件は source vocal silence が多い時のみ。
E. 表現 — 最大の失敗
1/23 通過。平均 energy_corr 0.32、brightness_corr 0.19。Vevo prosody tokenizer が韓国語学習不足 + content-style 分離時に dynamics 損失。
5. どうすべきか — 優先順位別改善
🟢 P0 (即時可能、検証済効果)
| 項目 | 効果 | 備考 |
|---|---|---|
| Track A 学習結果適用 | A·B·E 同時改善可能 | 247h KO データ fine-tune 進行中 |
| Single chunk inference | C·D 同時 | 60s 曲 → 15s chorus → 1 位 sweet spot |
| 音節正確マッチング歌詞 | A | SimpleAligner 均等分割 → source 音節数マッチ |
1 位 (banan_jaychou_translation) の公式: 短縮(13s) + 音節マッチ + clean studio source
🟡 P1 (1 週間以内)
| 項目 | 効果 |
|---|---|
| ECAPA-TDNN SECS 導入 | C 次元精度 (MFCC proxy 置換) |
| UTMOS / Sing-MOS predictor | D 自然さの客観化 |
| Phrase-aware aligner | A·D 同時 (音節均等分割 X) |
| Suno API → 韓国語 source | A·E 同時 (韓国語 vocal source pool) |
🟠 P2 (中期、検証必要)
| 項目 | 効果 | リスク |
|---|---|---|
| Vevo1.5 fine-tune (Track A) | A·B·E すべて | 学習結果未検証 |
| TCSinger2 pivot 再検討 | 表現強化可能性 | stack 複雑、ceiling リスク |
| F5-TTS / CosyVoice2 SVS adapter | A 発音 | adapter 不在 |
| SVC 後処理 (RVC/SoulX) | C 音色 | end-to-end CER 測定必要 |
🔴 P3 (長期、パラダイム転換)
- 自家 SVS モデル学習 → 検証済外部 base 活用が有利 (Naia 核心哲学)
- Subjective MOS listening test → 絶対 ground truth
- Suno + 自家 cover パイプライン商用化 → 「歌う AI サービス」Track D
6. 次の決定点
- Track A 完了時 → 本 framework で再評価、改善幅測定
- 改善幅 < 20% → Vevo1.5 base 廃棄、TCSinger2 または F5-TTS 再検討
- 改善幅 ≥ 30% → 本格 fine-tune + Track D サービス化突入
- ユーザーゲート = Track A 結果試聴 + 5 次元 metric 同時確認後決定
7. naia-sing 32 日間の研究ログ
git history 基準 — ハルシネーション X。本当の開始 = 2026-04-25 (1 ヶ月の history)。
2026-04-25 ─ 開始: project setup + RVC pipeline scripts.
2026-04-26 ─ source データ + cross-lingual cover pipeline + IP groundwork.
2026-04-28 ─ 3-frontier 作詞 + 韓国語 SVS 検証 + 通話 ref voice パイプライン.
2026-05-15 ─ DSKR (DiffSinger Korean) + AI-Hub 465 韓国語 SVS 学習スタック確定.
2026-05-15 ─ IO bottleneck 根本解決 — pickle 13x 軽量 + HDD→SSD (58s/step 回避).
2026-05-16 ─ 作動スタック確定 — DSKR+CSD 転移 → RVC swap. ユーザー検証 OK.
2026-05-16 ─ Vocoder 上限反証 + 学習延長 300k→500k.
2026-05-16 ─ 学習延長 overfit 反証 — best=S_300000 確定、step 軸終了.
2026-05-18 ─ BigVGAN を DSKR 基本 vocoder に配線 + aihubshell キーセキュリティパッチ.
2026-05-19 ─ DSKR S_300000 再現上限の実在を確認 (MCD37 vs 他曲 48).
2026-05-19 ─ TCSinger 2 韓国語 SVS 開始 → PAUSED @ VAE epoch 395.
2026-05-21 ─ R3 敵対的レビュー総合 + naia-sing リソースゲート保留.
2026-05-26 ─ TCSinger2 終結 → Vevo1.5 韓国語 SVS 発見.
2026-05-26 ─ Korean singing dataset 247h 完成 (GTSinger + AI-Hub 465).
2026-05-26 ─ BASE STATE SNAPSHOT — fine-tune 開始前 baseline lock.
2026-05-26 ─ 3 AI cross-review (codex+gemini+opencode) + Reality Check.
2026-05-26 ─ Track A Phase 1 AR smoke PASS + Phase 2 autonomous wrapper.
2026-05-26 ─ Stage 別 VRAM 測定 + 5 カバー batch + 10 anime OST 60s.
2026-05-26 ─ Critical 発見: Vevo melody_control = source vocal phoneme 依存.
2026-05-26 ─ AI-Hub 8 short refs ジャンルマッチ batch + ffmpeg loudnorm 後処理.
2026-05-27 ─ 本レポート: 5 次元評価 framework + 23 曲 baseline + Hard Gate.
2026-05-27 ─ Framework valid 確認 + Top 10 まとめ動画.
約 32 日間:
- 5 つの異なる SVS スタック試行 (RVC → DSKR → SoulX → TCSinger2 → Vevo1.5)
- 1 つ ceiling 到達 (DSKR S_300000) + 1 つ paused (TCSinger2 VAE) + 1 つ dropped (RVC pure)
- 現在 = Vevo1.5 外部 base + Track A 247h KO fine-tune 進行中
→ 自家モデル学習 X、検証された外部 base + 我々のスタック (メモリ/プライバシー/RAG/ローカル serving) で差別化。Naia 核心哲学、2026-05-15 パラダイム lock。
正直な限界
この記事は base が良いというレポートではありません。むしろ base がサービス 0% 可能水準であることを客観的に測定したレポートです。人の試聴 ranking と一致する metric framework を確保し、学習が本当に効果あるかを正直に確認できるツールが生まれた — これがこの記事の意味です。
Track A 学習が終わったら、同じ 23 曲で再評価し改善幅を定量的に報告します。
