ML Audio Dataset on CD

THUNDER出版

ML学習用の「生の声」を、CDであなたの手元に。

Raw speech data for ML training — delivered on CD.

台本のない自然な会話、タイムスタンプ付き書き起こし、話者分離済みコーパス。ASR・TTS・対話モデルの学習に必要なすべてを、物理メディアでお届けします。 Unscripted natural conversation, time-aligned transcripts, speaker-separated corpora. Everything you need for ASR, TTS, and dialogue model training — on physical media.

FLAC
ロスレス音声 / Lossless Audio
CD
物理メディア納品 / Physical Delivery
JSONL
構造化メタデータ / Structured Metadata
100%
商用利用可 / Commercial Use OK

選ばれる理由

Why ML engineers choose Thunder出版 for training data.

🔥
プリミティブな生データ
Primitive Raw Data

台本なし、演技なし。加工・編集を最小限に抑えた、人間の「素の声」そのもの。作られた音声では得られないリアルな学習データ。

No scripts, no acting. Minimally processed, authentic human speech. Real training data you can't get from staged recordings.

💿
CDで届く物理メディア
Physical CD Delivery

データセットをCDで物理納品。クラウド依存なし、サービス終了リスクなし。手元に届いたその日から、完全にあなたのもの。

Delivered on physical CD. No cloud dependency, no service shutdown risk. It's yours from the day it arrives.

🔀
話者分離済みコーパス
Speaker-Separated Corpus

各話者の音声が独立したコーパスとして提供。タイムスタンプ付き書き起こし(JSONL)も完備。購入後すぐにモデル学習へ。

Each speaker's audio is an independent corpus with time-aligned transcripts (JSONL). Ready for immediate model training.

🔓
買い切り永久ライセンス
Perpetual License, No Strings

商用利用・モデル学習・ファインチューニング・学術研究、すべてOK。月額なし、ロイヤリティなし。一度買えば永久にあなたのデータ。

Commercial use, model training, fine-tuning, research — all permitted. No subscriptions, no royalties. Buy once, own forever.

活用シーン

How ML engineers use Thunder出版 datasets.

🗣️
音声認識(ASR)
Automatic Speech Recognition

自然会話の生データで、実用的な音声認識モデルを学習。
Train practical ASR models with real conversational data.

🔊
音声合成(TTS)
Text-to-Speech Synthesis

話者分離済みコーパスで、高品質な音声合成モデルをファインチューニング。
Fine-tune TTS models with speaker-separated corpora.

💬
対話システム
Dialogue Systems

相槌・間・ターンテイキングなど、自然な対話の学習に。
Learn backchannels, pauses, and turn-taking from natural dialogue.

🌐
リアルタイム翻訳
Real-time Translation

タイムスタンプ対訳データで、同時字幕・ライブ翻訳システムを構築。
Build live subtitle and translation systems with timestamp-aligned data.

AiZuchi