Java如何实现音频混音 Java Sound API合并多个音频流教程【详解】_技术教程

Java Sound API不支持自动混音，必须手动对齐多路PCM流（同采样率/位深/声道/编码），逐样本相加并归一化防削波，否则会失真；SequenceInputStream仅串行播放，多SourceDataLine并发写入会失败。

Java Sound API 本身不提供直接的“混音”（mixing）高层接口，Mixer 仅支持硬件混音器或线性音频输出路由，无法自动将多个 AudioInputStream 数值相加。真正在 Java 中实现多路音频流叠加（如背景音乐 + 语音解说），必须手动读取、对齐、采样点相加、再归一化，否则会严重削波失真。

为什么 AudioInputStream 直接拼接不是混音

把两个 AudioInputStream 用 SequenceInputStream 串起来，只是顺序播放，不是同时播放；而试图用多个 SourceDataLine 并发写入同一设备，在绝大多数系统上会失败（LineUnavailableException），因为默认音频设备只允许单个写入者。

SequenceInputStream 是串行合并，不是并行混音
SourceDataLine 不支持多线程并发写入同一实例
系统级混音器（如 Windows WASAPI 的“立体声混音”）不可编程控制，且依赖驱动和权限

手动逐样本叠加：核心步骤与注意事项

混音本质是将多个 PCM 音频流在相同时间点的采样值相加。关键前提是所有流必须：采样率一致、位深一致、声道数一致、编码格式一致（如 PCM_SIGNED）。否则需先重采样或格式转换（推荐用 AudioSystem.getAudioInputStream(targetFormat, stream)）。

用 AudioSystem.getAudioFileFormat() 校验输入文件是否兼容
统一转为 AudioFormat：例如 new AudioFormat(44100, 16, 2, true, false)
每次从各流读取 byte[]，按 AudioFormat 解析为有符号 short 值（16-bit）或 float（32-bit）
对每个采样点执行：sum = clip(sum₁ + sum₂ + …)，避免整型溢出（16-bit 相加极易超 ±32767）
最终输出前做幅度归一化（可选）：乘以 0.7f 防削波，或动态缩放

简单双轨混音示例（16-bit stereo PCM）

以下代码假设两个输入流已对齐（同格式、同长度，不足处补零）：

AudioFormat format = new AudioFormat(44100, 16, 2, true, false);
AudioInputStream stream1 = AudioSystem.getAudioInputStream(file1);
AudioInputStream stream2 = AudioSystem.getAudioInputStream(file2);
// 转为目标格式
stream1 = AudioSystem.getAudioInputStream(format, stream1);
stream2 = AudioSystem.getAudioInputStream(format, stream2);

int frameSize = format.getFrameSize(); // 通常为 4 字节（2ch × 2bytes）
byte[] buf1 = new byte[8192];
byte[] buf2 = new byte[8192];
ByteArrayOutputStream mixed = new ByteArrayOutputStream();

int read1, read2;
while ((read1 = stream1.read(buf1)) != -1 && (read2 = stream2.read(buf2)) != -1) {
    int len = Math.min(read1, read2);
    for (int i = 0; i < len; i += 2) {
        // 提取左右声道两个 short（小端）
        short s1 = (short) ((buf1[i] & 0xFF) | (buf1[i+1] << 8));
        short s2 = (short) ((buf2[i] & 0xFF) | (buf2[i+1] << 8));
        // 简单叠加 + 防溢出裁剪
        int sum = s1 + s2;
        sum = Math.max(-32768, Math.min(32767, sum));
        // 写回字节数组
        buf1[i] = (byte) (sum & 0xFF);
        buf1[i+1] = (byte) ((sum >> 8) & 0xFF);
    }
    mixed.write(buf1, 0, len);
}

AudioInputStream mixedStream = new AudioInputStream(
    new ByteArrayInputStream(mixed.toByteArray()), format, mixed.size() / frameSize);