Java如何实现音频混音 Java Sound API合并多个音频流教程【详解】

Java Sound API不支持自动混音,必须手动对齐多路PCM流(同采样率/位深/声道/编码),逐样本相加并归一化防削波,否则会失真;SequenceInputStream仅串行播放,多SourceDataLine并发写入会失败。

Java Sound API 本身不提供直接的“混音”(mixing)高层接口,Mixer 仅支持硬件混音器或线性音频输出路由,无法自动将多个 AudioInputStream 数值相加。真正在 Java 中实现多路音频流叠加(如背景音乐 + 语音解说),必须手动读取、对齐、采样点相加、再归一化,否则会严重削波失真。

为什么 AudioInputStream 直接拼接不是混音

把两个 AudioInputStreamSequenceInputStream 串起来,只是顺序播放,不是同时播放;而试图用多个 SourceDataLine 并发写入同一设备,在绝大多数系统上会失败(LineUnavailableException),因为默认音频设备只允许单个写入者。

  • SequenceInputStream 是串行合并,不是并行混音
  • SourceDataLine 不支持多线程并发写入同一实例
  • 系统级混音器(如 Windows WASAPI 的“立体声混音”)不可编程控制,且依赖驱动和权限

手动逐样本叠加:核心步骤与注意事项

混音本质是将多个 PCM 音频流在相同时间点的采样值相加。关键前提是所有流必须:采样率一致、位深一致、声道数一致、编码格式一致(如 PCM_SIGNED)。否则需先重采样或格式转换(推荐用 AudioSystem.getAudioInputStream(targetFormat, stream))。

  • AudioSystem.getAudioFileFormat() 校验输入文件是否兼容
  • 统一转为 AudioFormat:例如 new AudioFormat(44100, 16, 2, true, false)
  • 每次从各流读取 byte[],按 AudioFormat 解析为有符号 short 值(16-bit)或 float(32-bit)
  • 对每个采样点执行:sum = clip(sum₁ + sum₂ + …),避免整型溢出(16-bit 相加极易超 ±32767)
  • 最终输出前做幅度归一化(可选):乘以 0.7f 防削波,或动态缩放

简单双轨混音示例(16-bit stereo PCM)

以下代码假设两个输入流已对齐(同格式、同长度,不足处补零):

AudioFormat format = new AudioFormat(44100, 16, 2, true, false);
AudioInputStream stream1 = AudioSystem.getAudioInputStream(file1);
AudioInputStream stream2 = AudioSystem.getAudioInputStream(file2);
// 转为目标格式
stream1 = AudioSystem.getAudioInputStream(format, stream1);
stream2 = AudioSystem.getAudioInputStream(format, stream2);

int frameSize = format.getFrameSize(); // 通常为 4 字节(2ch × 2bytes)
byte[] buf1 = new byte[8192];
byte[] buf2 = new byte[8192];
ByteArrayOutputStream mixed = new ByteArrayOutputStream();

int read1, read2;
while ((read1 = stream1.read(buf1)) != -1 && (read2 = stream2.read(buf2)) != -1) {
    int len = Math.min(read1, read2);
    for (int i = 0; i < len; i += 2) {
        // 提取左右声道两个 short(小端)
        short s1 = (short) ((buf1[i] & 0xFF) | (buf1[i+1] << 8));
        short s2 = (short) ((buf2[i] & 0xFF) | (buf2[i+1] << 8));
        // 简单叠加 + 防溢出裁剪
        int sum = s1 + s2;
        sum = Math.max(-32768, Math.min(32767, sum));
        // 写回字节数组
        buf1[i] = (byte) (sum & 0xFF);
        buf1[i+1] = (byte) ((sum >> 8) & 0xFF);
    }
    mixed.write(buf1, 0, len);
}

AudioInputStream mixedStream = new AudioInputStream(
    new ByteArrayInputStream(mixed.toByteArray()), format, mixed.size() / frameSize);

容易被忽略的细节

实际项目中,以下三点常导致静音、爆音或左右声道错位:

  • AudioFormatisBigEndian 必须匹配原始数据——Java 默认小端,但某些 WAV 文件可能为大端
  • 未处理流长度不等:短流读完后需持续填零,否则叠加时数组越界或静音截断
  • 未考虑声道布局:立体声是 LRLR,不是 LLRR;双声道叠加必须 L+L、R+R 分别计算,不能交叉

如果需要实时混音或支持更多轨道,建议改用 JAudioLibs 的 TarsosDS

P 或引入 javax.sound.sampled 的扩展库,原生 API 的混音能力确实非常基础。