基频的文字定义以及如何用librosa提取wav文件基频

发布时间：2022-01-06 18:04:19 作者：柒染
来源：亿速云阅读：560

# 基频的文字定义以及如何用librosa提取wav文件基频

## 1. 基频的基本概念

### 1.1 基频的文字定义

**基频（Fundamental Frequency）**，记作F0，是指周期性信号中最低频率的成分，也是决定音高的主要物理量。在声学领域，基频特指声带振动产生的最低频率分量，是语音和音乐中最核心的声学特征之一。

从数学角度定义，对于一个周期为T的声波信号，其基频计算公式为：

F0 = 1/T (Hz)

其中T表示信号完成一个完整振动周期所需的时间（秒）。

在音乐领域，基频对应着乐音的"音高"（Pitch）概念。例如：
- 标准音A4的基频为440Hz
- 钢琴中央C（C4）的基频约为261.63Hz

### 1.2 基频的感知特性

人类听觉系统对基频的感知具有以下特点：
- **频率范围**：正常人耳可感知的基频范围约为20Hz-20kHz
- **对数感知**：人对音高的感知与频率呈对数关系（如八度音阶对应频率翻倍）
- **缺失基频现象**：即使物理信号中缺少基频分量，听觉系统仍能感知到对应的音高

## 2. 基频提取的常用方法

### 2.1 时域分析方法

**自相关函数法**：
```python
autocorr = np.correlate(signal, signal, mode='full')

峰值检测法： - 通过检测信号波形中的周期性过零点或峰值位置 - 适合纯净的周期性信号

2.2 频域分析方法

傅里叶变换法：

spectrum = np.fft.fft(signal)

谐波积谱法： - 将频谱与其自身的谐波版本相乘增强基频成分

2.3 时频联合方法

短时傅里叶变换（STFT）：

D = librosa.stft(y)

倒谱分析法（Cepstrum）： - 通过对数功率谱的逆傅里叶变换分离激励源和声道响应

3. 使用librosa提取基频

3.1 librosa库简介

Librosa是一个专业的Python音频分析库，具有以下特点： - 支持多种音频格式（wav, mp3等） - 提供丰富的音频特征提取功能 - 包含多种基频提取算法实现

安装命令：

pip install librosa

3.2 基本工作流程

3.2.1 加载音频文件

import librosa

# 加载音频文件
y, sr = librosa.load('audio.wav', sr=None)  # sr=None保持原始采样率

参数说明： - y: 音频时间序列 - sr: 采样率（Hz） - 典型采样率：16kHz（语音）、44.1kHz（音乐）

3.2.2 预加重处理

y = librosa.effects.preemphasis(y)

3.2.3 分帧处理

frame_length = 2048  # 每帧样本数
hop_length = 512     # 帧移

3.3 核心基频提取方法

方法1：librosa.pyin

f0, voiced_flag, voiced_probs = librosa.pyin(
    y,
    fmin=librosa.note_to_hz('C2'),  # 最低频率(Hz)
    fmax=librosa.note_to_hz('C7'),  # 最高频率(Hz)
    frame_length=frame_length,
    hop_length=hop_length
)

参数说明： - fmin/fmax: 搜索范围（建议根据应用场景设置） - 返回： - f0: 估计的基频序列 - voiced_flag: 有声/无声帧标记 - voiced_probs: 有声概率

方法2：librosa.yin

f0 = librosa.yin(
    y,
    fmin=80,
    fmax=400,
    frame_length=frame_length,
    hop_length=hop_length
)

YIN算法特点： - 专为基频检测设计 - 对噪声有一定鲁棒性 - 计算效率较高

3.4 后处理方法

平滑处理

from scipy.ndimage import median_filter

f0_smoothed = median_filter(f0, size=5)  # 中值滤波

可视化

import matplotlib.pyplot as plt

times = librosa.times_like(f0, hop_length=hop_length)

plt.figure(figsize=(12, 6))
plt.plot(times, f0, label='原始F0')
plt.plot(times, f0_smoothed, label='平滑F0')
plt.xlabel('时间(s)')
plt.ylabel('频率(Hz)')
plt.legend()
plt.show()

4. 实际应用案例

4.1 语音基频分析

# 语音文件处理示例
y, sr = librosa.load('speech.wav', sr=16000)
f0 = librosa.pyin(y, fmin=80, fmax=400, sr=sr)

# 转换为音乐音高表示
notes = librosa.hz_to_note(f0[0])

4.2 音乐旋律提取

# 音乐文件处理
y, sr = librosa.load('song.wav', sr=44100)
f0 = librosa.yin(y, fmin=librosa.note_to_hz('C2'),
                fmax=librosa.note_to_hz('C7'))

# 转换为MIDI音高
midi_pitch = librosa.hz_to_midi(f0)

4.3 歌唱评分系统

# 比较用户演唱与标准音高
ref_pitch = 440  # A4标准音高
user_pitch = np.median(f0[voiced_flag])

deviation = 1200 * np.log2(user_pitch/ref_pitch)  # 音分偏差

5. 常见问题与解决方案

5.1 基频估计不准确的可能原因

信号质量问题
- 解决方案：增加预加重、降噪处理
参数设置不当
- 调整fmin/fmax到合适范围
帧长选择不当
- 语音：20-40ms帧长
- 音乐：可能需要更长帧长

5.2 性能优化技巧

降低计算量

# 使用resample降低采样率
y_8k = librosa.resample(y, orig_sr=sr, target_sr=8000)

并行处理

from multiprocessing import Pool

def process_segment(segment):
    return librosa.pyin(segment)

with Pool(4) as p:
    results = p.map(process_segment, audio_segments)

6. 进阶应用方向

6.1 实时基频检测

import sounddevice as sd

def callback(indata, frames, time, status):
    f0 = librosa.yin(indata[:, 0], fmin=80, fmax=400)
    # 实时显示处理...

stream = sd.InputStream(callback=callback)
stream.start()

6.2 深度学习基频估计

import crepe  # 基于CNN的基频估计库

time, frequency, confidence, activation = crepe.predict(y, sr)

6.3 多基频检测（复音音乐）

import mir_eval

f0s = mir_eval.multipitch.estimate(y, sr)

结语

基频提取是音频信号处理的基础任务，librosa提供了高效易用的实现方案。在实际应用中，需要根据具体场景选择合适的算法和参数。随着深度学习技术的发展，基于神经网络的基频估计方法正展现出越来越好的性能，但传统信号处理方法仍具有计算效率高、可解释性强的优势。

注意：本文代码示例需要配合numpy、matplotlib等库使用。实际应用中建议添加异常处理和数据验证逻辑。 “`