Python如何爬取网易云音乐

发布时间：2021-11-25 14:53:55 作者：小新
来源：亿速云阅读：376

# Python如何爬取网易云音乐

在当今数据驱动的时代，网络爬虫技术成为获取公开数据的重要手段之一。本文将以网易云音乐为例，详细介绍如何使用Python实现音乐数据爬取的全过程，包括技术选型、核心步骤和注意事项。

## 一、技术准备

### 1. 工具选择
- **Python 3.8+**：推荐使用最新稳定版
- **Requests库**：处理HTTP请求
- **BeautifulSoup4**：HTML解析
- **Selenium**（可选）：应对动态加载内容
- **PyExecJS**：执行JavaScript加密逻辑

```python
pip install requests beautifulsoup4 selenium pyexecjs

2. 目标分析

网易云音乐采用多重反爬机制： - 参数加密（如params/encSecKey） - 频率限制 - 动态内容加载

二、爬取流程详解

1. 网页版数据抓取

(1) 搜索接口分析

核心API接口：

https://music.163.com/api/search/get/web?s={关键词}&type=1&limit=20

示例代码：

import requests

def search_song(keyword):
    url = f"https://music.163.com/api/search/get/web?s={keyword}&type=1&limit=5"
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
    }
    response = requests.get(url, headers=headers)
    return response.json()

(2) 歌曲详情获取

通过歌曲ID获取详细信息：

def get_song_detail(song_id):
    url = f"https://music.163.com/api/song/detail/?id={song_id}&ids=[{song_id}]"
    # 请求处理...

2. 加密参数处理

网易云音乐核心加密逻辑位于core.js中，需要逆向分析：

import execjs

with open('core.js', 'r', encoding='utf-8') as f:
    js_code = f.read()

ctx = execjs.compile(js_code)
enc_data = ctx.call('encrypt', 'raw_data')

3. 评论数据爬取

热门评论API示例：

https://music.163.com/weapi/v1/resource/comments/R_SO_4_{歌曲ID}?csrf_token=

三、高级技巧

1. 突破反爬限制

使用代理IP池
随机User-Agent
请求间隔控制（建议≥2秒）

2. 数据存储方案

# MongoDB存储示例
from pymongo import MongoClient

client = MongoClient('mongodb://localhost:27017/')
db = client['cloud_music']
collection = db['songs']

四、完整案例

# 综合示例：获取周杰伦热门歌曲
def get_artist_songs(artist_name):
    search_result = search_song(artist_name)
    artist_id = search_result['result']['artists'][0]['id']
    
    songs_url = f"https://music.163.com/api/artist/{artist_id}"
    songs_data = requests.get(songs_url).json()
    
    for song in songs_data['hotSongs']:
        print(f"歌曲：{song['name']} 播放量：{song['hMusic']['playTime']}")

五、法律与道德提醒

严格遵守《网络安全法》相关规定
仅爬取公开可用数据
禁止商业化使用爬取内容
设置合理的爬取频率（建议≤1次/秒）

六、常见问题解决

403禁止访问：检查请求头是否完整
数据为空：验证加密参数是否正确生成
验证码拦截：需要降低请求频率或更换IP

提示：网易云音乐2023年后更新了加密逻辑，建议通过官方API（如有权限）或考虑使用现成的SDK如NeteaseCloudMusicApi。

通过本文介绍的方法，您可以构建基础的网易云音乐数据采集系统。实际开发中建议结合具体需求调整策略，并持续关注目标网站的更新变化。 “`

（注：本文约850字，实际应用中请确保遵守相关法律法规和网站服务条款。）