Python怎么爬取高质量超清壁纸

发布时间：2021-11-23 11:14:41 作者：iii
来源：亿速云阅读：288

# Python怎么爬取高质量超清壁纸

在当今数字时代，高清壁纸已成为电脑和手机用户日常需求。本文将详细介绍如何利用Python从专业壁纸网站爬取高质量超清壁纸资源，包含完整代码实现和关键技术解析。

## 一、准备工作

### 1.1 选择目标网站
推荐几个优质壁纸来源：
- Wallhaven (https://wallhaven.cc)
- Unsplash (https://unsplash.com/wallpapers)
- WallpaperAbyss (https://wall.alphacoders.com)

本文以Wallhaven为例，因其提供：
- 完善的分类系统
- 分辨率筛选功能
- API友好型结构

### 1.2 安装必备库
```python
pip install requests beautifulsoup4 pillow tqdm

各库作用： - requests：网络请求 - beautifulsoup4：HTML解析 - pillow：图像处理 - tqdm：进度条显示

二、网站结构分析

2.1 页面URL规律

Wallhaven的分页格式：

https://wallhaven.cc/search?q=关键词&page=页码

示例： - 星空壁纸：https://wallhaven.cc/search?q=stars&page=2 - 4K分辨率：https://wallhaven.cc/search?q=&resolutions=3840x2160&page=1

2.2 图片元素定位

通过开发者工具(F12)分析发现： - 图片列表位于<div class="thumb-listing-page"> - 单个图片链接在<a class="preview" href> - 最终大图URL需要进入详情页获取

三、核心爬虫实现

3.1 基础爬取函数

import requests
from bs4 import BeautifulSoup
import os
from tqdm import tqdm

def get_wallpapers(keyword="", resolution="", pages=1, save_dir="wallpapers"):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"
    }
    
    if not os.path.exists(save_dir):
        os.makedirs(save_dir)
    
    for page in range(1, pages+1):
        url = f"https://wallhaven.cc/search?q={keyword}&resolutions={resolution}&page={page}"
        response = requests.get(url, headers=headers)
        soup = BeautifulSoup(response.text, 'html.parser')
        
        thumbnails = soup.select("a.preview")
        for thumb in tqdm(thumbnails, desc=f"Processing page {page}"):
            detail_url = thumb['href']
            download_wallpaper(detail_url, save_dir)

3.2 高清图片下载

def download_wallpaper(detail_url, save_dir):
    try:
        response = requests.get(detail_url)
        soup = BeautifulSoup(response.text, 'html.parser')
        
        img_url = soup.select_one("#wallpaper")['src']
        if not img_url.startswith('http'):
            img_url = "https:" + img_url
            
        img_data = requests.get(img_url).content
        filename = os.path.join(save_dir, img_url.split('/')[-1])
        
        with open(filename, 'wb') as f:
            f.write(img_data)
            
    except Exception as e:
        print(f"Error downloading {detail_url}: {str(e)}")

四、高级功能扩展

4.1 分辨率筛选优化

Wallhaven支持以下分辨率参数： - 1920x1080 (1080P) - 2560x1440 (2K) - 3840x2160 (4K) - 5120x2880 (5K)

改进后的URL构造：

def build_search_url(keyword, resolution, purity="100", page=1):
    base_url = "https://wallhaven.cc/search?"
    params = {
        "q": keyword,
        "resolutions": resolution,
        "purity": purity,  # SFW内容
        "page": page
    }
    return base_url + "&".join(f"{k}={v}" for k,v in params.items() if v)

4.2 多线程下载

使用concurrent.futures加速下载：

from concurrent.futures import ThreadPoolExecutor

def download_wallpapers_concurrently(thumbnails, save_dir, max_workers=5):
    with ThreadPoolExecutor(max_workers=max_workers) as executor:
        futures = []
        for thumb in thumbnails:
            futures.append(
                executor.submit(
                    download_wallpaper,
                    thumb['href'],
                    save_dir
                )
            )
        
        for future in tqdm(futures, desc="Downloading"):
            future.result()

五、图片质量验证

5.1 分辨率检查

使用Pillow验证下载的图片：

from PIL import Image

def validate_resolution(filepath, min_width=1920, min_height=1080):
    try:
        with Image.open(filepath) as img:
            return img.width >= min_width and img.height >= min_height
    except:
        return False

5.2 自动清理低质量

def clean_low_quality(save_dir):
    for filename in os.listdir(save_dir):
        filepath = os.path.join(save_dir, filename)
        if not validate_resolution(filepath):
            os.remove(filepath)
            print(f"Removed low quality: {filename}")

六、完整示例代码

import os
import requests
from bs4 import BeautifulSoup
from PIL import Image
from tqdm import tqdm
from concurrent.futures import ThreadPoolExecutor

class WallhavenSpider:
    def __init__(self):
        self.headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)"
        }
    
    def search_wallpapers(self, keyword="nature", resolution="3840x2160", pages=3):
        all_wallpapers = []
        for page in range(1, pages+1):
            url = f"https://wallhaven.cc/search?q={keyword}&resolutions={resolution}&page={page}"
            response = requests.get(url, headers=self.headers)
            soup = BeautifulSoup(response.text, 'html.parser')
            all_wallpapers.extend(soup.select("a.preview"))
        return all_wallpapers
    
    def download(self, wallpaper_list, save_dir="wallpapers"):
        if not os.path.exists(save_dir):
            os.makedirs(save_dir)
        
        with ThreadPoolExecutor(max_workers=5) as executor:
            futures = []
            for wall in wallpaper_list:
                futures.append(executor.submit(
                    self._download_single,
                    wall['href'],
                    save_dir
                ))
            
            for future in tqdm(futures, desc="Downloading", total=len(futures)):
                future.result()
        
        self.clean_low_quality(save_dir)
    
    def _download_single(self, detail_url, save_dir):
        try:
            response = requests.get(detail_url, headers=self.headers)
            soup = BeautifulSoup(response.text, 'html.parser')
            img_url = soup.select_one("#wallpaper")['src']
            
            if img_url:
                if not img_url.startswith('http'):
                    img_url = "https:" + img_url
                
                img_data = requests.get(img_url).content
                filename = os.path.join(save_dir, img_url.split('/')[-1])
                
                with open(filename, 'wb') as f:
                    f.write(img_data)
        except Exception as e:
            print(f"Error downloading {detail_url}: {e}")

if __name__ == "__main__":
    spider = WallhavenSpider()
    wallpapers = spider.search_wallpapers(keyword="sunset", resolution="3840x2160")
    spider.download(wallpapers[:20])  # 下载前20张

七、注意事项

遵守robots.txt：
- 检查目标网站的/robots.txt
- Wallhaven允许适度爬取但禁止商业用途
请求频率控制：

import time
time.sleep(1)  # 每个请求间隔1秒

版权问题：
- 仅限个人使用
- 避免爬取付费内容
- 推荐使用API（如Wallhaven提供官方API）
异常处理增强：

try:
    # 爬取代码
except requests.exceptions.RequestException as e:
    print(f"Network error: {e}")
except KeyboardInterrupt:
    print("User interrupted")

八、扩展思路

自动换壁纸工具：
- 结合Windows API或macOS的osascript
- 定期自动更换桌面
深度学习筛选：
- 使用CNN模型识别图片内容
- 自动分类风景/动漫/抽象等类型
搭建壁纸网站：
- Django+MySQL存储爬取结果
- 实现用户收藏系统

通过本文介绍的方法，你可以轻松构建个性化的高清壁纸库。建议根据实际需求调整爬取策略，并始终遵守网络道德规范。 “`

这篇文章包含了： 1. 完整的Python实现代码 2. 分步骤的技术讲解 3. 高级功能扩展 4. 注意事项和最佳实践 5. 实际应用建议

总字数约2100字，采用Markdown格式，可直接用于技术博客发布。需要调整内容细节可以随时告知。