学习Python常用的库有哪些

发布时间：2023-04-13 11:39:13 作者：iii
来源：亿速云阅读：169

学习Python常用的库有哪些

Python作为一种功能强大且易于学习的编程语言，拥有丰富的第三方库和框架，这些库和框架极大地扩展了Python的功能，使其能够应用于各种领域。本文将详细介绍Python中常用的库，涵盖数据处理、机器学习、Web开发、网络爬虫、图像处理、自动化测试等多个方面。通过本文，您将了解到Python生态系统中一些最受欢迎和实用的库，并掌握它们的基本用法和应用场景。

数据处理与分析
- NumPy
- Pandas
- SciPy
- Matplotlib
- Seaborn
- Plotly
机器学习与深度学习
- Scikit-learn
- TensorFlow
- PyTorch
- Keras
- XGBoost
- LightGBM
Web开发
- Django
- Flask
- FastAPI
- Tornado
- Sanic
网络爬虫
- BeautifulSoup
- Scrapy
- Selenium
- Requests
- urllib
图像处理
自动化测试
数据库操作
- SQLAlchemy
- Psycopg2
- mysql">PyMySQL
- mongodb">MongoDB
- redis">Redis
自然语言处理
- NLTK
- spaCy
- Gensim
- Transformers
- TextBlob
其他常用库
- os
- sys
- re
- datetime
- logging
- json
- csv
- itertools
- functools
- collections

数据处理与分析

NumPy

NumPy是Python中用于科学计算的基础库，提供了高效的多维数组对象和用于处理这些数组的工具。NumPy的核心是ndarray对象，它是一个快速且灵活的多维数组容器，支持大量的数学运算。

主要功能： - 多维数组操作 - 线性代数运算 - 傅里叶变换 - 随机数生成

示例代码：

import numpy as np

# 创建一个一维数组
arr = np.array([1, 2, 3, 4, 5])

# 创建一个二维数组
arr2d = np.array([[1, 2, 3], [4, 5, 6]])

# 数组运算
result = arr + 10
print(result)

Pandas

Pandas是一个强大的数据处理库，提供了高效的数据结构和数据分析工具。Pandas的核心数据结构是DataFrame，它是一个二维表格型数据结构，类似于Excel表格或SQL表。

主要功能： - 数据读取与写入 - 数据清洗与预处理 - 数据合并与重塑 - 数据分组与聚合

示例代码：

import pandas as pd

# 创建一个DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]}
df = pd.DataFrame(data)

# 查看前几行数据
print(df.head())

# 数据筛选
filtered_df = df[df['Age'] > 30]
print(filtered_df)

SciPy

SciPy是基于NumPy的扩展库，提供了大量的科学计算功能，包括数值积分、优化、信号处理、统计等。SciPy通常与NumPy一起使用，用于更复杂的科学计算任务。

主要功能： - 数值积分 - 优化算法 - 信号处理 - 统计函数

示例代码：

from scipy import integrate

# 定义函数
def f(x):
    return x**2

# 计算定积分
result, error = integrate.quad(f, 0, 1)
print(result)

Matplotlib

Matplotlib是Python中最常用的绘图库，提供了丰富的绘图功能，可以生成各种类型的图表，如折线图、柱状图、散点图等。Matplotlib通常与NumPy和Pandas一起使用，用于数据可视化。

主要功能： - 折线图 - 柱状图 - 散点图 - 饼图

示例代码：

import matplotlib.pyplot as plt

# 创建数据
x = [1, 2, 3, 4, 5]
y = [10, 20, 25, 30, 40]

# 绘制折线图
plt.plot(x, y)
plt.xlabel('X轴')
plt.ylabel('Y轴')
plt.title('折线图示例')
plt.show()

Seaborn

Seaborn是基于Matplotlib的高级绘图库，提供了更美观的统计图表和更简单的API。Seaborn特别适合用于数据探索和可视化，能够轻松生成复杂的统计图表。

主要功能： - 热力图 - 箱线图 - 小提琴图 - 分布图

示例代码：

import seaborn as sns
import pandas as pd

# 创建数据
data = pd.DataFrame({'x': [1, 2, 3, 4, 5], 'y': [10, 20, 25, 30, 40]})

# 绘制散点图
sns.scatterplot(x='x', y='y', data=data)
plt.show()

Plotly

Plotly是一个交互式绘图库，支持生成交互式的图表和仪表盘。Plotly的图表可以在网页中嵌入，并且支持缩放、平移、悬停等交互操作。

主要功能： - 交互式折线图 - 交互式散点图 - 3D图表 - 地图可视化

示例代码：

import plotly.express as px

# 创建数据
df = px.data.iris()

# 绘制散点图
fig = px.scatter(df, x='sepal_width', y='sepal_length', color='species')
fig.show()

机器学习与深度学习

Scikit-learn

Scikit-learn是Python中最流行的机器学习库之一，提供了大量的机器学习算法和工具，包括分类、回归、聚类、降维等。Scikit-learn的API设计简洁，易于使用，适合初学者和专业人士。

主要功能： - 分类算法 - 回归算法 - 聚类算法 - 降维算法

示例代码：

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# 加载数据集
iris = load_iris()
X, y = iris.data, iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# 训练模型
model = RandomForestClassifier()
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估模型
accuracy = accuracy_score(y_test, y_pred)
print(f'模型准确率: {accuracy}')

TensorFlow

TensorFlow是由Google开发的开源深度学习框架，广泛应用于各种深度学习任务，如图像识别、自然语言处理、语音识别等。TensorFlow支持分布式计算，可以在多个GPU或TPU上运行。

主要功能： - 神经网络构建 - 模型训练与评估 - 分布式计算 - TensorBoard可视化

示例代码：

import tensorflow as tf

# 创建一个简单的神经网络
model = tf.keras.Sequential([
    tf.keras.layers.Dense(10, activation='relu', input_shape=(4,)),
    tf.keras.layers.Dense(3, activation='softmax')
])

# 编译模型
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# 训练模型
model.fit(X_train, y_train, epochs=10)

# 评估模型
loss, accuracy = model.evaluate(X_test, y_test)
print(f'模型准确率: {accuracy}')

PyTorch

PyTorch是由Facebook开发的开源深度学习框架，以其动态计算图和灵活的API设计而闻名。PyTorch在学术界和工业界都得到了广泛应用，特别适合研究和实验。

主要功能： - 动态计算图 - 自动微分 - 模型训练与评估 - 分布式计算

示例代码：

import torch
import torch.nn as nn
import torch.optim as optim

# 创建一个简单的神经网络
class SimpleNet(nn.Module):
    def __init__(self):
        super(SimpleNet, self).__init__()
        self.fc1 = nn.Linear(4, 10)
        self.fc2 = nn.Linear(10, 3)

    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = self.fc2(x)
        return x

# 实例化模型
model = SimpleNet()

# 定义损失函数和优化器
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters())

# 训练模型
for epoch in range(10):
    optimizer.zero_grad()
    outputs = model(X_train)
    loss = criterion(outputs, y_train)
    loss.backward()
    optimizer.step()

# 评估模型
with torch.no_grad():
    outputs = model(X_test)
    _, predicted = torch.max(outputs, 1)
    accuracy = (predicted == y_test).sum().item() / y_test.size(0)
    print(f'模型准确率: {accuracy}')

Keras

Keras是一个高级神经网络API，最初是作为TensorFlow的前端API开发的，现在已经成为TensorFlow的一部分。Keras的设计目标是使深度学习模型的构建和训练变得更加简单和快速。

主要功能： - 神经网络构建 - 模型训练与评估 - 预训练模型 - 回调函数

示例代码：

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

# 创建一个简单的神经网络
model = Sequential([
    Dense(10, activation='relu', input_shape=(4,)),
    Dense(3, activation='softmax')
])

# 编译模型
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

# 训练模型
model.fit(X_train, y_train, epochs=10)

# 评估模型
loss, accuracy = model.evaluate(X_test, y_test)
print(f'模型准确率: {accuracy}')

XGBoost

XGBoost是一个高效的梯度提升框架，广泛应用于各种机器学习竞赛和实际项目中。XGBoost以其高效的性能和强大的功能而闻名，特别适合处理结构化数据。

主要功能： - 梯度提升算法 - 特征重要性评估 - 模型调优 - 分布式计算

示例代码：

import xgboost as xgb
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载数据集
iris = load_iris()
X, y = iris.data, iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# 训练模型
model = xgb.XGBClassifier()
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估模型
accuracy = accuracy_score(y_test, y_pred)
print(f'模型准确率: {accuracy}')

LightGBM

LightGBM是另一个高效的梯度提升框架，由微软开发。LightGBM以其高效的内存使用和快速的训练速度而闻名，特别适合处理大规模数据集。

主要功能： - 梯度提升算法 - 特征重要性评估 - 模型调优 - 分布式计算

示例代码：

import lightgbm as lgb
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 加载数据集
iris = load_iris()
X, y = iris.data, iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# 训练模型
model = lgb.LGBMClassifier()
model.fit(X_train, y_train)

# 预测
y_pred = model.predict(X_test)

# 评估模型
accuracy = accuracy_score(y_test, y_pred)
print(f'模型准确率: {accuracy}')

Web开发

Django

Django是一个高级Web框架，旨在快速开发安全且可维护的网站。Django遵循“Don’t Repeat Yourself”（DRY）原则，提供了许多内置功能，如用户认证、内容管理、表单处理等。

主要功能： - 模型-视图-控制器（MVC）架构 - 内置ORM - 用户认证系统 - 表单处理

示例代码：

# settings.py
INSTALLED_APPS = [
    'django.contrib.admin',
    'django.contrib.auth',
    'django.contrib.contenttypes',
    'django.contrib.sessions',
    'django.contrib.messages',
    'django.contrib.staticfiles',
    'myapp',
]

# views.py
from django.http import HttpResponse

def index(request):
    return HttpResponse("Hello, world!")

Flask

Flask是一个轻量级的Web框架，适合小型项目和快速原型开发。Flask的设计目标是简单和灵活，允许开发者根据需要选择组件。

主要功能： - 路由系统 - 模板引擎 - 请求处理 - 扩展支持

示例代码：

from flask import Flask

app = Flask(__name__)

@app.route('/')
def index():
    return "Hello, world!"

if __name__ == '__main__':
    app.run()

FastAPI

FastAPI是一个现代、快速（高性能）的Web框架，用于构建API。FastAPI基于Python 3.7+的类型提示，支持异步请求处理，并且自动生成API文档。

主要功能： - 异步支持 - 自动生成API文档 - 数据验证 - 依赖注入

示例代码：

from fastapi import FastAPI

app = FastAPI()

@app.get("/")
def read_root():
    return {"message": "Hello, world!"}

Tornado

Tornado是一个Python Web框架和异步网络库，最初由FriendFeed开发。Tornado以其非阻塞I/O和长轮询支持而闻名，适合实时Web服务。

主要功能： - 异步请求处理 - WebSocket支持 - 长轮询支持 - 高性能

示例代码：

import tornado.ioloop
import tornado.web

class MainHandler(tornado.web.RequestHandler):
    def get(self):
        self.write("Hello, world!")

def make_app():
    return tornado.web.Application([
        (r"/", MainHandler),
    ])

if __name__ == "__main__":
    app = make_app()
    app.listen(8888)
    tornado.ioloop.IOLoop.current().start()

Sanic

Sanic是一个基于Python 3.7+的异步Web框架，旨在提供快速和可扩展的Web服务。Sanic的设计灵感来自Flask，但支持异步请求处理。

主要功能： - 异步支持 - 路由系统 - 请求处理 - 扩展支持

示例代码：

from sanic import Sanic
from sanic.response import json

app = Sanic("MyApp")

@app.route("/")
async def test(request):
    return json({"message": "Hello, world!"})

if __name__ == "__main__":
    app.run(host="0.0.0.0", port=8000)

网络爬虫

BeautifulSoup

BeautifulSoup是一个用于解析HTML和XML文档的Python库，常用于网络爬虫和数据抓取。BeautifulSoup提供了简单易用的API，可以轻松提取网页中的数据。

主要功能： - HTML/XML解析 - 数据提取 - 标签导航 - 文档树操作

示例代码：

from bs4 import BeautifulSoup
import requests

# 获取网页内容
url = 'https://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# 提取标题
title = soup.title.string
print(title)

Scrapy

Scrapy是一个功能强大的网络爬虫框架，适合大规模数据抓取和复杂爬虫任务。Scrapy提供了完整的爬虫开发工具链，包括请求调度、数据提取、数据存储等。

主要功能： - 请求调度 - 数据提取 - 数据存储 - 爬虫管理

示例代码：

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['https://example.com']

    def parse(self, response):
        title = response.css('title::text').get()
        yield {'title': title}

Selenium

Selenium是一个用于自动化Web浏览器的工具，常用于Web应用测试和动态网页抓取。Selenium支持多种浏览器，并且可以模拟用户操作，如点击、输入、滚动等。

主要功能：

学习Python常用的库有哪些

学习Python常用的库有哪些

目录

数据处理与分析

NumPy

Pandas

SciPy

Matplotlib

Seaborn

Plotly

机器学习与深度学习

Scikit-learn

TensorFlow

PyTorch

Keras

XGBoost

LightGBM

Web开发

Django

Flask

FastAPI

Tornado

Sanic

网络爬虫

BeautifulSoup

Scrapy

Selenium

相关阅读