Pandas怎么读取JSON数据

发布时间：2022-08-23 11:38:48 作者：iii
来源：亿速云阅读：567

Pandas怎么读取JSON数据

1. 引言

在数据分析和处理中，JSON（JavaScript Object Notation）是一种非常常见的数据格式。它轻量、易于阅读和编写，并且与多种编程语言兼容。Pandas 是 Python 中一个强大的数据处理库，它提供了丰富的功能来处理各种数据格式，包括 JSON。本文将详细介绍如何使用 Pandas 读取 JSON 数据，并探讨一些高级技巧和常见问题。

2. JSON 数据格式简介

JSON 是一种轻量级的数据交换格式，易于人阅读和编写，同时也易于机器解析和生成。它基于 JavaScript 的一个子集，但独立于语言，几乎所有的编程语言都支持 JSON。

JSON 数据格式主要有两种结构：

对象（Object）：由键值对组成，键是字符串，值可以是字符串、数字、数组、布尔值、对象或 null。
数组（Array）：由有序的值组成，值可以是字符串、数字、数组、布尔值、对象或 null。

例如，以下是一个简单的 JSON 对象：

{
  "name": "John",
  "age": 30,
  "is_student": false,
  "courses": ["Math", "Science"],
  "address": {
    "street": "123 Main St",
    "city": "Anytown"
  }
}

3. Pandas 读取 JSON 数据的基本方法

Pandas 提供了 read_json() 函数来读取 JSON 数据。这个函数可以将 JSON 数据转换为 Pandas 的 DataFrame 对象，方便后续的数据处理和分析。

3.1 读取简单的 JSON 文件

假设我们有一个名为 data.json 的 JSON 文件，内容如下：

{
  "name": ["John", "Anna", "Peter"],
  "age": [28, 22, 34],
  "city": ["New York", "Paris", "Berlin"]
}

我们可以使用以下代码将其读取为 DataFrame：

import pandas as pd

df = pd.read_json('data.json')
print(df)

输出结果将是：

    name  age      city
0   John   28  New York
1   Anna   22     Paris
2  Peter   34    Berlin

3.2 读取嵌套的 JSON 数据

如果 JSON 数据是嵌套的，Pandas 也可以处理。例如，考虑以下 JSON 数据：

{
  "students": [
    {
      "name": "John",
      "age": 28,
      "address": {
        "street": "123 Main St",
        "city": "New York"
      }
    },
    {
      "name": "Anna",
      "age": 22,
      "address": {
        "street": "456 Elm St",
        "city": "Paris"
      }
    }
  ]
}

我们可以使用以下代码将其读取为 DataFrame：

import pandas as pd

df = pd.read_json('nested_data.json')
print(df)

输出结果将是：

   name  age                     address
0  John   28  {'street': '123 Main St', 'city': 'New York'}
1  Anna   22    {'street': '456 Elm St', 'city': 'Paris'}

可以看到，嵌套的 address 字段被保留为一个字典。如果需要将其展开为单独的列，可以使用 json_normalize() 函数。

3.3 使用 `json_normalize()` 展开嵌套数据

json_normalize() 是 Pandas 提供的一个函数，用于将嵌套的 JSON 数据展开为扁平的 DataFrame。例如：

import pandas as pd
import json

with open('nested_data.json') as f:
    data = json.load(f)

df = pd.json_normalize(data, 'students')
print(df)

输出结果将是：

   name  age       address.street address.city
0  John   28        123 Main St    New York
1  Anna   22          456 Elm St      Paris

可以看到，address 字段被展开为 address.street 和 address.city 两列。

4. 处理复杂的 JSON 数据

在实际应用中，JSON 数据可能会更加复杂，包含多层嵌套、数组等结构。Pandas 提供了多种方法来处理这些复杂的数据。

4.1 处理多层嵌套的 JSON 数据

考虑以下多层嵌套的 JSON 数据：

{
  "school": "ABC High School",
  "students": [
    {
      "name": "John",
      "age": 28,
      "courses": [
        {
          "name": "Math",
          "grade": "A"
        },
        {
          "name": "Science",
          "grade": "B"
        }
      ]
    },
    {
      "name": "Anna",
      "age": 22,
      "courses": [
        {
          "name": "Math",
          "grade": "B"
        },
        {
          "name": "History",
          "grade": "A"
        }
      ]
    }
  ]
}

我们可以使用 json_normalize() 来处理这种多层嵌套的数据：

import pandas as pd
import json

with open('complex_data.json') as f:
    data = json.load(f)

df = pd.json_normalize(data, 'students', ['school'], record_prefix='student_')
print(df)

输出结果将是：

  student_name  student_age student_courses school
0         John           28  [{'name': 'Math', 'grade': 'A'}, {'name': 'Science', 'grade': 'B'}]  ABC High School
1         Anna           22  [{'name': 'Math', 'grade': 'B'}, {'name': 'History', 'grade': 'A'}]  ABC High School

可以看到，students 字段被展开为 student_name 和 student_age，而 courses 字段仍然是一个列表。如果需要进一步展开 courses 字段，可以再次使用 json_normalize()。

4.2 处理包含数组的 JSON 数据

如果 JSON 数据中包含数组，Pandas 也可以处理。例如，考虑以下 JSON 数据：

{
  "name": "John",
  "age": 28,
  "courses": ["Math", "Science", "History"]
}

我们可以使用以下代码将其读取为 DataFrame：

import pandas as pd

df = pd.read_json('array_data.json')
print(df)

输出结果将是：

   name  age                  courses
0  John   28  [Math, Science, History]

如果需要将 courses 字段展开为多列，可以使用 explode() 函数：

df = df.explode('courses')
print(df)

输出结果将是：

   name  age   courses
0  John   28      Math
0  John   28   Science
0  John   28   History

5. 处理 JSON 数据中的日期和时间

JSON 数据中可能包含日期和时间信息。Pandas 提供了 to_datetime() 函数来处理这些数据。

5.1 处理日期字段

考虑以下 JSON 数据：

{
  "name": ["John", "Anna", "Peter"],
  "birthdate": ["1990-01-15", "1995-05-20", "1985-12-10"]
}

我们可以使用以下代码将其读取为 DataFrame，并将 birthdate 字段转换为日期格式：

import pandas as pd

df = pd.read_json('date_data.json')
df['birthdate'] = pd.to_datetime(df['birthdate'])
print(df)

输出结果将是：

    name  birthdate
0   John 1990-01-15
1   Anna 1995-05-20
2  Peter 1985-12-10

5.2 处理时间字段

如果 JSON 数据中包含时间信息，可以使用类似的方法处理。例如：

{
  "event": ["Meeting", "Lunch", "Conference"],
  "time": ["2023-10-01T09:00:00", "2023-10-01T12:30:00", "2023-10-01T15:00:00"]
}

我们可以使用以下代码将其读取为 DataFrame，并将 time 字段转换为时间格式：

import pandas as pd

df = pd.read_json('time_data.json')
df['time'] = pd.to_datetime(df['time'])
print(df)

输出结果将是：

       event                time
0    Meeting 2023-10-01 09:00:00
1      Lunch 2023-10-01 12:30:00
2  Conference 2023-10-01 15:00:00

6. 处理 JSON 数据中的缺失值

在实际应用中，JSON 数据中可能存在缺失值。Pandas 提供了多种方法来处理这些缺失值。

6.1 检测缺失值

Pandas 提供了 isna() 和 notna() 函数来检测缺失值。例如：

import pandas as pd

df = pd.read_json('missing_data.json')
print(df.isna())

输出结果将是：

    name    age   city
0  False  False  False
1  False   True  False
2  False  False   True

6.2 处理缺失值

Pandas 提供了多种方法来处理缺失值，例如 fillna()、dropna() 等。例如：

import pandas as pd

df = pd.read_json('missing_data.json')
df = df.fillna('Unknown')
print(df)

输出结果将是：

    name   age      city
0   John  28.0  New York
1   Anna  Unknown     Paris
2  Peter  34.0  Unknown

7. 处理 JSON 数据中的重复值

JSON 数据中可能存在重复值。Pandas 提供了 duplicated() 和 drop_duplicates() 函数来处理这些重复值。

7.1 检测重复值

Pandas 提供了 duplicated() 函数来检测重复值。例如：

import pandas as pd

df = pd.read_json('duplicate_data.json')
print(df.duplicated())

输出结果将是：

0    False
1    False
2     True
dtype: bool

7.2 处理重复值

Pandas 提供了 drop_duplicates() 函数来删除重复值。例如：

import pandas as pd

df = pd.read_json('duplicate_data.json')
df = df.drop_duplicates()
print(df)

输出结果将是：

    name  age      city
0   John   28  New York
1   Anna   22     Paris

8. 处理 JSON 数据中的异常值

JSON 数据中可能存在异常值。Pandas 提供了多种方法来处理这些异常值。

8.1 检测异常值

Pandas 提供了 describe() 函数来检测异常值。例如：

import pandas as pd

df = pd.read_json('outlier_data.json')
print(df.describe())

输出结果将是：

             age
count   3.000000
mean   28.000000
std     6.000000
min    22.000000
25%    25.000000
50%    28.000000
75%    31.000000
max    34.000000

8.2 处理异常值

Pandas 提供了多种方法来处理异常值，例如 clip()、replace() 等。例如：

import pandas as pd

df = pd.read_json('outlier_data.json')
df['age'] = df['age'].clip(lower=25, upper=30)
print(df)

输出结果将是：

    name  age      city
0   John   28  New York
1   Anna   25     Paris
2  Peter   30    Berlin

9. 处理 JSON 数据中的多语言字符

JSON 数据中可能包含多语言字符。Pandas 提供了多种方法来处理这些字符。

9.1 处理 Unicode 字符

Pandas 默认支持 Unicode 字符。例如：

import pandas as pd

df = pd.read_json('unicode_data.json')
print(df)

输出结果将是：

    name  age      city
0   张三   28      北京
1   李四   22      上海
2   王五   34      广州

9.2 处理编码问题

如果 JSON 数据中包含非 Unicode 字符，可能会导致编码问题。可以使用 encoding 参数来指定编码格式。例如：

import pandas as pd

df = pd.read_json('encoding_data.json', encoding='gbk')
print(df)

输出结果将是：

    name  age      city
0   张三   28      北京
1   李四   22      上海
2   王五   34      广州

10. 处理 JSON 数据中的大文件

如果 JSON 文件非常大，直接读取可能会导致内存不足。Pandas 提供了 chunksize 参数来分块读取大文件。

10.1 分块读取大文件

可以使用 chunksize 参数来分块读取大文件。例如：

import pandas as pd

chunks = pd.read_json('large_data.json', lines=True, chunksize=1000)
for chunk in chunks:
    print(chunk)

输出结果将是：

    name  age      city
0   John   28  New York
1   Anna   22     Paris
2  Peter   34    Berlin
...

10.2 处理大文件的性能优化

在处理大文件时，可以考虑以下性能优化方法：

使用 dtype 参数指定列的数据类型，减少内存占用。
使用 usecols 参数只读取需要的列，减少内存占用。
使用 convert_dates 参数自动转换日期字段，减少后续处理时间。

11. 处理 JSON 数据中的复杂结构

JSON 数据中可能包含复杂的结构，例如嵌套的数组、对象等。Pandas 提供了多种方法来处理这些复杂结构。

11.1 处理嵌套的数组

如果 JSON 数据中包含嵌套的数组，可以使用 json_normalize() 函数来处理。例如：

import pandas as pd
import json

with open('nested_array_data.json') as f:
    data = json.load(f)

df = pd.json_normalize(data, 'students', ['school'], record_prefix='student_')
print(df)

输出结果将是：

  student_name  student_age student_courses school
0         John           28  [{'name': 'Math', 'grade': 'A'}, {'name': 'Science', 'grade': 'B'}]  ABC High School
1         Anna           22  [{'name': 'Math', 'grade': 'B'}, {'name': 'History', 'grade': 'A'}]  ABC High School

11.2 处理嵌套的对象

如果 JSON 数据中包含嵌套的对象，可以使用 json_normalize() 函数来处理。例如：

import pandas as pd
import json

with open('nested_object_data.json') as f:
    data = json.load(f)

df = pd.json_normalize(data, 'students', ['school'], record_prefix='student_')
print(df)

输出结果将是：

  student_name  student_age student_address.street student_address.city school
0         John           28        123 Main St    New York  ABC High School
1         Anna           22          456 Elm St      Paris  ABC High School

12. 处理 JSON 数据中的多文件

在实际应用中，可能需要处理多个 JSON 文件。Pandas 提供了多种方法来处理这些多文件。

12.1 读取多个 JSON 文件

可以使用 glob 模块来读取多个 JSON 文件。例如：

import pandas as pd
import glob

files = glob.glob('data/*.json')
df_list = [pd.read_json(file) for file in files]
df = pd.concat(df_list)
print(df)

输出结果将是：

    name  age      city
0   John   28  New York
1   Anna   22     Paris
2  Peter   34    Berlin
...

12.2 处理多文件的性能优化

在处理多个文件时，可以考虑以下性能优化方法：

使用 multiprocessing 模块并行读取文件，减少读取时间。
使用 dask 库处理大文件和多个文件，减少内存占用。

13. 处理 JSON 数据中的流式数据

如果 JSON 数据是流式数据（例如从 API 获取的数据），Pandas 也提供了方法来处理这些数据。

13.1 读取流式 JSON 数据

可以使用 requests 库从 API 获取 JSON 数据，并使用 pd.read_json() 函数读取。例如：

import pandas as pd
import requests

url = 'https://api.example.com/data'
response = requests.get(url)
data = response.json()
df = pd.read_json(data)
print(df)

输出结果将是：

    name  age      city
0   John   28  New York
1   Anna   22     Paris
2  Peter   34    Berlin

13.2 处理流式数据的性能优化

在处理流式数据时，可以考虑以下性能优化方法：

使用 stream=True 参数分块读取数据，减少内存占用。
使用 chunksize 参数分块处理数据，减少内存占用。

14. 处理 JSON 数据中的压缩文件

如果 JSON 数据是压缩文件（例如 .gz 文件），Pandas 也提供了方法来处理这些文件。

14.1 读取压缩的 JSON 文件

可以使用 compression 参数来读取压缩的 JSON 文件。例如：

import pandas as pd

df = pd.read_json('data.json.gz', compression='gzip')
print(df)

输出结果将是：

    name  age      city
0   John   28  New York
1   Anna   22     Paris
2  Peter   34    Berlin

14.2 处理压缩文件的性能优化

在处理压缩文件时，可以考虑以下性能优化方法：

使用 chunksize 参数分块读取数据，减少内存占用。
使用 dask 库处理大文件和压缩文件，减少内存占用。

15. 处理 JSON 数据中的非标准格式

如果 JSON 数据是非标准格式（例如每行一个 JSON 对象），Pandas 也提供了方法来处理这些数据。

Pandas怎么读取JSON数据

Pandas怎么读取JSON数据

1. 引言

2. JSON 数据格式简介

3. Pandas 读取 JSON 数据的基本方法

3.1 读取简单的 JSON 文件

3.2 读取嵌套的 JSON 数据

3.3 使用 json_normalize() 展开嵌套数据

4. 处理复杂的 JSON 数据

4.1 处理多层嵌套的 JSON 数据

4.2 处理包含数组的 JSON 数据

5. 处理 JSON 数据中的日期和时间

5.1 处理日期字段

5.2 处理时间字段

6. 处理 JSON 数据中的缺失值

6.1 检测缺失值

6.2 处理缺失值

7. 处理 JSON 数据中的重复值

7.1 检测重复值

7.2 处理重复值

8. 处理 JSON 数据中的异常值

8.1 检测异常值

8.2 处理异常值

9. 处理 JSON 数据中的多语言字符

9.1 处理 Unicode 字符

9.2 处理编码问题

10. 处理 JSON 数据中的大文件

10.1 分块读取大文件

10.2 处理大文件的性能优化

11. 处理 JSON 数据中的复杂结构

11.1 处理嵌套的数组

11.2 处理嵌套的对象

12. 处理 JSON 数据中的多文件

12.1 读取多个 JSON 文件

12.2 处理多文件的性能优化

13. 处理 JSON 数据中的流式数据

13.1 读取流式 JSON 数据

13.2 处理流式数据的性能优化

14. 处理 JSON 数据中的压缩文件

14.1 读取压缩的 JSON 文件

14.2 处理压缩文件的性能优化

15. 处理 JSON 数据中的非标准格式

15.1

相关阅读

3.3 使用 `json_normalize()` 展开嵌套数据