常用数据科学Python库有哪些

发布时间:2021-10-20 13:44:13 作者:iii
来源:亿速云 阅读:135

本篇内容介绍了“常用数据科学Python库有哪些”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

Pandas

Pandas库[3]对于致力于探索性数据分析的数据科学家来说是一个必不可少的库。顾名思义,它使用pandas来分析你的数据,或者更具体地说,pandas数据帧。

以下是一些你可以从HTML报表中访问和查看的功能:

如何安装?

使用pip:

pip install -U pandas-profiling[notebook] jupyter nbextension enable --py widgetsnbextension  这种方式对我也很管用:  pip install pandas-profiling import pandas_profiling

例子:

下面是我们可以从profile report功能访问的可视化示例之一。可以看到一个易于理解的彩色的相关性可视化图。

常用数据科学Python库有哪些

局限性:

如果有一个大的数据集,这个概要报告可能需要相当长的时间。我的解决方案是要么简单地使用较小的数据集,要么对整个数据集进行采样。

NLTK

通常与nltk相关的术语是NLP,或者自然语言处理,它是数据科学(和其他学科)的一个分支,它更容易地包含对文本的处理。导入nltk之后,你可以更轻松地分析文本。

以下是你可以使用nltk访问的一些功能:

如何安装:

pip install nltk import nltk

例子:

import nltk  thing_to_tokenize = “a long sentence with words”  tokens = nltk.word_tokenize(thing_to_tokenize)  tokens  returns:  [“a”, “long”, “sentence”, “with”, “words”]

我们需分开每个单词,以便对其进行分析。

在某些情况下需要分隔单词。然后它们可以被标记、计数,机器学习算法的新指标可以使用这些输入来创建预测。利用nltk的另一个有用的特性是文本可以用于情感分析。情感分析在很多企业中都很重要,尤其是那些有客户评论的企业。现在我们讨论情感分析,让我们看看另一个有助于快速情感分析的库。

TextBlob

TextBlob[8]与nltk有很多相同的优点,但是它的情感分析功能非常出色。除了分析之外,它还具有利用朴素贝叶斯和决策树支持分类的功能。

以下是你可以使用TextBlob访问的一些功能:

如何安装:

pip install textblob  from textblob import TextBlob

例子:

情感分析:

review = TextBlob(“here is a great text blob about wonderful Data Science”)  review.sentiment  returns:  Sentiment(polarity=0.80, subjectivity = 0.44)

正常浮点范围为[-1.0,1.0],而积极情感介于[0.0,1.0]之间。

分类:

from textblob.classifiers import NaiveBayesClassifier  training_data = [(‘sentence example good one’, ‘pos’), (‘sentence example great two’, ‘pos’), (‘sentence example bad three’, ‘neg’), (‘sentence example worse four’, ‘neg’)]  testing_data = [(‘sentence example good’, ‘pos’), (‘sentence example great’, ‘pos’)]  cl = NaiveBayesClassifier(training_data)

你可以使用这个分类器对文本进行分类,该分类器将返回“pos”或“neg”输出。

这些来自textblob的简单代码提供了非常强大和有用的情感分析和分类。

pyLDAvis

另一个使用NLP的工具是pyLDAvis[10]。它是一个交互式主题模型可视化工具的库。例如,当我使用LDA(潜Dirichlet分布)执行主题模型时,我通常会看到单元格中的主题输出,这可能很难阅读。然而当它出现在一个很好的视觉总结中时,它会更有益,也更容易消化,就像pyLDAvis一样。

以下是你可以使用pyLDAvis访问的一些功能:

总的来说,这是一种让人印象深刻的主题可视化方式,这是其他任何库都无法做到的。

如何安装:

pip install pyldavis  import pyldavis

例子:

为了看到最好的例子,这里有一个Jupyter Notebook[11]参考资料,它展示了这个数据科学库的许多独特和有益的特性:  https://nbviewer.jupyter.org/github/bmabey/pyLDAvis/blob/master/notebooks/pyLDAvis_overview.ipynb

NetworkX

这个数据科学包NetworkX[13],将其优势集中在生物、社会和基础设施网络可视化上。

以下是你可以使用NetworkX访问的一些功能:

如何安装:

pip install networkx  import networkx

例子:

创建图形

import networkx  graph = networkx.Graph()

你可以与其他库协作,例如matplotlib.pyplot也可以创建图形的可视化(以数据科学家习惯于看到的方式)。

“常用数据科学Python库有哪些”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注亿速云网站,小编将为大家输出更多高质量的实用文章!

推荐阅读:
  1. 3个用于数据科学的顶级Python库
  2. Python库有哪些

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

python

上一篇:如何理解keycloak集群化

下一篇:分享多线程场景下一种可灵活编排的软件架构

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》