很有用的Python库

来源：成都兄弟连IT培训学校时间：2019/11/21 10:01:15

Python是个了不起的语言。事实上，这是世界上发展快的语言之一(感觉没有之一，就是快的)。在数据科学领域和开发领域，一次又一次的为我们提供便利。整个Python的生态和库使之成为所有用户都适用(初学者和用户)。Python之所以这么成功，原因之一就在于它的库，让Python变得灵活。

这篇文章中，我们会看一些不太常用的数据科学的库，除了pandas，scikit-learn，matplotlib等。尽管说到数据科学，我们想到的就是pandas和scikit-learn，了解一下其他的python的库也没什么坏处。下面就是另外一些数据科学中可能会用到的Python库。

很有用的Python库

Wget

从网络获取数据是Python科学家非常重要的任务。Wget是一个0元的工具，可以从Web上非交互式的下载文件，支持HTTP, HTTPS, 和 FTP协议，同样支持HTTP代理。由于是非交互式的，所以可以后台运行，用户没有登录也可以。所以下次你需要从网上下载图片的时候，可以试试wget。

安装:

$ pip install wget

例子:

import wget

url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3'

filename = wget.download(url)

[................................................] 3841532 / 3841532

filename

'razorback.mp3'

Pendulum

这个是干啥的呢，你在处理日期时间的时候搞得头大的时候，Pendulum就很适合你，这包是用来简化日期时间的操作的，具体使用可以看这里。

安装:

$ pip install pendulum

例子:

import pendulum

dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto')

dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver')

print(dt_vancouver.diff(dt_toronto).in_hours())

imbalanced-learn

大多数的分类问题中，当所有的类别中的样本的数量大致相同时，效果是好的，也就是样本均衡。但是在实际情况中，往往都是非均衡的数据，这往往会影响训练的过程以及后面的预测。幸好，这个库可以帮我们解决这个问题。这个和scikit-learn兼容，是scikit-learn-contrib的一部分。下次可以试试。

安装:

pip install -U imbalanced-learn

# or

conda install -c conda-forge imbalanced-learn

例子:

请参考文档。

FlashText

在清洗NLP相关的数据的时候，往往需要替换一些关键词或者提取一些关键词。通常，可以用正则表达式来干这个活，不过正则条件的数量上千的时候，就会很头大。FlashText是基于FlashText算法的一个模块，提供了这种情况下的一个替代工具，FlashText好的地方在于运行时间是和搜索的条件的数量不相关的。更多的信息可以看这里。

安装:

$ pip install flashtext

例子:

提取关键词

from flashtext import KeywordProcessor

keyword_processor = KeywordProcessor()

# keyword_processor.add_keyword(, )

keyword_processor.add_keyword('Big Apple', 'New York')

keyword_processor.add_keyword('Bay Area')

keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.')

keywords_found

['New York', 'Bay Area']

替换关键词

keyword_processor.add_keyword('New Delhi', 'NCR region')

new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.')

new_sentence

'I love New York and NCR region.'

Fuzzywuzzy

名字听起来怪怪的，不过在字符匹配的时候，用起来还是爽爽的。可以轻松的实现字符比例，token比例等。还可以在不同的数据集中进行匹配。

安装:

$ pip install fuzzywuzzy

例子:

from fuzzywuzzy import fuzz

from fuzzywuzzy import process

# Simple Ratio

fuzz.ratio("this is a test", "this is a test!")

# Partial Ratio

fuzz.partial_ratio("this is a test", "this is a test!")

100

PyFlux

时间序列的处理是机器学习领域经常遇到的问题。PyFlux就是专门用来处理时间序列问题的开源Python库。这个库里有一系列的时间序列模型如ARIMA, GARCH 和VAR 等。简单来说，PyFlux提供了时间序列到概率的建模，值的一试。

安装

pip install pyflux

例子

参考这里。

Ipyvolume

交流结果是数据科学的非常重要的方面。结果可视化是个非常重要的优势。IPyvolume是个3D可视化库，不过这还是在pre-1.0的阶段，可以这样类别一下， IPyvolume是对3维数据的可视化，matplotlib是对二维数据的可视化。具体可以看这里。

安装

Using pip

$ pip install ipyvolume

Conda/Anaconda

$ conda install -c conda-forge ipyvolume

例子

标记

渲染

Dash

这是个创建web应用的用户生产的Python框架。基于Flask写的，可以用来构建数据可视化的app，这些app可以在网络浏览器上渲染。用户手册可见这里.

安装

pip install dash==0.29.0 # The core dash backend

pip install dash-html-components==0.13.2 # HTML components

pip install dash-core-components==0.36.0 # Supercharged components

pip install dash-table==3.1.3 # Interactive DataTable component (new!)

例子

Gym

Gym来自OpenAI，用来做强化学习。兼容所有的数值计算库，如TensorFlow，Theano等。这个库提供了一个问题测试的环境，你可以用这个环境来实验你的强化学习算法。这些环境共享界面，使你可以写通用的算法。

安装

pip install gym

例子

结论

这是我选的一些有用但是不常用的python库，如果你知道其他的话，可以继续添加，别忘了先试试。

领取试听课

每天限量名额，先到先得

尊重原创文章，转载请注明出处与链接：http://www.peixun360.com/1850/news/108503/违者必究！以上就是成都兄弟连IT培训学校小编为您整理 很有用的Python库的全部内容。

上一篇：为什么 SQL 程序员也要懂 Python
下一篇：手把手教你做一个渣数据师用Python代替老情人Excel

有疑问联系客服为您解答

在线咨询

QQ咨询：1034332740

电话咨询：400-035-8011

免费领取试听课

申请试听

很有用的Python库

来源：成都兄弟连IT培训学校时间：2019/11/21 10:01:15

免费领取试听课

推荐课程更多>>

学校动态更多>>

课程分类

友情链接

很有用的Python库

来源：成都兄弟连IT培训学校时间：2019/11/21 10:01:15

免费领取试听课

推荐课程更多>>

学校动态更多>>

课程分类 友情链接

课程分类

友情链接