炼数成金 门户 大数据 Python 查看内容

Scikit-learn发布0.20版本!新增处理缺失值、合并Pandas等功能

2018-9-30 12:27| 发布者: 炼数成金_小数| 查看: 15113| 评论: 0|来自: AI科技大本营

摘要: 之前一直预告 Scikit-learn 的新版本会在 9 月发布,在马上就要结束的 9 月,我们终于迎来了 Scikit-learn 0.20。此版本修复了大量的错误和功能,增强了 Scikit-learn 库,改善了文档和示例。在此对 Scikit-learn 的 ...

tm Python 工具 Hadoop 开源

之前一直预告 Scikit-learn 的新版本会在 9 月发布,在马上就要结束的 9 月,我们终于迎来了 Scikit-learn  0.20。

此版本修复了大量的错误和功能,增强了 Scikit-learn 库,改善了文档和示例。在此对 Scikit-learn 的贡献者表示感谢!

新版本已经上线,小伙伴们是不是已经迫不及待想去试试了,在此之前,营长要特别提醒大家:Scikit-learn 0.20 是支持 Python 2.7 和 Python 3.4 的最后一个版本,从 Scikit-learn 0.21 开始,就只支持 Python 3.5 及更高版本的 Python。

Scikit-learn 作为基于 Python 语言的机器学习工具,一直备受关注。它是简单高效的数据挖掘与分析工具,建立在 Numpy、SciPy 和 Matplotlib 上,亦可在多种环境中重复使用,更重要的是 Scikit-learn 是开源的。

下面我们就来一起看一下新版本有哪些值得大家关注的亮点:

1.增加对数据科学用例的支持;如缺失值、类别变量、异类数据及分布异常的特征/目标。之前由 NaNs 表示的特征缺失值,现在被按列预处理(如scalers)接受。每个特征都无需考虑缺失值,包含缺失值的数据也可以被转换。尽管缺少数据,新模块 impute 为学习提供了估算器。

2.ColumnTransformer 处理 Pandas 中不同特征或不同列的情况。DataFrame 需要不同的预处理。字符串或 Pandas 的 类别数据列都可以用 OneHotEncoder 或 OrdinalEncoder 进行编码。

3.TransformedTargetRegressor 可以帮助把回归目标转换为模型。PowerTransformer 和 KBinsDiscretizer 将加入 quantileTransformer 作为 非线性变换。

4.除此之外,还为几个估计器(KMeans、Bayesian ridge 和 KernelDensity)增加了支持样本权重的功能,并且改进了估计器( MLPRegressor, GradientBoostingRegressor 和 SGDRegressor)的停止标准。

5.伴随此版本还首次公开发布了由 Joel Nothman 开发的通用术语和 API 列表( Glossary of Common Terms and API Elements),旨在帮助用户和贡献者更熟悉 Scikit-learn 中的术语和资源。

除了这些亮点外,还修复了很多 models 和 bug,大家可以自行查看 Scikit-learn 0.20 更新说明。

Scikit-learn 0.20 新版本说明:
http://scikit-learn.org/dev/whats_new.html#version-0-20
核心术语表:
http://scikit-learn.org/dev/glossary.html#glossary
Scikit-learn 中文版本(还未更新至 0.20)
http://sklearn.apachecn.org/cn/0.19.0/


声明:文章收集于网络,如有侵权,请联系小编及时处理,谢谢!

欢迎加入本站公开兴趣群
软件开发技术群
兴趣范围包括:Java,C/C++,Python,PHP,Ruby,shell等各种语言开发经验交流,各种框架使用,外包项目机会,学习、培训、跳槽等交流
QQ群:26931708

Hadoop源代码研究群
兴趣范围包括:Hadoop源代码解读,改进,优化,分布式系统场景定制,与Hadoop有关的各种开源项目,总之就是玩转Hadoop
QQ群:288410967 

鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

 

GMT+8, 2018-10-23 04:54 , Processed in 0.142570 second(s), 25 queries .