Machine Learning with Scikit-Learn
上传者:程琳璋|上传时间:2015-04-24|密次下载
Machine Learning with Scikit-Learn
Machine Learning with Scikit-Learn
Andreas Mueller (NYU Center for Data Science, scikit-learn)
http://bit.ly/sklstrata
http://bit.ly/skCUNY http://bit.ly/skCUNY
2
Me
3
Classification
Regression
Clustering
Semi-Supervised Learning
Feature Selection
Feature Extraction
Manifold Learning
Dimensionality Reduction
Kernel Approximation
Hyperparameter Optimization
Evaluation Metrics
Out-of-core learning
…...
4
5
Get the notebooks!
http://bit.ly/sklstrata
6
Hi Andy,
I just received an email from the first tutorialclf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
Training Data
Test Data
Training Labels
Model
Prediction
13
clf = RandomForestClassifier()
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
clf.score(X_test, y_test)
Training Data
Test Data
Training Labels
Model
Prediction
Test Labels Evaluation
14
IPython Notebook:
Chapter 1 - Introduction to Scikit-learn
15
Unsupervised Machine Learning
Training Data Model
16
Unsupervised Machine Learning
Training Data
Test Data
Model
New View
17
pca = PCA()
pca.fit(X_train)
X_new = pca.transform(X_test)
Training Data
Test Data
Model
Transformation
Unsupervised Transformations
18
IPython Notebook:
Chapter 2 – Unsupervised Transformers
19
All Data
Training data Test data
20
All Data
Training data Test data
Fold 1 Fold 2 Fold 3 Fold 4 Fold 5
21
All Data
Training data Test data
Fold 1 Fold 2 Fold 3 Fold 4 Fold 5
Fold 1 Fold 2 Fold 3 Fold 4 Fold 5 Split 1
22
All Data
Training data Test data
Fold 1 Fold 2 Fold 3 Fold 4 Fold 5
Fold 1 Fold 2 Fold 3 Fold 4 Fold 5
Fold 1 Fold 2 Fold 3 Fold 4 Fold 5
Split 1
Split 2
23
All Data
Training data Test data
Fold 1 Fold 2 Fold 3 Fold 4 Fold 5
Fold 1 Fold 2 Fold 3 Fold 4 Fold 5
Fold 1 Fold 2 Fold 3 Fold 4 Fold 5
Fold 1 Fold 2 Fold 3 Fold 4 Fold 5
Fold 1 Fold 2 Fold 3 Fold 4 Fold 5
Fold 1 Fold 2 Fold 3 Fold 4 Fold 5
Split 1
Split 2
Split 3
Split 4
Split 5
24
IPython Notebook:
Chapter 3 - Cross-validation
25
26
27
All Data
Training data Test data
28
All Data
Training data Test data
Fold 1 Fold 2 Fold 3 Fold 4 Fold 5
Fold 1 Fold 2 Fold 3 Fold 4 Fold 5
Fold 1 Fold 2 Fold 3 Fold 4 Fold 5
Fold 1 Fold 2 Fold 3 Fold 4 Fold 5
Fold 1 Fold 2 Fold 3 Fold 4 Fold 5
Fold 1 Fold 2 Fold 3 Fold 4 Fold 5
Test data
Split 1
Split 2
Split 3
Split 4
Split 5
29
All Data
Training data Test data
Fold 1 Fold 2 Fold 3 Fold 4 Fold 5
Fold 1 Fold 2 Fold 3 Fold 4 Fold 5
Fold 1 Fold 2 Fold 3 Fold 4 Fold 5
Fold 1 Fold 2 Fold 3 Fold 4 Fold 5
Fold 1 Fold 2 Fold 3 Fold 4 Fold 5
Fold 1 Fold 2 Fold 3 Fold 4 Fold 5
Test data
Finding Parameters
Final evaluation
Split 1
Split 2
Split 3
Split 4
Split 5
30
SVC(C=0.001,
gamma=0.001)
31
SVC(C=0.001,
gamma=0.001)
SVC(C=0.01,
gamma=0.001)
SVC(C=0.1,
gamma=0.001)
SVC(C=1,
gamma=0.001)
SVC(C=10,
gamma=0.001)
32
SVC(C=0.001,
gamma=0.001)
SVC(C=0.01,
gamma=0.001)
SVC(C=0.1,
gamma=0.001)
SVC(C=1,
gamma=0.001)
SVC(C=10,
gamma=0.001)
SVC(C=0.001,
gamma=0.01)
SVC(C=0.01,
gamma=0.01)
SVC(C=0.1,
gamma=0.01)
SVC(C=1,
gamma=0.01)
SVC(C=10,
gamma=0.01)
33
SVC(C=0.001,
gamma=0.001)
SVC(C=0.01,
gamma=0.001)
SVC(C=0.1,
gamma=0.001)
SVC(C=1,
gamma=0.001)
SVC(C=10,
gamma=0.001)
SVC(C=0.001,
gamma=0.01)
SVC(C=0.01,
gamma=0.01)
SVC(C=0.1,
gamma=0.01)
SVC(C=1,
gamma=0.01)
SVC(C=10,
gamma=0.01)
SVC(C=0.001,
gamma=0.1)
SVC(C=0.01,
gamma=0.1)
SVC(C=0.1,
gamma=0.1)
SVC(C=1,
gamma=0.1)
SVC(C=10,
gamma=0.1)
34
SVC(C=0.001,
gamma=0.001)
SVC(C=0.01,
gamma=0.001)
SVC(C=0.1,
gamma=0.001)
SVC(C=1,
gamma=0.001)
SVC(C=10,
gamma=0.001)
SVC(C=0.001,
gamma=0.01)
SVC(C=0.01,
gamma=0.01)
SVC(C=0.1,
gamma=0.01)
SVC(C=1,
gamma=0.01)
SVC(C=10,
gamma=0.01)
SVC(C=0.001,
gamma=0.1)
SVC(C=0.01,
gamma=0.1)
SVC(C=0.1,
gamma=0.1)
SVC(C=1,
gamma=0.1)
SVC(C=10,
gamma=0.1)
SVC(C=0.001,
gamma=1)
SVC(C=0.01,
gamma=1)
SVC(C=0.1,
gamma=1)
SVC(C=1,
gamma=1)
SVC(C=10,
gamma=1)
SVC(C=0.001,
gamma=10)
SVC(C=0.01,
gamma=10)
SVC(C=0.1,
gamma=10)
SVC(C=1,
gamma=10)
SVC(C=10,
gamma=10)
35
IPython Notebook:
Chapter 4 – Grid Searches
36
Training Data Training Labels
Model
37
Training Data Training Labels
Model
38
Training Data Training Labels
Model
Feature
Extraction
39
Training Data Training Labels
Model
Feature
Extraction
Scaling
40
Training Data Training Labels
Model
Feature
Extraction
Scaling
Feature
Selection
41
Training Data Training Labels
Model
Feature
Extraction
Scaling
Feature
Selection
Cross Validation
42
Training Data Training Labels
Model
Feature
Extraction
Scaling
Feature
Selection
Cross Validation
43
IPython Notebook:
Chapter 5 - Preprocessing and Pipelines
44
Do cross-validation over all steps jointly.
Keep a separate test set until the very end.
45
Bag Of Word Representations
CountVectorizer / TfidfVectorizer
46
Bag Of Word Representations
“You better call Kenny Loggins”
CountVectorizer / TfidfVectorizer
47
Bag Of Word Representations
“You better call Kenny Loggins”
['you', 'better', 'call', 'kenny', 'loggins']
CountVectorizer / TfidfVectorizer
tokenizer
48
Bag Of Word Representations
“You better call Kenny Loggins”
[0, …, 0, 1, 0, … , 0, 1 , 0, …, 0, 1, 0, …., 0 ]
better call you aardvak zyxst
['you', 'better', 'call', 'kenny', 'loggins']
CountVectorizer / TfidfVectorizer
tokenizer
Sparse matrix encoding
49
Application: Insult detection
50
Application: Insult detection
i really don't understand your point. It seems
that you are mixing apples and oranges.
51
Application: Insult detection
Clearly you're a fucktard.
i really don't understand your point. It seems
that you are mixing apples and oranges.
52
IPython Notebook:
Chapter 6 - Working With Text Data
53
Overfitting and Underfitting
Model complexity
Accuracy
Training
54
Overfitting and Underfitting
Model complexity
Accuracy
Training
Generalization
55
Overfitting and Underfitting
Model complexity
Accuracy
Training
Generalization
Underfitting
Overfitting
Sweet spot
56
Linear SVM
57
Linear SVM
58
(RBF) Kernel SVM
59
(RBF) Kernel SVM
60
(RBF) Kernel SVM
61
(RBF) Kernel SVM
62
Decision Trees
63
Decision Trees
64
Decision Trees
65
Decision Trees
66
Decision Trees
67
Decision Trees
68
Random Forests
69
Random Forests
70
Random Forests
71
72
Thank you for your attention.
@t3kcit
@amueller
importamueller@http://wendang.chazidian.com
下载文档
热门试卷
- 2016年四川省内江市中考化学试卷
- 广西钦州市高新区2017届高三11月月考政治试卷
- 浙江省湖州市2016-2017学年高一上学期期中考试政治试卷
- 浙江省湖州市2016-2017学年高二上学期期中考试政治试卷
- 辽宁省铁岭市协作体2017届高三上学期第三次联考政治试卷
- 广西钦州市钦州港区2016-2017学年高二11月月考政治试卷
- 广西钦州市钦州港区2017届高三11月月考政治试卷
- 广西钦州市钦州港区2016-2017学年高一11月月考政治试卷
- 广西钦州市高新区2016-2017学年高二11月月考政治试卷
- 广西钦州市高新区2016-2017学年高一11月月考政治试卷
- 山东省滨州市三校2017届第一学期阶段测试初三英语试题
- 四川省成都七中2017届高三一诊模拟考试文科综合试卷
- 2017届普通高等学校招生全国统一考试模拟试题(附答案)
- 重庆市永川中学高2017级上期12月月考语文试题
- 江西宜春三中2017届高三第一学期第二次月考文科综合试题
- 内蒙古赤峰二中2017届高三上学期第三次月考英语试题
- 2017年六年级(上)数学期末考试卷
- 2017人教版小学英语三年级上期末笔试题
- 江苏省常州西藏民族中学2016-2017学年九年级思想品德第一学期第二次阶段测试试卷
- 重庆市九龙坡区七校2016-2017学年上期八年级素质测查(二)语文学科试题卷
- 江苏省无锡市钱桥中学2016年12月八年级语文阶段性测试卷
- 江苏省无锡市钱桥中学2016-2017学年七年级英语12月阶段检测试卷
- 山东省邹城市第八中学2016-2017学年八年级12月物理第4章试题(无答案)
- 【人教版】河北省2015-2016学年度九年级上期末语文试题卷(附答案)
- 四川省简阳市阳安中学2016年12月高二月考英语试卷
- 四川省成都龙泉中学高三上学期2016年12月月考试题文科综合能力测试
- 安徽省滁州中学2016—2017学年度第一学期12月月考高三英语试卷
- 山东省武城县第二中学2016.12高一年级上学期第二次月考历史试题(必修一第四、五单元)
- 福建省四地六校联考2016-2017学年上学期第三次月考高三化学试卷
- 甘肃省武威第二十三中学2016—2017学年度八年级第一学期12月月考生物试卷
网友关注
- 冬阳童年骆驼队
- 小学总务考核标准11
- 黄道婆
- 中班美术教学计划
- 给父母的一封廉洁家书33
- 留守儿童家访记录6
- 寒假前安全教育讲稿
- 广东省佛山市均安镇星槎幼儿园工程可行性研究报告-广州中撰咨询
- 2016年四川省内江市中考化学试卷
- 2010-2011学年北京市海淀区高三第二学期期末练习(语文)答案
- 2017人教版七下语文一单元检测题
- 东华试题分类--阅读答案
- 洋县理光复印土管局大门北:幼儿园校安全工作日志
- 如何对待逆反孩子
- 王春亮民间推拿传艺文化
- 鲁滨逊漂流记资料
- 登鲁的故事
- 对“留守学生”教育问题思考
- 广东省连州市星子镇中心幼儿园工程可行性研究报告-广州中撰咨询
- 小学复习必背古诗词答案
- 语段练习卷
- 幼儿不慎溺水应遵循的急救办法
- 洋县理光复印土管局大门北:在园幼儿晨检午检记录表
- 关于幼儿园转让协议
- 幼儿教育心得
- 2011-2012学年吉林省长春外国语学校初二上学期第二次月考语文试卷答案
- 学生服使用单位履行质量义务情况专项检查记录表(幼儿园)
- 方向与位置
- 2016----2017年度小班名画欣赏
- 父母永不放弃自我成长,是孩子最好的教育!
网友关注视频
- 外研版英语三起5年级下册(14版)Module3 Unit1
- 《空中课堂》二年级下册 数学第一单元第1课时
- 化学九年级下册全册同步 人教版 第22集 酸和碱的中和反应(一)
- 北师大版数学四年级下册第三单元第四节街心广场
- 六年级英语下册上海牛津版教材讲解 U1单词
- 七年级英语下册 上海牛津版 Unit5
- 冀教版小学数学二年级下册第二单元《有余数除法的简单应用》
- 飞翔英语—冀教版(三起)英语三年级下册Lesson 2 Cats and Dogs
- 精品·同步课程 历史 八年级 上册 第15集 近代科学技术与思想文化
- 【部编】人教版语文七年级下册《泊秦淮》优质课教学视频+PPT课件+教案,广东省
- 外研版英语七年级下册module3 unit2第一课时
- 外研版英语七年级下册module3 unit1第二课时
- 19 爱护鸟类_第一课时(二等奖)(桂美版二年级下册)_T502436
- 外研版英语三起6年级下册(14版)Module3 Unit1
- 沪教版牛津小学英语(深圳用) 四年级下册 Unit 12
- 冀教版小学数学二年级下册1
- 第4章 幂函数、指数函数和对数函数(下)_六 指数方程和对数方程_4.7 简单的指数方程_第一课时(沪教版高一下册)_T1566237
- 沪教版八年级下次数学练习册21.4(2)无理方程P19
- 【部编】人教版语文七年级下册《泊秦淮》优质课教学视频+PPT课件+教案,辽宁省
- 七年级下册外研版英语M8U2reading
- 河南省名校课堂七年级下册英语第一课(2020年2月10日)
- 【获奖】科粤版初三九年级化学下册第七章7.3浓稀的表示
- 19 爱护鸟类_第一课时(二等奖)(桂美版二年级下册)_T3763925
- 沪教版牛津小学英语(深圳用) 四年级下册 Unit 3
- 沪教版牛津小学英语(深圳用) 四年级下册 Unit 7
- 二年级下册数学第三课 搭一搭⚖⚖
- 化学九年级下册全册同步 人教版 第18集 常见的酸和碱(二)
- 【部编】人教版语文七年级下册《泊秦淮》优质课教学视频+PPT课件+教案,湖北省
- 冀教版小学数学二年级下册第二单元《有余数除法的整理与复习》
- 二次函数求实际问题中的最值_第一课时(特等奖)(冀教版九年级下册)_T144339
精品推荐
- 2016-2017学年高一语文人教版必修一+模块学业水平检测试题(含答案)
- 广西钦州市高新区2017届高三11月月考政治试卷
- 浙江省湖州市2016-2017学年高一上学期期中考试政治试卷
- 浙江省湖州市2016-2017学年高二上学期期中考试政治试卷
- 辽宁省铁岭市协作体2017届高三上学期第三次联考政治试卷
- 广西钦州市钦州港区2016-2017学年高二11月月考政治试卷
- 广西钦州市钦州港区2017届高三11月月考政治试卷
- 广西钦州市钦州港区2016-2017学年高一11月月考政治试卷
- 广西钦州市高新区2016-2017学年高二11月月考政治试卷
- 广西钦州市高新区2016-2017学年高一11月月考政治试卷
分类导航
- 互联网
- 电脑基础知识
- 计算机软件及应用
- 计算机硬件及网络
- 计算机应用/办公自动化
- .NET
- 数据结构与算法
- Java
- SEO
- C/C++资料
- linux/Unix相关
- 手机开发
- UML理论/建模
- 并行计算/云计算
- 嵌入式开发
- windows相关
- 软件工程
- 管理信息系统
- 开发文档
- 图形图像
- 网络与通信
- 网络信息安全
- 电子支付
- Labview
- matlab
- 网络资源
- Python
- Delphi/Perl
- 评测
- Flash/Flex
- CSS/Script
- 计算机原理
- PHP资料
- 数据挖掘与模式识别
- Web服务
- 数据库
- Visual Basic
- 电子商务
- 服务器
- 搜索引擎优化
- 存储
- 架构
- 行业软件
- 人工智能
- 计算机辅助设计
- 多媒体
- 软件测试
- 计算机硬件与维护
- 网站策划/UE
- 网页设计/UI
- 网吧管理