未登录,请登录后再发表信息
最新评论 (0)
播放视频

《边学Python边学数据科学》#1 简介

Introduction - Learn Python for Data Science #1

大家好 我是西拉杰
欢迎大家学习 边学python边学数据科学 系列课程
这期我们会架设所需的python环境
然后写一个仅需样本的身体数据
就可以判定男女性别的十行脚本
数据科学研究数据
而数据科学家通过研究数据来解决问题
所以说几乎所有的科学都是数据科学了
我们观察 预测 实验 最后完善自己的理论
因此 假使我们有过去十年的陨石坠落数据
我们就能找到一些可以通过该数据解决的问题
比如哪个地方最容易遭到陨石袭击
以及 大气压是如何影响陨石坠落轨迹的
之后写点代码来训练机械学习模型
然后就能根据数据预测结果了
现成的模型有很多 我们可以直接用 或者自建模型
#自己来训练程序#
过去 这种数据分析要博士才能做
但由于全球数据每两年就会翻一翻
而机器学习程序也愈发强大
每个人都可以成为数据科学家
而这需要的不过是时间和激情
只要有了这两点 你终会完成许多数据科学项目
把这些项目传到GitHub上 就变成了新时代的简历
这份简历不在乎学历 而在乎实践能力
机器学习让科研更加大众化了
没错 就是屏幕面前的诸位
你们都可以成为数据科学家
每个人都可以!
[狂笑]
我们研究数据时用到的工具是Python编程语言
我会教你Python
但不只是教编程语法 而是通过实践来学习
每节课我们都会有不同的数据科学项目
在课程结束后 会有关于这个项目的进阶挑战
你会在这个过程中学习Python
我选择Python是因为
它易读而且通用性很好
让我们看看这个语音识别程序
它调用了一个spinx库
来读取音频文件 把音频转成文字 然后输出
这一切只需5行代码 清晰明了
每一个单词都很简明且是描述性的
而同样的程序用C++来写就要一百多行
#我爱你Python 我爱你#
Python真是太棒了
开发这个性别分类程序分成四步

安装Python 配置编程环境

安装依赖 最后写Python脚本

我们从安装Python讲起
Python已经预装在了Mac或者Linux系统中

但Windows中没有

什么鬼系统!

但不论如何 你都要下载最新版的Python
目前的最新版是3.5.2版

在Mac中 下好安装包 跟随指引就能完成安装

然后就能在终端上用Python关键词编译脚本了

在Linux中则是先下好源文件
然后在终端输入三个命令来安装

然后就能用Python关键词运行Python脚本了

在Windows中 你要下载Python安装包

记得勾选“添加Python.exe到系统环境变量(Path)中” 把它安装到本地

安装完成后 就可以在命令行中运行Python了

这样Python就装完了 接下来配置编程环境

本课程使用的代码编辑器是Sublime Text
它十分简单易用

-那么Emacs呢? -不

Mac和Windows有用来安装的安装包
而Linux中则要通过apt-get安装包管理器的这三个命令安装

完成安装后就可以在里面写Python代码了

然后就可以在终端将python解释器
连接到脚本上进行编译了 搞定

我们只需终端和代码编辑器就可以跑脚本

这样编程环境就配置完了
接下来要安装依赖
依赖就是代码所需的包
依赖在脚本开始时用import语句导入
任何程序员都可以写个解决某一问题的依赖包
这可能会有上千行代码
然后上传到Python包服务器
这样只用一行代码就可以在新程序中下载调用了
所有的代码都是一个巨型代码群的一部分
它们通过不同的依赖连接在一起
这就像是盖房子
要想盖房顶 我们需要一个房基 也就是依赖
Python包管理器PIP帮助我们安装依赖
我们就从命令行开始吧
不论是什么系统都可以通过
以下命令来为Python3安装PIP
本期视频中开发的性别分类程序
只需要用到一个依赖 scikit-learn
这是一个内置大量预启动模型的机器学习包
赞 现在依赖也装完了
可以写脚本了
首先同其他所有依赖一样 我们要调用sklearn
我们会用到sklearn下的一个特定模组 它叫tree
我们可以用这个模组创建一个决策树机器学习模型
决策树类似流程图 它用来储存数据
它会对每一个接收到的标签数据点进行判断:
这个数据是否包含某目标数据
如果是肯定的 数据流向某一方向
若是否定 数据则流向另一方向
随着接受数据量增加 它会产生更多节点
当出现了新的未标记数据 我们把它提供给决策树
决策树就会对其进行一系列判断 然后打上标签
这个标签就是我们的分类
训练数据越多 分类越准确
首先我们来程序化地设定数据集
我们的第一个变量x是一个列表的列表
变量的值可变 我们在其中储存了一系列的列表
list在Python中是一种可按顺序储存一系列值的数据类型
这里的每一个值都是一个包含三个数字的列表
数字分别代表一个人的身高 体重和鞋号
我们写了十一组数据 因此数据集就是十一人
我们还需要另一个变量Y来储存一系列标签
每个标签都是一个性别
这些性别与前面列表的身体数据相关
这些标签都是string格式的
string表示数据是字符串而非数字
这样就有了数据集
接下来还要定义一个储存决策树的变量
我将它命名为clf classifier的缩写
它用来储存决策树分类器
我们可以直接在这里调用决策树依赖
接下来将决策树初始化
也就是在tree对象后调用决策树方法
这样就有了决策树变量 下一步是用数据集训练它
我们要调用分类器变量下的fit方法 它有两个实际参数
将变量X Y设置为它的参数
预测结果会存在更新后的clf变量中
fit方法利用数据集训练决策树
我们给一组新的数据来测试一下性别分类
创建一个prediction变量来储存结果
然后调用决策树的predict方法
根据给定列表内三个值的预测性别
然后用print命令将结果输出到终端
要在终端中运行 先把脚本储存为demo.py
然后用python demo.py运行
我们复习一下
数据科学家用数据解决问题
而因为易用的机器学习库和海量数据都已触手可及
你可以成为一个数据科学家
Python是个新人和专家都能用的语言
它强调可读性
决策树模型通过为每个可能的结果创建分支来为数据分类
本期的挑战是使用这个数据集训练SciKit-Learn包
中任意不同的三个分类器 对比输出最佳结果
有时需要尝试多个模型来找到最精准的预测
把你的Github链接留在评论中
我会在一周内挑出最佳作品 并在下个评论中提名
喜欢本视频别忘了要分享哦
订阅获取更多变成视频哦
我要去喝点东西啦 感谢观看

发表评论

译制信息
视频概述

从安装配置编程环境讲起用Python开发了一个性别识别小脚本

听录译者

收集自网络

翻译译者

Aimik

审核员

审核员@AI

视频来源

https://www.youtube.com/watch?v=T5pRlIbr6gg

相关推荐