X
我是学生我是老师

      手机号验证登录

      请选择账号
      腾科职业培训学校
      没有解决您的问题?扫描二维码加入博睿云交流群畅所欲言吧!
      使用帮助

      全部课程> Python数据预处理

      Python数据预处理

      来源:腾科职业培训学校

      • 2023-06-13  -  2025-06-12 32课时(建议每周学习4小时)
      • python基础
      • 自主模式
      • 1所

      已有3308人报名学习

      • 课程概览
      • 授课讲师
      • 课程大纲
      • 课程概览
      • 授课讲师
      • 课程大纲

      Python预处理课程是为初学者设计的实践性课程,旨在教授使用Python进行数据预处理和清洗的基本技巧。学员将学习如何加载数据、处理缺失值、去除异常数据、标准化、归一化等常用技术。通过本课程,学员将掌握Python中常用的数据处理库,如Numpy、Pandas等,从而为数据分析、机器学习和人工智能领域打下坚实基础。

      课程概览

      数据预处理是数据分析和机器学习中至关重要的步骤,它涉及对原始数据进行清洗、转换和整理,以便让数据能够更好地适应后续的分析和建模过程。

      1. 数据加载与观察:

        • 导入必要的Python库(如NumPy、Pandas等)。
        • 读取不同格式的数据文件(如CSV、Excel等)。
        • 使用Pandas DataFrame查看数据的基本信息(前几行、数据类型、缺失值等)。
      2. 数据清洗:

        • 处理缺失值:检测缺失值并选择适当的方法进行处理,例如删除、插值或填充。
        • 处理重复值:检测数据集中的重复记录并予以处理。
        • 处理异常值:识别可能的异常值,并选择适当的方法进行处理(例如截断或替换)。
      3. 数据转换:

        • 特征缩放:将数值特征缩放到一个统一的范围,常见的方法包括MinMax Scaling和Standard Scaling。
        • 独热编码:将分类变量转换成二进制形式,便于算法处理。
        • 特征选择:选择对问题有意义的特征,以减少计算复杂度和提高模型性能。
        • 特征构造:根据领域知识或数据特点,创建新的特征以增强模型的表现。
      4. 数据整理:

        • 数据合并:将多个数据集按照一定的规则进行合并,如连接、堆叠等。
        • 数据重塑:将数据从一种形式转换为另一种形式,如透视表、长宽表转换等。
      5. 数据预处理流水线:

        • 将上述的数据预处理步骤整合到一个流水线中,以便在实际应用中方便地使用。
      6. 实际案例与练习:

        • 基于真实数据集进行实际的数据预处理案例演示,加深学习效果。
      7. 练习学员通过指导的实验和项目,巩固所学的数据预处理技能。
      授课讲师

      翟雨儿

      熟悉Django后端开发框架;熟悉Python数据分析与数据可视化;熟悉bootstrap以及vue前端开发框架。擅长网站开发设计与实现。教学注重项目逻辑,思路清晰。教学课堂氛围好,与学生相处融洽,饱受学生喜爱。 工作经验与项目经验: 基于Django的人文网站 基于Django的智慧校园考试系统 基于Django与bootstrap的企业门户网站开 基于Python的聊天工具 航空公司数据可视化分析

      课程大纲
      • 第1章数据预处理概述
      •     第1节什么是数据预处理
      •     第2节常见的数据问题与数据预处理的流程
      •     第3节常用的数据预处理库
      •     第4节开发工具与环境
      • 第2章科学计算库---Numpy
      •     第1节数组对象
      •     第2节创建数组
      •     第3节访问数组元素
      •     第4节数组运算
      •     第5节数组操作
      •     第6节数组的转置
      • 第3章pandas库基础
      •     第1节数据结构
      •     第2节索引操作
      •     第3节数据排序
      •     第4节统计计算与统计描述
      •     第5节描绘图表
      • 第4章数据获取
      •     第1节从CSV和TXT文件读取数据
      •     第2节从EXCEL文件读取数据
      •     第3节从JSON文件读取数据
      •     第4节从HTML文件读取数据
      •     第5节从数据库读取数据
      •     第6节从Word文件读取数据
      • 第5章数据清理
      •     第1节数据清理概述
      •     第2节缺失值的检测与处理
      •     第3节重复值的检测与处理
      •     第4节异常值的检测与处理
      •     第5节案例---成都某地区二手房数据
      • 第6章数据集成、变换与规约
      •     第1节数据集成
      •     第2节数据变换
      •     第3节数据规约
      •     第4节案例---中国篮球运动员的基本信息分析
      • 第7章数据清理工具---OpenRefine
      •     第1节OpenRefine介绍、下载与安装
      •     第2节OpenRefine的基本操作
      •     第3节OpenRefine的进阶操作
      •     第4节案例---多伦多市建筑许可数据
      • 第8章实战演练---数据分析师岗位分析
      •     第1节知识精讲
      •     第2节分析目标与思路
      •     第3节数据收集
      •     第4节数据预处理
      •     第5节数据分析与展现
      节数上课时间星期一 星期二星期三星期四 星期五星期六星期天
      第1节08:00 - 08:40
      第2节09:00 - 09:40
      第3节10:00 - 10:40
      第4节11:00 - 11:40
      第5节14:00 - 14:40
      第6节15:00 - 15:40
      第7节16:00 - 16:40
      第8节17:00 - 17:40
      天数上课日期上课时间内容
      相关竞赛
      相关课件 更多
      • xlsx

        lagou02

        大小:647.8KB

        2023-08-23

      • csv

        lagou01

        大小:1.83MB

        2023-08-23

      • xlsx

        运动员信息采集02

        大小:30.72KB

        2023-08-23

      • csv

        运动员信息采集01

        大小:18.83KB

        2023-08-23

      • xlsx

        data

        大小:17.59KB

        2023-08-23

      • xlsx

        handroom

        大小:100.46KB

        2023-08-23