下面七个步骤涵盖了数据准备的概念,个别任务以及从Python生态系统中处理整个任务过程的不同方法。
维基百科将数据清洗定义为:
它是从记录集、表或者数据库检测和更正(或删除)损坏或不正确的记录的过程。指的是识别数据的不完整、不正确、不准确或不相关的部分,然后替换、修改或删除它们。数据清洗(data cleaning)可以与数据整理(data wrangling)的工具交互执行,也可以通过脚本进行批处理。
数据整理(data wrangling)被维基百科定义为:
1. 它将数据从一个原始形式手动转换或者映射到另一种格式的过程,这样可以在半自动化工具的帮助下更方便的使用数据。这可能包括进一步的整理,数据可视化,数据聚合,训练统计模型,以及许多其他潜在的用途。数据再加工过程通常遵循一套通用步骤,首先从数据源中提取原始数据中的数据,使用算法(例如排序)或通过预定义的数据结构将数据解析,最后将所得到的内容用数据接收器接收并且存储到数据库中以便将来使用。
本文包含了一组特定的数据准备技术,并且可以根据需求在给定情况下使用其他完全不同的技术。这里所用的解决方法都是一种正统的和普遍的方法。
点击【阅读全文】查看详情
阅读全文iPhone X 跌破发行价,苏宁200亿入股恒大 | 财经日日评
资深黄牛现身说法:iPhone X价格秒变不停,就像炒股一样
羞羞的铁拳 票房破两亿了! “‘艾玛疼’组合没有令大家失望”、“笑的我嗓子都疼了”……看了电影的各位都有没有学会副掌门耗费三十年功力的绝招呢[偷笑]
薛之谦,翟欣欣,马蓉,贾跃亭,邓文迪和郎咸平凑一起,谁能套走谁的钱?[捂脸]
手机扫一扫
分享有料