墨尔本大学留学生作业问题是普遍存在的,如何才能更高效的完成作业是留学生最主要的目标,本篇文章主要为大家讲述数据科学专业基础课程相关知识要点,希望可以对大家的学习有所帮助。
数据科学专业学术作业我们可以使用两种类型的变量:分类的和数字的。每一个都可以分为另外两组:分类变量可以是序数的,也可以不是,而数字变量可以是离散的,也可以是连续的。当向量中的每个条目来自少数几个组中的一个时,我们将数据称为分类数据。两个简单的例子是性别(男性或女性)和地区(东北、南方、中北部、西部)。一些分类数据可以排序,即使它们本身不是数字,例如辛辣(温和、中等、热)。在统计学教科书中,有序分类数据被称为序数数据。
数字数据的例子有人口规模、谋杀率和身高。一些数字数据可以被视为有序分类的。我们可以进一步将数值数据分为连续和离散。连续变量是那些可以取任何值的变量,例如高度,如果测量足够精确的话。例如,一对双胞胎可能分别为68.12英寸和68.11英寸。计数,如人口规模,是离散的,因为它们必须是整数。
请记住,数据科学专业学术作业中离散的数字数据可以被视为序数。虽然这在技术上是正确的,但我们通常为属于少数不同组的变量保留术语序数数据,每个组都有许多成员。相比之下,当我们有许多组,而每组中的情况很少时,我们通常将它们称为离散的数值变量。因此,例如,一个人每天吸烟的包数,四舍五入到最接近的包数,将被认为是序数,而实际的香烟数将被认为是一个数字变量。但是,事实上,在可视化数据时,有一些例子可以同时考虑数字和序数。
事实证明,在某些情况下,平均值和标准差几乎是我们理解数据所需的全部。我们将学习数据可视化技术,这将有助于我们确定何时这两个数字的总结是合适的。当两个数字不足时,这些相同的技术将作为一种替代。
不是绝对的数字数据也有分布。一般来说,当数据不明确时,作业报告每个条目的频率并不是一个有效的总结,因为大多数条目都是唯一的。