Chapter 2 数据导入

数据导入界面有许多研发人员的小巧思，不仅可以在导入界面全面预览数据，包括数据缺失情况及分类情况，还可以进行简单的预处理：

2.1 导入数据集格式介绍

目前网站支持导入数据格式为 .csv, .txt, .xls, .xlsx, .rds, .fst, .sas7bdat, .sav files，数据集大小不超过10M.

首行为变量名，一般为英文或拼音，不建议用汉字
从第二行开始，每一行都代表着一个研究对象的所有变量信息。
每一列都代表所有人一个变量的变量值
一般建议，CSV和excel中的变量值，建议用数字表示，比如男性=1，女性=2；血型（1、2、3、4），这种做法比较灵活，而且可以保证数据集在各统计软件通行无阻；对于数据集赋值不清者，请列一份变量赋值表
缺失值默认处理，一般是空白代替，不要写NA
除非特殊字符串（比如姓名），数据集不要出现汉字或者英文字符串，会导致后续分析被卡。

示例：

如果你是数据分析高手，数据整理方法请自便，我觉得初学者最好将原始数据集导入到SPSS进行整理。

SPSS整理的特点是:

它具有固定的数据集格式、他有一些固定的计算、转换功能，对于初学者是足够用；不像EXCEL一样非常容易不小心修改了大范围的数据值而你不知情。

当然我有些时候也会借助EXCEL进行修改。

记住了，SPSS数据集中变量值一般都是数字赋值。

根据下方图示，依次点击“数据导入”——“导入外部数据”——“Browse...”，选入数据集后，指示框中就会出现数据概览了！

右侧有一个小小的工具栏，大家使用频率可能不高，这里进行一下简单的说明。

在”View”界面可以更加全面的展示我们的数据，拖动滑条可以查看全部变量，切换页码可以查看全部个案。

update界面有许多关键要素，这里会逐一进行说明！

挑选需要分析的变量，譬如这里的“Patient.ID”，患者的ID在本次分析中用不到，为了简化数据，直接取消勾选，那么接下来的分析中就不会出现啦！
Name列，有的原始数据中变量名十分晦涩，这里可以直接在条目框中重命名进行修改。
New class列，相信了解一些R语言的朋友就会知道，R语言分析过程中变量的类型是有要求的，例如分类变量一定要因子化(factor)，否则分类变量就会默认按照定量数据进行分析，这不是我们想要的。在这里就可以快速整理完毕！

character字符型：可用来表示定性变量，如”男性”，“白人”等文字资料，但在数据分析时，可能出现报错的情况，建议数据均转换为数字进行导入！
factor因子型：分类变量需要转为因子型，否则R语言无法识别将会按照定量数据进行分析
numeric数值型：将定量数据转换为数值型更有利于分析，可以显示小数
integer整数型：同样用于表述定量数据，但是无法显示小数
date与datetime：都是用于表述时间的数据类型，不同的是date仅能描述xx年xx月xx日，而datetime表述的时间更加精确可以到xx年xx月xx日xx时xx分xx秒，格式：YYYY-MM-DD HH:MM:SS。

Missing values列，缺失数据会在这一列显示，直观显示数据的缺失情况，在数据导入阶段，就对数据的缺失情况有一个总体的概览。
Complete obs列，该变量完整数据所占比例。
Unique values列，变量的全部分类，譬如说这个数据中Race为三分类数据，Marital为四分类数据，Age为定量数据因此显得分类很多有31种。

这里同样有一个小工具栏，也简单说明一下！

调整完毕后，点击”Apply changes”，保存更新，出现绿色”Data successfully updated”提示说明保存成功！

最后，点击”import data”，完成数据导入！