知网查重论文样例–如何进行数据收集与预处理

知网查重论文样例--如何进行数据收集与预处理

3.2.1 数据收集

本文研究所要涉及到的是有关JKD的历年研究生在入学前的数据、入学后培养和答辩的数据、优秀论文数据、创新工程数据以及与导师有关的数据。在老师的帮助下主要从以下三个方面进行数据的收集。

1）从JKD的研究生招生部门的研究生数据库中收集历年研究生入学前的信息，包括本科院校、本科专业、考研各门成绩等数据。

2）从JKD的研究生培养部门处收集研究生的课程培养信息，包括学位课平均成绩、选修课平均成绩以及所修学分等数据。

3）从JKD的研究生学位部门处收集研究生的导师、论文、答辩及优秀论文及创新工程与获奖等信息，包括导师职位、导师专业、毕业论文题目以及答辩平均成绩，优秀论文等数据。

3.2.2 数据预处理

这些来自不同部门，不同数据库的研究生及导师队伍的数据是杂乱无章的。首先，格式不统一，如有些研究生入学前数据的属性名称都是用一些字母代替的，这就很难辨认这些字母代表的具体信息，除此之外，有些年份的学院名称是缩写的，而有的则是全称。其次，收集来的原始数据是分散的，不利于后面的研究分析，如每年的汇总数据是分散在多张表上的。再次，多种数据之间没有进行关联，如学生的入学信息、入学后培养信息、答辩信息与导师信息等都各自成表，不利于后面进行数据间关系的研究分析。最后，有些数据的某些属性值是空缺的，为了研究的进行就要根据情况对这些空缺值进行处理。针对以上的问题需要进行如下的数据预处理：

1）数据整合

（1）格式统一

①收集到的原始数据有的是在excel表格中，有的是在word文档中，它们存在的形式不同一，为了更好的进行数据分析挖掘以及可视化，选择把word文档中的数据转换成excel表格的形式进行体现。

②对历年研究生入学前的数据属性的字母名称一一辨别所代表的实际含义，转化为以汉字表示的方式，与其他数据属性的名字格式保持一致。

（2）同类数据汇总

同一分类的数据如入学数据、培养数据、答辩数据以及优秀论文等，他们不同年份的数据存储在不同的表中，因此需要把它们各自独立的的数据按年份进行整合。

（3）不同类数据进行关联

不论是入学数据还是培养数据，这些数据都是记录了学生的在校信息，因此就可以通过年份专业以及姓名对不同类数据的每一条记录进行关联。最后关联的结果就是形成一张信息较完备的表，这张表上的一条记录就可以显示一个学生的有关入学信息、培养信息、导师信息和答辩信息等。

（4）不同类学生分离

学术型研究生（下文简称学硕）和专业学位研究生（下文简称专硕）的培养要求不同，此时就需要先理清楚各个学院哪些专业是学术型的哪些专业又是专业型的；并据此在整合后的信息表上按照学术型和专业型的专业把他们的数据分开，存放在不同的表中，形成学硕和专硕两张信息表，其有利于对两类学生的各类数据进行比较分析研究。

2）数据处理

（1）空缺值的处理

在整理好的表中会出现某些学生的某一个或多个属性值缺失的情况。对于缺失较少的记录，就使用与缺失值同类属性的其它数据的平均值进行填充，如一个2010级的学硕的学位课成绩缺失，那么就用2010级其它学硕的学位课成绩的平均值进行填充；对于缺失较多的记录，就直接舍弃该条记录如一个学生只有入学时的信息，而其它信息都缺失，就直接舍弃该条记录。

（2）多余属性的舍弃

在本文进行可视化数据挖掘分析时，某些属性是没用的或是不代表任何实际意义的就可以舍掉。如对研究生入学前数据中的学生编号、证件号、本科学校地址、本科学校和专业代码等字段属性进行了舍弃；除此之外，对研究生培养成绩数据中的思想品德考核、科研能力评议、论文评阅情况和建议授予学位表决情况等字段属性进行了舍弃；这些属性值对本文的研究没有价值。

（3）数据转换

在表中某一类数据会有不同的表现形式，如学位课成绩有的是具体的分数，而有的是优良中及格不及格。本文对数据的转换就是将优良中及格不及格类型的数据按优为95分、良为85分、中为75分、及格为65分，不及格为55分的规则进行转换。

（4）数据离散化

根据本文的研究内容优势需要对某些数据进行离散。如对学位课、选修课和答辩成绩进行离散的具体做法为将连续值的成绩划分为五个区间；60分以下的区间用不及格表示，60-70分的区间用及格表示，70-80分的区间用中表示，80-90分的区间用良表示，90-100分的区间用优表示。