几号线地铁过江?
我做过两次类似的课题,一次是大学时期做的一个城轨项目,研究上海松江有轨电车与上海地铁九号线的接驳问题;另一个是今年做的企业咨询项目,研究南京地铁三号线和南京林业大学的接驳问题(顺便还研究了三号线其他站点)。 这里就简单谈谈如何寻找数据源以及进行简单的数据分析吧!(因为数据太多了,一个个列出来实在太累啊!!!)
1、数据源的获取 一般来说我们有两种途径来获取我们研究所需的数据,一种是网络公开数据,一种是由专业机构或者政府机构公布的统计数据。 对于地铁这种城市公共交通来说,大部分城市都其都有网络公开数据的,以我对南京的了解为例: 不过这些数据可能只有一段时间有,如果要查找很久以前的数据可能就需要到专业统计网站去下载了。
2、数据分析处理 当我们获取了所需的数据后,就要对数据进行简单的清洗和处理,为后续的模型构建打基础。 首先我们要明确一点,任何数据都是有“瑕疵”的,也就是肯定存在不完善的地方。因此我们在处理数据时要尽量把影响分析的因素降低到最少,对于无关紧要的影响因素可以直接剔除掉。 然后就是对数值型数据和分类型数据的处理了。如果是数值型数据,那么我们首先要对数据进行规范化处理(将数据归一化为[0,1]区间内随机数),其次再利用主成分分析等方法消除数据中的冗余信息。而对于分类型数据,则要先进行类别编码,然后再进行进一步的分析和挖掘。