什么是随机森林?应征数据分析师,面试官会问你的6个技术性问题

应征数据分析师,面试官除了问背景、动机之外,一定还会问“技术性问题”。因此,就算只是应征junior的职位,仍要清楚掌握数据分析的相关知识。量子运算博士生Sara A. Metwalli分享,应征数据分析师会被问到的6个技术问题。

回归:数据科学的核心概念

回归(Regression)是数据科学的核心概念,是创建预测模型的根基。线性回归(linear regression)、逻辑回归(logistic regression)是考官常问的回归类型,问题包含两者之间的差异,以及它们的应用场景。此外,也会考你如何将问题化为变量,计算p值,分析残差,以及解释L1与L2的差别等。

Metwalli表示,只要是应征数据相关的职位,至少会被问到一个关于回归的问题,因该定要了解回归的概念。

机器学习模型:要理解基本理论与运行模式

应征者必须熟悉一般的预测模型,并根据面试官的问题,选择最适当的模型来处理。

因此,应征者要了解模型背后的基本理论、如何运行、以及最佳的应用场景。应征者必须懂得训练模型,测试它们的准确性并验证成果。面试官会问,你根据什么标准来确定模型参数,以及如何选择最适当的模型来解决问题。

随机森林:理解它与GBM的差异

随机森林(random forest)也是数据科学的必考题。面试官会问:如何创建数据树(data tree)?为什么要使用随机森林?什么时候使用?如何让它有效率?

你也要能够解释,为何要在树枝的分岔处选择特定的变量子集;也要解释如何检测树中的过度拟合(over-fitting),并如何修剪、优化它。另外,面试官也会问,为什么你选择使用随机森林,而不是使用GBM(Gradient Boosting Machines)来解决问题。因此你必须清楚了解这两种技术的差别。

聚类算法:机器学习的核心算法

聚类算法(clustering algorithm)是机器学习的核心算法之一,数据科学的面试往往会有一两个关于聚类算法的问题,通常是k-means算法。

k-means算法是机器学习中简单高效的算法,面试官会问关于它的各种问题,例如:为什么要用k-means算法?如何选择群(cluster)的数量?为了得到最佳结果,需要对算法进行几次迭代?什么是损失函数(loss function)?如何通过损失函数测试算法的性能?如何优化凸(convex)的最佳效果?

核心数学与统计学:数据分析的底子

创建模型时,必须收集数据、处理数据、分析数据,并用它们来预测未来的数据。这整个过程,需要有坚强的数学与统计学底子。

面试官可能会问你不同的几率分布,例如常态分布;会问你如何进行t检验,如何计算z值;也会问你什么是Chi-square检验,什么时候用。此外,也会问如何计算变量与分布之间的共变异数(covariance)与相关性(correlation)。

高端问题:根据职位需求问的问题

此外,面试官也会根据职位的需求,问你特定的问题,例如关于矩阵操作(matrix manipulation)与因素化(factorization),或者是如何处理时间串行,如何选择p、d、q参数,以及如何使用箱型测试(box test)等。

有时候,面试官也会要你解释不同的SQL查询,或者是叫你写一个查询,以测试你的SQL能力。此外,你也可能被问到数据可视化的问题,要你表达数据分析的结果。

虽然数据科学有很多的应用场景,但大部分的领域都需要以上的基本概念。若你能在面试前,对上述的概念了若指掌,不仅能顺利通过面试的考验,也能确保你到职后快速上手,成为公司的战力,为自己的职业生涯铺路。

参考资料

《Towards Data Science》