GitHub最近于自家博客中,公布去年度机器学习和数据科学项目相关的报告,其中,平台上机器学习项目最热门的语言,前3名分别是Python、C++和JavaScript,而最受欢迎的函数库为Numpy ,7成以上的机器学习项目都使用了Numpy函数库,Scipy函数库则是占了近5成。
GitHub在去年10月公布的2018年度Octoverse报告中指出,机器学习和数据科学是GitHub上的热门主题,其中, Google的机器学习框架Tensorflow最受欢迎,而脸书推出的深度学习框架Pytorch则是增长最快速的项目,Python则是第三热门的程序语言。最近GitHub决定深入探讨机器学习和数据科学领域的数据,萃取出2018年度整年GitHub平台上的贡献数据,包含发布程序代码、提出Issues、提交审核请求等,针对大多数导入的函数库,GitHub则采用包含所有公开和私人存储库(repository)的依赖关联图(dependency graph)来分析。
在机器学习项目中,热门程序语言Top 10的排行榜上,C++、JavaScript、Java、C#、Shell和TypeScript都是GitHub平台前10名的热门语言,值得注意的是, Julia、R和Scala并不在整体GitHub平台前10名热门语言的排行榜中,Julia和R语言通常被用于数据科学的项目中,而Scala则是因为像是Apache Spark的大数据运算框架,变得越来越热门。
Numpy函数库具备平行处理能力,支持多维度数组和矩阵的数学运算,在机器学习项目中,能够处理庞大的数据量,因此以超过7成的机器学习项目占有率,成为最受欢迎的ML函数库,另外,负责运算的Scipy、管理数据集Pandas和提供可视化的Matplotlib函数库,在ML项目中,都有超过4成的占有率。