数据分析师常见的7道笔试题目及答案

来源:专题时间：2016-08-08 09:08:29 阅读：

【www.zhuodaoren.com--专题】

第一篇:《数据分析师面试常见的77个问题》

数据分析师面试常见的77个问题

2013-09-28 数据挖掘与数据分析

随着大数据概念的火热，数据科学家这一职位应时而出，那么成为数据科学家要满足什么条件？或许我们可以从国外的数据科学家面试问题中得到一些参考，下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题，供各位同行参考。

1、你处理过的最大的数据量？你是如何处理他们的？处理的结果。

2、告诉我二个分析或者计算机科学相关项目？你是如何对其结果进行衡量的？

3、什么是：提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则？

4、什么是：协同过滤、n-grams, map reduce、余弦距离？

5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库？

6、如何设计一个解决抄袭的方案？

7、如何检验一个个人支付账户都多个人使用？

8、点击流数据应该是实时处理？为什么？哪部分应该实时处理？

9、你认为哪个更好：是好的数据还是好模型？同时你是如何定义“好”？存在

所有情况下通用的模型吗？有你没有知道一些模型的定义并不是那么好？

10、什么是概率合并（AKA模糊融合）？使用SQL处理还是其它语言方便？对于处理半结构化的数据你会选择使用哪种语言？

11、你是如何处理缺少数据的？你推荐使用什么样的处理技术？

12、你最喜欢的编程语言是什么？为什么？

13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。

14、SAS, R, Python, Perl语言的区别是？

15、什么是大数据的诅咒？

16、你参与过数据库与数据模型的设计吗？

17、你是否参与过仪表盘的设计及指标选择？你对于商业智能和报表工具有什么想法？

18、你喜欢TD数据库的什么特征？

19、如何你打算发100万的营销活动邮件。你怎么去优化发送？你怎么优化反应率？能把这二个优化份开吗？

20、如果有几个客户查询ORACLE数据库的效率很低。为什么？你做什么可以提高速度10倍以上，同时可以更好处理大数量输出？

21、如何把非结构化的数据转换成结构化的数据？这是否真的有必要做这样的转换？把数据存成平面文本文件是否比存成关系数据库更好？

22、什么是哈希表碰撞攻击？怎么避免？发生的频率是多少？

23、如何判别mapreduce过程有好的负载均衡？什么是负载均衡？

24、请举例说明mapreduce是如何工作的？在什么应用场景下工作的很好？云的安全问题有哪些？

25、（在内存满足的情况下）你认为是100个小的哈希表好还是一个大的哈希表，对于内在或者运行速度来说？对于数据库分析的评价？

26、为什么朴素贝叶斯差？你如何使用朴素贝叶斯来改进爬虫检验算法？

27、你处理过白名单吗？主要的规则？（在欺诈或者爬行检验的情况下）

28、什么是星型模型？什么是查询表？【数据分析师常见的7道笔试题目及答案】

29、你可以使用excel建立逻辑回归模型吗？如何可以，说明一下建立过程？

30、在SQL, Perl, C++, Python等编程过程上，待为了提升速度优化过相关代码或者算法吗？如何及提升多少？

31、使用5天完成90%的精度的解决方案还是花10天完成100%的精度的解决方案？取决于什么内容？

32、定义：QA（质量保障）、六西格玛、实验设计。好的与坏的实验设计能否举个案例？

33、普通线性回归模型的缺陷是什么？你知道的其它回归模型吗？

34、你认为叶数小于50的决策树是否比大的好？为什么？

35、保险精算是否是统计学的一个分支？如果不是，为何如何？

36、给出一个不符合高斯分布与不符合对数正态分布的数据案例。给出一个分布非常混乱的数案例。

37、为什么说均方误差不是一个衡量模型的好指标？你建议用哪个指标替代？

38、你如何证明你带来的算法改进是真的有效的与不做任何改变相比？你对A/B测试熟吗？

39、什么是敏感性分析？拥有更低的敏感性（也就是说更好的强壮性）和低的预测能力还是正好相反好？你如何使用交叉验证？你对于在数据集中插入噪声数据从而来检验模型的敏感性的想法如何看？

40、对于一下逻辑回归、决策树、神经网络。在过去15年中这些技术做了哪些大的改进？

41、除了主成分分析外你还使用其它数据降维技术吗？你怎么想逐步回归？你熟悉的逐步回归技术有哪些？什么时候完整的数据要比降维的数据或者样本好？

42、你如何建议一个非参数置信区间？

43、你熟悉极值理论、蒙特卡罗逻辑或者其它数理统计方法以正确的评估一个稀疏事件的发生概率？

44、什么是归因分析？如何识别归因与相关系数？举例。

45、如何定义与衡量一个指标的预测能力？

46、如何为欺诈检验得分技术发现最好的规则集？你如何处理规则冗余、规则发现和二者的本质问题？一个规则集的近似解决方案是否可行？如何寻找一个

可行的近似方案？你如何决定这个解决方案足够好从而可以停止寻找另一个更好的？

47、如何创建一个关键字分类？

48、什么是僵尸网络？如何进行检测？

49、你有使用过API接口的经验吗？什么样的API？是谷歌还是亚马逊还是软件即时服务？

50、什么时候自己编号代码比使用数据科学者开发好的软件包更好？

51、可视化使用什么工具？在作图方面，你如何评价Tableau?R?SAS?在一个图中有效展现五个维度？

52、什么是概念验证？

53、你主要与什么样的客户共事：内部、外部、销售部门/财务部门/市场部门/IT部门的人？有咨询经验吗？与供应商打过交道，包括供应商选择与测试。

54、你熟悉软件生命周期吗？及IT项目的生命周期，从收入需求到项目维护？

55、什么是cron任务？

56、你是一个独身的编码人员？还是一个开发人员？或者是一个设计人员？

57、是假阳性好还是假阴性好？

58、你熟悉价格优化、价格弹性、存货管理、竞争智能吗？分别给案例。

59、Zillow’s算法是如何工作的？

60、如何检验为了不好的目的还进行的虚假评论或者虚假的FB帐户？

61、你如何创建一个新的匿名数字帐户？

62、你有没有想过自己创业？是什么样的想法？

63、你认为帐号与密码输入的登录框会消失吗？它将会被什么替代？

64、你用过时间序列模型吗？时滞的相关性？相关图？光谱分析？信号处理与过滤技术？在什么样的场景下？

65、哪位数据科学有你最佩服？从哪开始？

66、你是怎么开始对数据科学感兴趣的？

67、什么是效率曲线？他们的缺陷是什么，你如何克服这些缺陷？

68、什么是推荐引擎？它是如何工作的？

69、什么是精密测试？如何及什么时候模拟可以帮忙我们不使用精密测试？

70、你认为怎么才能成为一个好的数据科学家？

71、你认为数据科学家是一个艺术家还是科学家？

72、什么是一个好的、快速的聚类算法的的计算复杂度？什么好的聚类算法？你怎么决定一个聚类的聚数？

73、给出一些在数据科学中“最佳实践的案例”。

74、什么让一个图形使人产生误解、很难去读懂或者解释？一个有用的图形的特征？

75、你知道使用在统计或者计算科学中的“经验法则”吗？或者在商业分析中。

76、你觉得下一个20年最好的5个预测方法是？

77、你怎么马上就知道在一篇文章中（比如报纸）发表的统计数字是错误，或者是用作支撑作者的论点，而不是仅仅在罗列某个事物的信息？例如，对于每月官方定期在媒体公开发布的失业统计数据，你有什么感想？怎样可以让这些数据更加准确？

第二篇:《数据分析师笔试题》

数据分析师面试题

1，数据区域如下图所示，请根据得分等级参照表，写出B2单元格公式，确保公式适用于下拖：

公式：

2，数据区域如下图所示，请写出B2单元格公式，确保公式适用于下拖：

公式：

3，请简要说明 SQL中内连接，左连接，右连接，外连接的区别？

4，请简要描述SQL的执行顺序？

5，假设12个销售价格记录组已经排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215使用如下每种方法将它们划分成四个箱。等频（等深）划分时，15在第几个箱子内？（）

A 第一个 B 第二个 C 第三个 D 第四个

第三篇:《作业DSP7道题1》

NO—1 评价一下单片机和TMS320C5509A

单片机是一种集成电路芯片，是采用超大规模集成电路技术把具有数据处理能力的中央处理器CPU随机存储器RAM、只读存储器ROM、多种I/O口和中断系统、定时器/计数器等功能（可能还包括显示驱动电路、脉宽调制电路、模拟多路转换器、A/D转换器等电路）集成到一块硅片上构成的一个小而完善的微型计算机系统，在工业控制领域广泛应用硬件特性

1、主流单片机包括CPU、4KB容量的ROM、128 B容量的RAM、 2个16位定时/计数器、4个8位并行口、全双工串口行口、ADC/DAC、SPI、I2C、ISP、IAP。

2、系统结构简单，使用方便，实现模块化；

3、单片机可靠性高，可工作到10^6 ~10^7小时无故障；

4、处理功能强，速度快。

5、低电压，低功耗，便于生产便携式产品

6、控制功能强

7、环境适应能力强。

基本结构编辑

1.运算器

运算器由运算部件——算术逻辑单元（Arithmetic & Logical Unit，简称ALU）、累加器和寄存器等几部分组成。ALU的作用是把传来的数据进行算术或逻辑运算，输入来源为两个8位数据，分别来自累加器和数据寄存器。ALU能完成对这两个数据进行加、减、与、或、比较大小等操作，最后将结果存入累加器。例如，两个数6和7相加，在相加之前，操作数6放在累加器中，7放在数据寄存器中，当执行加法指令时，ALU即把两个数相加并把结果13存入累加器，取代累加器原来的内容6。

运算器有两个功能：

(1) 执行各种算术运算。

(2) 执行各种逻辑运算，并进行逻辑测试，如零值测试或两个值的比较。运算器所执行全部操作都是由控制器发出的控制信号来指挥的，并且，一个算术操作产生一个运算结果，一个逻辑操作产生一个判决。

2.控制器

控制器由程序计数器、指令寄存器、指令译码器、时序发生器和操作控制器等组成，是发布命令的“决策机构”，即协调和指挥整个微机系统的操作。其主要功能有：

(1) 从内存中取出一条指令，并指出下一条指令在内存中的位置。

(2) 对指令进行译码和测试，并产生相应的操作控制信号，以便于执行规定的动作。

(3) 指挥并控制CPU、内存和输入输出设备之间数据流动的方向。

微处理器内通过内部总线把ALU、计数器、寄存器和控制部分互联，并通过外部总线与外部的存储器、输入输出接口电路联接。外部总线又称为系统总线，分为数据总线DB、地址总线AB和控制总线CB。通过输入输出接口电路，实现与各种外围设备连接。

3.主要寄存器【数据分析师常见的7道笔试题目及答案】

（1）累加器A

累加器A是微处理器中使用最频繁的寄存器。在算术和逻辑运算时它有双功能：运算前，用于保存一个操作数；运算后，用于保存所得的和、差或逻辑运算结果。

（2）数据寄存器DR

数据寄存器通过数据总线向存储器和输入/输出设备送（写）或取（读）数据的暂存单元。它可以保存一条正在译码的指令，也可以保存正在送往存储器中存储的一个数据字节等等。

（3）指令寄存器IR和指令译码器ID

指令包括操作码和操作数。指令寄存器是用来保存当前正在执行的一条指令。当执行一条指令时，先把它从内存中取到数据寄存器中，然后再传送到指令寄存器。当系统执行给定的指令时，必须对操作码进行译码，以确定所要求的操作，指令译码器就是负责这项工作的。其中，指令寄存器中操作码字段的输出就是指令译码器的输入。

（4）程序计数器PC

PC用于确定下一条指令的地址，以保证程序能够连续地执行下去，因此通常又被称为指令地址计数器。在程序开始执行前必须将程序的第一条指令的内存单元地址（即程序的首地址）送入PC，使它总是指向下一条要执行指令的地址。

（5）地址寄存器AR

地址寄存器用于保存当前CPU所要访问的内存单元或I/O设备的地址。由于内存与CPU之间存在着速度上的差异，所以必须使用地址寄存器来保持地址信息，直到内存读/写操作完成为止。

显然，当CPU向存储器存数据、CPU从内存取数据和CPU从内存读出指令时，都要用到地址寄存器和数据寄存器。同样，如果把外围设备的地址作为内存地址单元来看的话，那么当CPU和外围设备交换信息时，也需要用到地址寄存器和数据寄存器。

TMS320C5509A内置数字信号处理器(DSP，DigitalSignalProcessor)是车载主机内以逻辑电路对音视频数字信号进行再加工处理的专用元件，是一个统称名词，包括数字效果器、EQ、3D环绕等等。数字信号处理器（DSP，即DigitalSignalProcessor）是进行数字信号处理的专用芯片，是伴随着微电子学、数字信号处理技术、计算机技术的发展而产生的新器件。算法格式【数据分析师常见的7道笔试题目及答案】

DSP的算法有多种。绝大多数的DSP处理器使用定点算法，数字表示为整数或-1.0到+1.0之间的小数形式。有些处理器采用浮点算法，数据表示成尾数加指数的形式：尾数×2指数。

浮点算法是一种较复杂的常规算法，利用浮点数据可以实现大的数据动态范围(这个动态范围可以用最大和最小数的比值来表示)。浮点DSP在应用中，设计工程师不用关心动态范围和精度一类的问题。浮点DSP比定点DSP更容易编程，但是成本和功耗高。

由于成本和功耗的原因，一般批量产品选用定点DSP。编程和算法设计人员通过分析或仿真来确定所需要的动态范围和精度。如果要求易于开发，而且动态范围很宽、精度很高，可以考虑采用浮点DSP。

也可以在采用定点DSP的条件下由软件实现浮点计算，但是这样的软件程序会占用大量处理器时间，因而很少使用。有效的办法是“块浮点”，利用该方法将具有相同指数，而尾数不同的一组数据作为数据块进行处理。“块浮点”处理通常用软件来实现。

数据宽度

所有浮点DSP的字宽为32位，而定点DSP的字宽一般为16位，也有24位和20位的DSP，如摩托罗拉的DSP563XX系列和Zoran公司的ZR3800X系列。由于字宽与DSP的外部尺寸、管脚数量以及需要的存储器的大小等有很大的关系，所以字宽的长短直接影响到器件的成本。字宽越宽则尺寸越大，管脚越多，存储器要求也越大，成本相应地增大。在满足设计要求的条件下，要尽量选用小字宽的DSP以减小成本。

在关于定点和浮点的选择时，可以权衡字宽和开发复杂度之间的关系。例如，通过将指令组合连用，一个16位字宽的DSP器件也可以实现32位字宽双精度算法(当然双精度算法比单精度算法慢得多)。如果单精度能满足绝大多数的计算要求，而仅少量代码需要双精度，这种方法也可行，但如果大多数的计算要求精度很高，则需要选用较大字宽的处理器。

请注意，绝大多数DSP器件的指令字和数据字的宽度一样，也有一些不一样，如ADI(模拟器件公司)的ADSP-21XX系列的数据字为16位而指令字为24位。

处理速度

处理器是否符合设计要求，关键在于是否满足速度要求。测试处理器的速度有很多方法，最基本的是测量处理器的指令周期，即处理器执行最快指令所需要的时间。指令周期的倒数除以一百万，再乘以每个周期执行的指令数，结果即为处理器的最高速率，单位为每秒百万条指令MIPS。

但是指令执行时间并不能表明处理器的真正性能，不同的处理器在单个指令完成的任务量不一样，单纯地比较指令执行时间并不能公正地区别性能的差异。现在一些新的DSP采用超长指令字(VLIW)架构，在这种架构中，单个周期时间内可以实现多条指令，而每个指令所实现的任务比传统DSP少，因此相对VLIW和通用DSP器件而言，比较MIPS的大小时会产生误导作用。

即使在传统DSP之间比较MIPS大小也具有一定的片面性。例如，某些处理器允许在单个指令中同时对几位一起进行移位，而有些DSP的一个指令只能对单个数据位移位；有些DSP可以进行与正在执行的ALU指令无关的数据的并行处理(在执行指令的同时加载操作数)，而另外有些DSP只能支持与正在执行的ALU指令有关的数据并行处理；有些新的DSP允许在单个指令内定义两个MAC。因此仅仅进行MIPS比较并不能准确得出处理器的性能。解决上述问题的方法之一是采用一个基本的操作(而不是指令)作为标准来比较处理器的性能。常用到的是MAC操作，但是MAC操作时间不能提供比较DSP性能差异的足够信息，在绝大多数DSP中，MAC操作仅在单个指令周期内实现，其MAC时间等于指令周期时间，如上所述，某些DSP在单个MAC周期内处理的任务比其它DSP多。MAC时间并不能反映诸如循环操作等的性能，而这种操作在所有的应用中都会用到。

最通用的办法是定义一套标准例程，比较在不同DSP上的执行速度。这种例程可能是一个算法的“核心”功能，如FIR或IIR滤波器等，也可以是整个或部分应用程序(如语音编码器)。在比较DSP处理器的速度时要注意其所标榜的MOPS

本文来源：http://www.zhuodaoren.com/shenghuo314859/

推荐访问:网易数据分析师笔试 360数据分析师笔试

上一篇：广东省乡镇公务员面试笔试题集锦大全 下一篇：中国平安银行面试笔试题目,软件测试方向

扩展阅读文章

热门阅读文章

专题推荐文章