森林法则作为算法基础,这也是没办法的事情,以他现在的能力还无法改变当下深度学习的算法环境。毕竟自己当初考虑安全问题没把算法作为自己发展的切入点,自然还是得用当下的算法作为基础。但刘凡虽然没能力改变,但是有能力优化。
刘凡通过一百次实验对比openrefine,自己的系统平均运算效率可以达到3倍以上,还是那句话,对于拥有庞大数据的企业来说,这是一个质的飞跃。就拿企鹅来说,他每天光是微信和扣扣产生的数据量就有几百tb。
更何况,数据量每天都是在增长的,因为数据处理的速度跟不上,越来越多的数据只能一直在那排队,企业的很多决策就会存在时效性的问题。
第二个突破就是数据挖掘的多样性,大数据技术的发展对企业来说最重要的就是他的数据分析和数据挖掘能力。
正如大数据行业最经典的案例之一:啤酒放在尿不湿旁边销量最高,这就是大数据分析给企业带来的实质性价值。
企业就是要大数据处理工具告诉自己,我该怎么做能赚更多的钱。
但在这个问题上,整个市场目前的大数据挖掘能力其实还处在一个相对初级的阶段,因为对于有规则的东西,大数据是很好分析的,但更多的企业是要从无规则的数据中分析出一个结果,这是很难的。因为牵扯的变量太多了。
而刘凡通过系统知识的提点,想到了在算法中加入一个数据关联逆推算法,让杂乱无章的数据之间自我建立起函数关系,再对函数进行二次深度挖掘从而导出有效函数,最后再对有效函数进行物理解析。
这就让很多在当下算法环境下被判为无用的信息变废为宝了。虽然刘凡这种算法也不可能保证说通过杂乱的数据直接能给企业一个怎么赚钱的答案,但却可以让企业更为全面的掌握产品情况,市场情况以及公司情况等,更多传统工具忽视的细节都将会大概率被呈现出来。
在各行各业同质化愈发严重的今天,信息的利用率和细节的把控有多重要,可想而知。
要说现在这款工具的缺陷,那就是数据量越大它的优势就越明显,如果数据量太小,可能一点优势都呈现不出来了。这就影响到后期确立目标客户的问题了。
在一个多月的学习,研发,对比,改良之后,刘凡觉得眼下的这一个大数据处理已经可以作为第一款产品亮相了。
一来在性能上刘凡认为已经具备了足够的竞争力,二来是刘凡为了这套系统,又要租服务器做实验又要花钱买数据,短短一个月把三年来打工攒下的2万块钱快花完了。
得赶紧赚钱了。
至于这套工具的名字刘凡也想好了,当时是因为看着像木龙才把系统捡回来的,所以刘凡打算以后不管是技术,芯片,还是公司,都以木龙为名。
这次的大数据处理工具也将是木龙科技旗下的第一款产品:木龙大数据处理工具1.0。