回到酒店,王一男打开随身携带的笔记本电脑,启动freemind,开始整理自己的思路。
人工智能是当前的热点,而神经网络又是热点中的热点,但是除了极少数领域,比如说车牌识别,或者极少数个例,比如说米歌的围棋狗以外,在实践中很少看到具体的应用案例。
造成这种情况的原因很简单,那就是神经网络对硬件的依赖性,在普通的x86电脑或者基于arm芯片的手机上不是不能运行神经网络,但是运行的效率绝对会让你发狂。
还有神经网络那庞大的数据量,全部装到手机里面几乎是不可能的。
所以,目前的神经网络应用是极度依赖硬件的,这也就限制了它的应用范围,反正你记住,在普通的手机上几乎跑不起来一个实用的神经网络就对了。
但是有了王一男的新发现和新技术就完全不一样了,对样本的整理和训练这一步没有捷径可言,老老实实的在专用硬件上花很长时间进行就好了,这也不是问题的焦点所在。
但是一旦训练完成,神经网络稳定之后,王一男就可以利用一系列的数学工具,以及形式化技巧,根据神经网络的类型,对庞大的神经网络数据进行分块的指令化。
简单的理解,可以认为将神经网络这种多层迭代的运行方式,映射成普通冯诺依曼机器的运行方式。
具体而言,比如说对于其中1/8的神经网络分块,映射为一种通用的冯诺依曼机器指令,比如说,java或者llvm的字节码吧。
你可以认为王一男找到一种编译方法,可以将神经网络的数据,编译成一种通用的字节码,再利用现成的jit技术,或者llvm的编译技术,得到可执行的pc或者手机程序。
最后,再将所有的分块组合起来,就能得到任何训练后的神经网络,在pc或者手机上的编译版本。
也就是说,制约人工智能发展的最大的障碍,硬件的限制现在完全不存在了,只要在专用的硬件上用足够的样本训练出符合要求的神经网络,然后利用王一男的技术,就能够将这个训练好的神经网络编译到普通的pc甚至手机上,从而得到一个可以完成同样任务的手机app。
我再举一个具体的例子,大家就明白了,目前哥鲲鹏2.0通过训练,学会了如何最高效率的飞行,但是它没办法直接教给人类怎么飞行,而且又不能将哥鲲鹏带上天,直接让它指挥飞机怎么飞。
所以现在王一男和杨总师采用的方法是,自己编写飞控软件,然后让哥鲲鹏来找到里面的缺陷,经过多次迭代来改进人类编写的飞控软件,从而获得质量不错的飞控软件。
有了王一男的新技术,现在可以直接将哥鲲鹏的神经网络,编译到飞控计算机的指令集,比如说alpha体系,编译后的程序,实际上就是最好的飞控软件了!
不能理解、无法描述都没关系,能执行就行!
就算给新型号战绩加上矢量发动机,那也不过是多训练两天,重新编译一下的功夫,立马就能得到最牛的飞控软件了。
“这把玩大了”,王一男在电脑上敲完上面的几句话,搓着手,不知道该说啥。
说真的,要是cia、fbi之流知道王一男现在做的事情,估计就算把他们在整个华国的特工都派过来,也要把他绑架走。
当然,具体要完成这个构想,还需要大量的时间和工作,需要整理所有的神经网络的类型,以及对应的数学工具,还要针对不同的数据生成抽象的指令序列。
仅仅使用数学工具形式化的神经网络数据,一定是冗长的,为了达到实用化的程度,需要对代码进行精简和优化,当然这方面可以发挥哥德尔系统的特长。
最好能够将整个过程自动化和程序化,不过这个倒不是很着急,人的智慧配合机器来工作,一向是最快速最有效率的方案。
王一男打消了找116所第一个吃螃蟹的想法,虽然这样一定会很爽的,但是116所的最新隐身战斗机不要说华国了,整个蓝星多少双眼睛盯着,要是一不小心弄出一个惊天动地的飞控出来,王一男用脚趾头都能想到动静有多大,显然这绝对违背了他低调的初衷。
还是闷声发大财的好,王一男把注意力集中在大卫计划上,或者准确的来说,大卫计划的一个点上,要知道,现在大卫计划最大的问题,是缺乏一个杀手级别的应用,要那种远远超过别人的功能和效果。
基本的聊天功能,再怎么样也很难玩出花来,只有在现在并不是很成熟的一些领域上做文章了,比如说多人视频聊天。
目前视频聊天技术的主流是h264,这也是大部分手机硬件都支持的视频编解码技术,对于一对一的视频聊天来说,只要对分辨率的要求不太高,效果还过得去。
当然,要想效果好,还需要更新的技术比如说h265,或者米歌搞的vp10,啊不对,因为h265的专利问题,一堆业界大拿凑在一起开了一个新的项目,叫做开放媒体联盟,他们搞了一个成人影片一号格式,不对,是音频视频一号格式,号称比h265效率还要高。
不管h264还是h265还是av1,都是按照传统的方法对视频,或者说连续的图像流进行压缩的,也就是将视频在频谱上进行处理,减少人眼不太关注的部分,然后通过对时间域的分析,去掉相邻图像帧之间的重复部分等等。
当然在这中间,利用分块技术减少运算复杂度,或者自适应分块技术,在编码效率和编码质量之间进行自动的权衡。
王一男决定独辟蹊径,完全按照神经网络的方式来处理问题,就像米歌的狗狗zero版本一样,他抛弃了所有预先的知识,甚至包括频率的概念。
神经网络唯一的输入来源是图像的序列,评价算法的质量标准是解码之后图像序列跟原始图像之间的偏差,这是有一个人眼视觉方差评估办法的。
采用这样的方法对神经网络进行训练,王一男将算法时间也作为训练的一个基本参数,也就是说,最小的大小,最快的时间,最小的人眼视觉方差,用所有能获得的样本进行训练。
王一男回到帝都之后,简单跟大卫计划的团队碰了碰,看了看他们的原型,然后要求团队开始针对原型系统的问题,开发2.0版本,重点是可扩展的架构,以及服务的稳定性。
而他自己又开始闭关了,学校显然不是一个很好的闭关地点,周慧家就更不是了,王一男把自己关在容与公司的大本营,这样也好,离哥德尔系统更近一些。
闭关时候的王一男,就像完全变了个人,六亲不认,目光呆滞,和平常那个平民模样的年轻人完全对不上号,整个就是一个疯狂科学家的形象,不过呢,效率确实高的惊人。
周慧忍不住去容与公司看了他两次,结果每次呆不了多一会就狼狈逃窜了,用她的话来说,太瘆人了,王一男大部分时间坐在键盘前面疯狂的打字,有时候像一个目光没有焦距的幽灵一样在办公室里面飘来飘去,嘴里还念念有词,真是吓死人不赔命。
哥德尔系统开始利用无数的视频样本开始训练,什么youtobe,什么爱艺,什么又酷,反正王一男给哥德尔系统买了无数个vip账号,疯狂的让它看视频,至于会不会走火入魔,那就不是王一男考虑的范畴了。
但是这些视频样本的数量貌似不太够啊,关键是基本上所有的素材都经过了各种后期处理,或者美颜啊,或者剪接啊,反正对于神经网络学习来说,不是原生态的,噪声有点多。
这个时候,王一男不禁要感谢王校长引发的直播风潮了,除了为风投找到一个疯狂砸钱的红海,为部分二次元屌丝男女提供致富的渠道以外,无数直播软件,还给哥德尔系统提供了无数真实的视频样本。
于是在容与公司总部,无数直播的视频流被接了进来,然后转换成哥德尔系统一个视频压缩的专用神经网络权重。
这可是一个抛弃了所有先验知识的神经网络,没有傅里叶分析,没有小波分析,没有运动预测,没有分块,更没有离散余弦变换。
神经网络的目标也很明确,压缩原始的视频数据,或者说时间域上的离散图像帧,用尽可能小的尺寸、尽可能快的速度、还有尽可能小的人眼视觉方差,至于原理是什么,谁关心呢?
王一男的任务很简单,也很繁重,他要找到一系列的数学工具,形式化技巧,并且把这些程序化,这样哥德尔系统就能将训练完成的神经网络编译成llvm的字节码,
再经过多次迭代,优化之后,最终得到一个精简版本的llvm字节码,
这些字节码,就可以定位到特定的cpu架构中,比如说x86或者arm,得到可以实际工作的压缩、解压缩程序。
不知道哥德尔系统看多了直播,会不会学会东北话,想来是不会的,不过王一男坚决没让哥德尔系统用那个发抖短视频来训练,科学家也是有洁癖的,“那么low的东西,就污染我好了,别污染哥德尔系统了”,王一男想。
时光荏苒,这期间,王一男还去上了两堂课,陪周慧看了两次电影,毕竟,疯狂的科学家还是个正常人不是。
哥德尔系统的视频压缩神经网络也逐步的稳定下来了,编译到llvm指令的工作还没完成,王一男迫不及待的要先看看直接用神经网络进行视频压缩的效果,毕竟,要是还没有h265强,那还不如洗洗睡了呢。
他选中了一个蓝光的4k分辨率片源,就是那种电视机厂商用来做广告的几分钟的短视频,使用h265标准压缩后,大小大概是700m。
将h265视频输入到ffmpeg,解压出jpeg格式的每一帧图像数据,再送往哥德尔系统,这中间当然会有画质损失,不过王一男已经顾不得那么多了,
他屏住呼吸,两眼紧盯着屏幕。