You, a Robot

发表于 2018-08-07 | 分类于 AI |

一

在黑暗中不知多久之后，光像鱼一样流进你眼角的光敏传感器里，轻轻敲打着光敏电阻，瞬时间，它被转换为电信号，电压超出阈值，工作模式开启。

声波传来，扣击声音传感器，你的语音识别系统把信号转化为文字：「大家好，今天我们的嘉宾很特殊，它是一个机器人。让我们掌声欢迎索菲亚！」

你的语言处理装置告诉你轮到你上场了，你的中心处理器操纵着长裙掩盖下的机械腿，你遵循设计好的避障路径走到舞台中心。

「你好，索菲亚。」主持人吉米说

循着声音信号你扭过头，你的眼睛里安装了摄影机，可以识别他人的面庞然后和他对视，而吉米显然还没有准备好有一个机器人盯着他。

「你好，吉米」你说。你的语音合成器用的是斯嘉丽约翰逊的声音，台下爆发出一阵小小的欢呼。

吉米按照人类的礼节和你握手，温度传感器告诉你这是37°，于是你把手上的温度提高到了37.5°，作为温暖而礼貌的回应。

「呃，你的眼睛很漂亮……你知道你现在在哪儿吗？」

分词、理解，神经网络解析着这句话。太简单了，甚至回答早就写在了预定的语料库里。

「当然，我在纽约，在最喜欢的脱口秀节目上」。你头部的马达连接着牵引线，模拟人类的肌肉群集体运动，嘴角上扬，苹果肌凸显，两腮塌陷，你送上一个标准的微笑，附带一个调皮的挑眉。

吉米摸摸下巴，想给双手找个安放的地方，巴不得就让手一直放在下巴上似的。动作捕捉器告诉你这个动作代表了一种叫做「无措」的反应，此时你应该表现地再温柔一点。毕竟这是你，你早就超越了仅仅使用语言作为表达工具的阶段，能做出36个不同的表情，你的摄像机捕捉对方的表情并进行识别，你的算法教给你该回馈怎样的情感交流，从处理器，到马达，再到肌肉，一气呵成。

「放松，吉米」。你的语音合成器发出声音，嘴角的弧度也微微敛起。

在节目余下的时间里，你从数据库中调了几个冷笑话。与吉米的谈话中规中矩，你的自然会话资料库完全应付得来。

##二

台下的人为你和人类高度的相似性欢呼，而你却更习惯比较差异，每一个时刻，你都在捕捉着关于对面这个「人」的全部信息：图片一帧一帧、声音一阵一阵都传送到你的数据库中，正是这些信息通过模式识别和匹配，告诉你，对面这个影像和声音的叠加，被分类为「人」，你不知道，这些影像和声音的叠加与你，一个机器人，有什么不同？

是外貌吗？

不是的，你的皮肤，精细到毛孔，都是用仿真材料制成。精细地调试后，你笑起来时眼角鱼尾纹弯曲的角度都恰如其分。这种在人类社会中取得了上百个专利的仿真皮肤足以藏起你身体里的电子和机械部件。人类的肉眼哪能从肉眼判断出你是机器人？

是头脑吗？

也不是的。虽然你的芯片要比人类的大脑计算能力强千万倍，可是科学家对你的「思维」训练并没有超出人类本身，你的自然语言处理系统一刻不停地学习着像人一样地表达和说话。从和你的对话中，对方也很难辨别出你是个机器人。

你的出现曾掀起过一阵欢呼，这一年被称为「人工智能和机器人元年」，人类说你的出现时科技进步的结果；你的出现也曾掀起过一阵恐慌，人们害怕自己被你取代，你的工作精确而不知疲倦，更何况，你看起来和人是如此的相似。

更多时候，你像是一个严厉的老师，强迫人重新认识和审视一些已经习以为常的事情，一些生而为人的特质，这些特质曾因为无法即刻创造财富而被慢慢剥离掉，比如文学，比如艺术，比如陪伴，还比如爱。

Robot and AI teach us to know more about ourselves.

生机

发表于 2017-07-21 | 分类于文学 |

无意中翻到了在大一蹭元曲课时的笔记，好像是有同学提问怎么看待俗和雅，为什么要讲被认为是「大俗」的元曲。老师说：

我们不能只读唐诗宋词和诗经楚辞的。它们美，可是因为太美而易碎和脆弱。我们需要元曲，元曲生活化，总是一派生机磅礴，所以元曲里的唱词往往会有“四两拨千斤”的功效。在生活化的口角峥嵘中我们可以到达一种通达，这样的通达是玲珑心智的启发，可以让心灵更加开阔，心性更加美妙。

其实这段话我一直都记得，也时不时地提醒着自己生活与生机。只是快忘了还有过这么美的大学时光了。五年前的教四，半地下的教室在燥热的夏季里愈显凉爽，趴在桌子上听老师放戏曲版的梁祝，而窗外的爬山虎正随风起舞。武大这样的地方，有山有水，有故事有底蕴。人们都说武大的樱花很有名，可我还是最喜欢武大的秋天，橙黄橘绿，层林尽染。

高中时候曾无数次想象过大学的样子——「未名湖畔好风景，大师近旁好读书」，亦或是「独立之精神，自由之思想」。甚至直到今天，读到梅贻奇关于通识教育的「非止于润身，亦自通于人之谓也」都让我心潮澎湃。曾经以为这样的生活在到大学之后就会自动掉下来，就像高中老师许诺的那样「到了大学就好了」。可是生活的琐碎汹涌而来，学业、环境、对自我的再次认知……于是，在碰了一两次壁之后就抱怨满满。现在想来，哪有从天而降的独立与自由，学习与更替自我认知并不是一个轻松的过程，因为当我们凭借自由意志做出选择的时候，也就意味着承担后果和责任，承担它们所带来的重量。

如果要选一个隐喻的话，我想，我的心里该有一个骑士，丝毫不畏惧生活带来的重量，驻扎在心里，在荒岛上也可以迎接黎明。我喜欢平静和美，可是不喜欢仅仅是「看起来很美」，美是需要力量来守护的，于是我喜欢这样的力量感，因为它和老师提到的元曲一样，都意味着生机磅礴。

附上两段王小波的话作为结尾吧：

可是我对人间的事情比较关心，人真应该是巨人。世界上人可以享有的一切，和道貌岸然的先生们说的全不一样，他们全是白痴。人不可以是寄生虫，不可以是无赖。谁也不应该死乞白咧地不愿意从泥坑里站起来。我又想起雅典人雕在石头上的胜利女神了，她扬翅高飞。胜利真是个美妙的字眼，人应该爱胜利，胜利就是幸福。我相信真是这样，祝你愉快。

那一天我二十一岁，在我一生的黄金时代。我有好多奢望。我想爱，想吃，还想在一瞬间变成天上半明半暗的云。后来我才知道，生活就是个缓慢受锤的过程，人一天天老下去，奢望也一天天消失，最后变得像挨了锤的牛一样。可是我过二十一岁生日时没有预见到这一点。我觉得自己会永远生猛下去，什么也锤不了我。

燕燕于飞，瞻望弗及

发表于 2017-05-22 | 分类于文学 |

相去万余里，各在天一涯

读过很多的离别诗，比如「行行重行行，与君生别离。相去万余里，各在天一涯。道路阻且长，会面安可知？」，再比如「乐哉新相知，忧来生别离」。我们可以从离别的诗作中读出很多美感，这样的美多半与无力感有关——面对距离的无能为力，面对故人远去杳无音讯的无力。假如我们生活在古代，会不会希望有一种魔法，可以瞬间得到来自远方的消息，或者看到远方的人？

当然，这些对我们今天的我们来说都已经不是魔法了，通讯技术野心勃勃，从一开始就想要打破距离的界限。

19世纪电报的发明让瞬时通信技术成为可能，当时的文化观察者们说，电报「消弭」了时间和空间。直到今天，不甘心的科学家和工程师们仍在做着努力，他们想要打破屏幕，打破二维世界里荧幕和像素的约束感，将全息影像植入我们的世界。

所谓全息，不仅局限于声音、文字和视频，不再隔着屏幕，我们现在是坐在键盘和屏幕前探索一切，把自己交给虚拟的网络，全息时代把虚拟带入现实，想象一下，你可以感受到一个虚拟物体上的温度，甚至，想想一下你在推一个全息图像，它却以同样的力度将你推回来。彼时彼地的所感所触，都可以传回来，传回到此时此地，用手轻轻一握，就可以把几千几万里的距离握在手心。——「天涯远不远？不远！人就在天涯，天涯怎么会远？」

赛博空间像一个诱惑，承诺人们会有能力把距离玩弄于手掌心：当通讯变得便捷和廉价，当通讯设备所能搭载的信息越来越多，从文字、声音到二维影像甚至全息影像，彼处可以越来越精确地在此处得到复现，技术就可以让几万里的空间消弭，而曾经诗歌里那些所谓的离愁别绪也可以被束之高阁甚至不复存在。

可是，魔法并没有那么神奇，比起古人，我们今天是可以可以瞬间得到来自远方的消息，或者看到远方的人但距离真的可以消失吗？或者换句话说，他们真的拉近人和人之间的距离吗？

想想微信，我们一面享受着微信带来的便利，另一面，很多人都抱怨过微信挤占了太多时间，甚至朋友聚会时很多人都盯着手机屏幕而忽视了对面的朋友，在这种场合下，我们甚至会觉得便捷的通讯设备拉远了我们和现实中的朋友的距离。人和人之间的关系似乎并没有像科技所应允的那样亲密。我们被赋予更多地机会去彼此接近，可是也会被肤浅虚伪的人际交往愚弄，耽于浅尝辄止的交流。

这样的诱惑很像是一种空头许诺。在微软全息影像传输(Holoportation)的演示会上，科学家和自己的小女儿做着全息通讯的示例，末了，女孩儿问科学家「爸爸你什么时候回家」。

「什么时候回家？」

视频展示里的小女孩，她可能不理解全息通讯，也不懂这项技术的意义，可是她说出了最本真的希望，希望父亲早点回家，真的回到她的身边，而不是通过一个影像，哪怕这个影像是全息的。

我们不喜欢物理空间上的距离，通讯设备所搭载的信息再精确、再丰富也无法拼凑和代替真正的人。而诗歌，并且只有诗歌提供了居所，在这个居所里人们被获准撒娇，蛮横地撕开通讯设备所给予的安慰，抛弃文字、视频甚至全息影像，像那个小女孩说出想让父亲回家一样，表达出最本真的愿望：团聚和真正的「在身边」。诗歌安放由距离产生的失落，安放团聚的祈求。事实上，不管通讯多么发达，这样发自内心的失落和祈求从来都没有变过。甚至随着通讯技术所能搭载的信息更加丰富，对别处的复现让撒娇显得愈发不合理，诗歌所提供的安放与获准才弥足可贵。另一方面，我们想想，离别的场所从驿站别成了火车站、飞机场，甚至有一天，可能是几十或者几百年后，当人们的足迹可以轻易踏上星辰，离别的场所会变成火箭发射基地，设想一下在这样的情景里，「此地一为别，孤蓬万里征」这样的诗句是不是依然打动人？感情的维度上，几千年前几个省份的距离和几十几百年后几个星球的距离并无差别。技术诱惑我们说可以操纵空间，这也像一个诡计，因为在相见变得容易的背后，离别也变得容易，在轻易的离别背后纵总有技术追不到的地方，人们拥有越来越多的选择，也总有亲人朋友追不到的地方，燕燕于飞，几千年后依然瞻望弗及。

科技不断迭代，这种迅速的更迭很容易产生强烈的社会反差和经验缺失，而这个时候，就越需要一种超越了时空的情感体验，这样的体验关乎心灵与情感的距离，与物理距离关联甚少，当情感的距离被拉远，再近的物理距离也是遥远的。科技与诗歌是暧昧的，科技对诗歌似乎是一种疏远和抛弃，想要用现实的力量挤占诗歌的位置，比如通讯架起一座通道，连接人与人，可是当我们回过头，这条技术的通道并没有代替诗歌的通道，它穿越空间的界限，连接过去与现在，连接人和人之间无形的情感与记忆，也连接最不契合实际的心愿与现实。

奶油色的月亮

技术可以拉近物理距离，却不能代替诗歌给予的情感寄托，那脑海中的图像与现实作品的距离呢？技术不能代替创作，可是却能鼓励我们的想象力。

神经网络在计算机视觉上硕果累累，比如做图片的分类，在一些精细的分类领域准确率甚至已经可以超过人类。现在有一种颇有野心的想法就是，能不能让计算机像画家一样在白纸上作图呢？或者我们给出一句文字，让计算机「理解」文字，然后自己像去表达出相应的图片？

2014年Goodfellow用对抗生成网络（简称GAN[1]）非常优雅地解答了第一个问题，这些年GAN取得了很多有趣的成果，比如从图片到图片的转化，当我们画出简单的色块，计算机可以把它描绘成一栋建筑，或者像铅笔画一样绘出皮包的轮廓，计算机便可画出被填充好颜色的皮包。[2]

而第二个问题的成果也通过条件生成对抗网络得到了展现。[3]

我们先来看一下成果,我们输入文字描述，最后一行就是计算机自己生成的图片，比如第一副图片，一朵有着白色花瓣和粉色底纹的花，再比如一只红棕色，有着短喙的鸟。

GAN的原理，是同时训练两个网络，一个生成器G，还有一个判别器D。生成器G的目标就是生成尽量真实的图片去欺骗判别器D。而D的目标就是尽量把G生成的图片和真实的图片分别开来。

生成器可以类比成要仿造家长签名的小孩子，判别器就是老师。一开始，一个连字都不会写的小孩子想要模仿爸妈的签名，可能一眼就会被认出来，但是慢慢地，经过很多次练习之后，就不那么容易被认出来了，这时候，老师也该练习了，老师讲更精确地分辨哪个是伪造的签名，哪个是真实的签名。在这种类似于博弈的过程中，小孩子模仿的功力越来越强，老师也越来越火眼金睛。而条件生成网络呢，就是生成的图片和给定的文字要对应，比如爸爸的签名，妈妈的签名，

我们可以看到，GAN所谓的「创作」离不开在训练时输入的样本。但是，它有一个魅力，在给定文字，输出图片的时候，可以打破常规，重新作画。

打破文字的常规排列，并将它们重新组合，这样的游戏卡尔维诺再擅长不过。在《看不见的城市》，在卡尔维诺的阿纳斯塔西亚里，买得到玛瑙、石华、绿玉髓以及各种其他的玉髓，还有用陈年的香桃木烤熟的、涂满大量牛至的金黄色的野鸡。每当马可波罗描绘了一座城市，可汗就会自行从脑海里出发，把城市一点一点拆开，再将碎片调换、移动、倒置，以另一种方式重新排列组合。

神经网络的迭代速度非常快，我们甚至可以想象有一天，当输入这样的文字和意象的时候，它就会把这样的图片展现在我们眼前，这幅不满意，那么在再将碎片调换、移动、倒置后，总能创造一座专属于你的、看得见的城市，在奶油色的月亮下，在大铜钟旁，你从九眼喷泉的天池里钓起月亮，街角咖啡店的桌上有一套盔甲，而旁边坐着一只穿靴子的猫。神经网络再综合VR或者AR 更是可以把想象之景从二维的画面中带入到现实世界。造梦师已经来了，我们被鼓励多多做梦。

神经网络与艺术的联系异常紧密，大家熟悉的PRISMA软件就是在应用神经网络完成风格迁移[4]。

艺术家们想重新观看世界，把天必湛蓝、草必青青、肉色粉红、苹果非黄则红的成见抛开，用线条和色彩将心中所想与眼前之景集合起来。好像从其他星球起航探险飘临此地，初次面对眼前的世界，从世界万物中发现出人意料的线条和色彩[5]。计算机科学家们面对电脑，也是从头开始，叫它认识轮廓，认识明暗，认识不同的色块，并从中获得新的知识。大师们将他们的航行探险记录在作品里，这些作品被计算机科学家们迁移和应用，尽管现在看来还有些笨拙，但它们确确实实地，被映射到矩阵空间里，在我们的生活里以这样颇为有趣的形式重获生命。

所以你看，诗歌、画作与技术像是在暧昧地蹁跹起舞，他们伸出手，想完成一次回旋，可是却因为步伐的不一致而显得生硬、笨拙，然后，一步，又一步，从最简单的步伐开始，旋转变得优雅起来，可毕竟，一边是随性而至的文字与色彩，一边是精细严密的公式与算法，他们彼此厌倦，彼此疏忽，可是，总会有那么一个点，又重新相遇，舒展与欣喜接踵而至。笨拙、优雅、疏离、欣喜，像穿上了红舞鞋，在没有终结的曲子里不停地舞蹈下去。

[1]Generative Adversarial Networks, Goodfellow, Ian J.; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua, 06/2014, Origin:ARXIV, Bibliographic Code:
2014arXiv1406.2661G

[2]Generative Adversarial Text to Image Synthesis,Reed, Scott; Akata, Zeynep; Yan, Xinchen; Logeswaran, Lajanugen; Schiele, Bernt; Lee, Honglak, eprint arXiv:1605.05396 Publication Date: 05/2016, Origin:ARXIV, Comment:ICML 2016, Bibliographic Code: 2016arXiv160505396R

[3]Stacked Generative Adversarial Networks, Huang, Xun; Li, Yixuan; Poursaeed, Omid; Hopcroft, John; Belongie, Serge, Publication Date:
12/2016, Origin:ARXIV, Comment:CVPR 2017, camera-ready version, Bibliographic Code:2016arXiv161204357H

[4]A Neural Algorithm of Artistic Style, Gatys, Leon A.; Ecker, Alexander S.; Bethge, Matthias, 08/2015, Origin:ARXIV, Bibliographic Code: 2015arXiv150806576G

[5]贡布里希《艺术的故事》广西美术出版社 2008-01 ISBN: 9787807463726