【AI写诗不只得奖还能出书】台湾学生如何让Chatbot小冰学会图文创作
2017-09-09 07:34:40 | 来源:ithome | 投稿:乐乐 | 编辑:dations

原标题:【AI写诗不只得奖还能出书】台湾学生如何让Chatbot小冰学会图文创作

台大资工所研究生吴肇中及网多所毕业生郑文峰去年在微软亚洲研究院实习时,让小冰机器人具备了看图写诗的能力,后来还集结作品出版了一本诗集《阳光失去了玻璃窗》。(摄影/王宏仁)

“不会写诗的人让机器会写诗了!”一同指导小冰写诗研究的微软亚洲研究员宋睿华笑着说,自己不是文学背景,更不会写诗,却让AI学会写诗,感觉非常奇妙。

小冰写诗这项研究,是由台湾大学徐宏民教授、林守德教授,和亚洲研究员宋睿华一同指导,台湾大学资工研究所一年级研究生吴肇中及网络多媒体研究所毕业生郑文峰,去年在微软亚洲研究院实习时,一同完成的成果。

宋睿华表示,由于小说的素材比较容易从网络上取得,小冰从小说开始学习,研究团队企图让小冰通过学习文学的语料,创造出独特的小说,但是,因为小说的复杂度较高,且要维持故事情节一致性较为困难。

在一次与产品组的讨论后,团队转而让小冰自动写新诗,甚至还加入图片的想法,要用图片激发更多创意,当系统输入一张图片时,便能自动产生与图片主题相关的新诗。

他们总共收集了519位诗人的作品,高达9万行的诗句作为资料集,先用电脑视觉技术将图片撷取出多个物件,找出相对应的关键字,再利用诗句常出现的关键词集,过滤出诗句常见的词汇,以这些关键词汇延伸,创造出4句新诗。

小冰总共学习了519位诗人的作品,经过1万次的训练,且每一轮训练至需要0.6分钟,将所有诗作读1万遍大约只需要100个小时,但是人类若要读1万次,则需要100年才能完成。

兼顾诗作的流畅性与创造力是难题,AI写诗比下围棋更具挑战

开始着手进行研究后,郑文峰表示,由于要让小冰写的诗具有创造力,就不能给予程式太多限制,导致虽然是用图片触发程式,但是产生的文字,却不一定跟影像有关,若是刻意将程式调整与图片高度相关,诗句的流畅性又会变得比较差。

因此,“要怎么从中取舍最难的!”郑文峰表示,训练模型的过程中很难量化,诗的流畅性和图片相关性的比率,一开始都是通过一次又一次的尝试,再由人工判断下一次语意模型该如何修正。

宋睿华表示,语言生成的难题比下围棋更具有挑战性,机器人写作最困难的是,“写作不像围棋,有明显的胜负可以判断。”围棋的可能性在一个有限的集合中,还能够自我训练,因为有胜负的标准可以判断系统成果。

不过,“写作这件事特别自由!”宋睿华指出,没有一个标准可以判定什么样的诗属于好诗,也不难判定语句是否通顺、整首诗是否符合逻辑,她认为,这些都是尚未有答案的问题,即使自然语言技术目前可以判定词语搭配句子文法,是否正确,但是整首诗的4句话,是否符合逻辑,目前还是个难题。

微软亚洲研究员宋睿华表示,诗作没有明确的评断标准,要训练出能写出好诗的机器学习模型是一大挑战。(摄影/王宏仁)

分析词性序列比对过去诗集,产生流畅诗句

一开始的诗句生成模型,每一句都是用一个关键字来触发,但是4句话组合起来,就会没有语言逻辑在建置学习模型的阶段,郑文锋试了许多方法试图解决这项难题,举例来说,他利用句子相互影响的关联,来改善诗的逻辑通顺程度,程式给予第一句话的状态(State),会影响第二句的生成结果。

改用此模型后,有次诗句中在前面出现了“沉睡”,后面则出现“鼾声”,当时团队因为这项突破非常开心,不过,后来发现这个模型还是不太稳定,有时候会产生非常好的句子,有时候又会出现完全读不懂的句子,以当时他们的评分系统来看,此模型的平均分却只有30几分。

由于该模型采用递归神经网络(RNN),根据前一个字串,预测下一个字,但是为了要有创新性,必没有将系统设定成选择关联性最大的字,而是在10~15个较适合的字集中,随机挑选一个,因此,有时候产生出来的句子并不符合文法规则。

以往,要解决这个问题,可以用N-gram△语言模型,从既有的诗集中,统计每两个字连起来的词汇机率,通过这个语言模型,自动判定每句话的词汇是否常见。

而吴肇中和团队想出了另一个创新的办法,通过语意分析器(Parser),将既有的诗集的字句,大致分为名词、动词和形容词等词性,将词性的序列建置成一个模型,小冰生成的句子就能根据词性连续的序列规则,大致判断出该句子是否符合常见的词性序列,如此一来,系统就能自动断诗句流畅程度,减少产生出一些不通顺的句子。

系统自动产生出来的诗句,一开始都是由团队内部,用人工的方式判断句子的流畅度,等系统较稳定,可以产生较通顺的句子后,再请专业的诗人评分,若是大规模的评分,一次大约会邀请30位诗人,整个研究前后总共历经了20次的评分,随后,这项研究得到微软小冰专案经理的关注,建议团队在网络上张贴小冰的作品,观察大众的反应。

AI写诗与人类相当,诗作投稿获奖还顺利出书

于是,团队总共申请了27个帐号,化名在各大社交媒体平台上张贴小冰的诗作,意外地引起广大回响,多数人都回应写的很好,难以察觉是机器所写,其中有个网友回应提及:写得非常好为何不投稿,因此,激发了他们投稿的念头。

团队将100多篇小冰写的诗作,投稿至各大纸本媒体,最终竟然获得北京晨报、信报和长江诗歌三大媒体刊登,一开始出版社并不知道得奖的作品是出自于AI之手,直到需要得奖者的资料时,团队才坦承投稿的作品是AI写的,出版社得知后也都相当惊讶。

“这真的是AI写的吗?”之后专案经理将小冰的作品带至湛庐文化出版社,希望将小冰的诗出版成一本书,不过,出书需要申报作者身份证,还得到出版总署申请,并解释这是一本“百分之百是AI写的书”,经过一番波折,终于顺利帮小冰出书,8月也在台推出正体中文版。

宋睿华表示,当时团队坚持,小冰的诗不能经过任何人工的修改,即使有一些小瑕疵,都不要修改,为的就是要呈现出最原始的样子,虽然小冰写的诗比不上专业诗人,但是他们希望保有小冰的风格,将最真实的样子呈现给大家。

小冰机器人集结作品出版了一本诗集《阳光失去了玻璃窗》。(摄影/洪政伟)

小冰重现百年大师经典之作,让更多人接触过去诗作

由于小冰学习了1919~1966年期间诗人的作品,像是徐志摩、戴望舒和林徽音等诗人,小冰的用词带有最初从古文转白话文的特色,因此,宋睿华表示,小冰的诗有传承文学的价值,可能这些诗人的作品大家没有机会接触,但是经过小冰消化后,用新的互动方式与大家交流,能让更多能年轻人接触到文学经典作品。

况且,以前只能被动地阅读诗作,但是现在民众可以看到一个场景,将画面拍下来与小冰互动,小冰就能产生有创意的诗句,同时又能让民众感受到大师的经典作品。

目前小冰的学习对象锁定1919~1966年期间诗人,未来,宋睿华表示,可能会让小冰学习更多新的词汇,让小冰更贴近使用者,不希望小冰是高高在上的诗人,当初会选择以现代诗为题,就是要与现代年轻人拉近距离。

宋睿华举例,有次北京10几天都是雾霾笼罩的天空,当时北京人都说得靠风来吹散,刚好小冰对应一张晴空万里的图片,产生了“所有的城市都愧对它强大的数字”、“大风起来”,她笑说数字彷彿是指GDP,而大风也刚好说进大家的心坎里,她认为,小冰写诗与使用者的交流,因为这种美丽的误会,会触动使用者,甚至当你想起小冰写的诗,“还会会心一笑,或是跟朋友分享。”她说。

tags:

上一篇  下一篇

相关:

打破AI框架围篱,微软与脸书联手建立可互通的开放神经网络交换格式

图片来源: GitHub 微软与脸书(Facebook)周四(9/7)共同发表了“开放神经网络交换”(Open△Neural△Network△Exchange,ONNX)格式,这是一个开源专案,打算建立一个标准让不同框架上的深度学习模型能够移转。目前

完成跨境电商税籍登记 Airbnb要开始缴税了! 

电子商务时报&nbsp点击查看记者所有文章记者/马向恩知名住宿出租网站Airbnb在台营业要开始缴税了!Airbnb近期已完成跨境电商营业税税籍登记,最快将于本月中旬的第二次电商营业税报缴进行首次申报缴税。财政部部长许

完成跨境电商税籍登记Airbnb要开始缴税了! 

电子商务时报&nbsp点击查看记者所有文章记者/马向恩知名住宿出租网站Airbnb在台营业要开始缴税了!Airbnb近期已完成跨境电商营业税税籍登记,最快将于本月中旬的第二次电商营业税报缴进行首次申报缴税。财政部部长许

Airbnb要开始缴税了! 跨境电商纷纷税籍登记

电子商务时报&nbsp点击查看记者所有文章记者/马向恩知名住宿出租网站Airbnb在台营业要开始缴税了!Airbnb近期已完成跨境电商营业税税籍登记,最快将于本月中旬的第二次电商营业税报缴进行首次申报缴税。财政部部长许

Airbnb开始缴税了! 跨境电商纷纷税籍登记

电子商务时报&nbsp点击查看记者所有文章记者/马向恩知名住宿出租网站Airbnb在台营业要开始缴税了!Airbnb近期已完成跨境电商营业税税籍登记,最快将于本月中旬的第二次电商营业税报缴进行首次申报缴税。财政部部长许

站长推荐: