记得在校的时候,某岩做过一个app,讲接龙故事的。类似于我写一段,另一个人写接下来的一段,最后凑成一个完整的故事。当时,可产生了不少有意思的段子。最近,GPT2 模型的发布,让人不禁想到,有没有可能让机器来完成这个任务呢?机器写十四行诗、机器写莎士比亚风格的文章,机器写对联,这些都已经成为了现实。人工智能虽然没有带来突飞猛进的质变,但着实催生了很多有意思的小玩意儿。对于GPT2,一个字概括来说就是:壕——数据量大,算力能够 cover 住。这套算法模型网罗了几乎现有的所有文本数据,成功“过拟合“地屠榜,刷新多个 NLP 任务榜单排行。作者为了预防滥用模型、同时让别的研究者能够有个初步地认识,开源了一个小一些地模型。该模型的能力之一,就是我们今天的主题:接着别人地话写故事。今天我们要通过算法来实现。

虽然作者有在尽力简化复现难度,但对于很多不是这行的人,让他去敲命令行来走完整个流程,还是困难重重。能够将深奥的原理讲给普通人听,并且简单易懂,是一项科学传播的必备能力。做为技术向的工程师,在产品处于雏形阶段时,能够通过一个 MVP 最小价值产品,实现核心功能,也是一项大大的加分项。对于今天的任务,我们选取容易上手,接口丰富的 slack 作为我们的前端交互窗口。

如何构建一个 MVP 产品;或者具体的来讲,在我们的这个任务中,如何将数据挖掘工程师的模型成果,转化为可落地、可感知的产品或服务呢。操起斧子直接开干,依葫芦画瓢撸个前后端出来吗?这,其实是很多技术人员的一个误区——认为什么都可以从技术层面解决,”少废话别bb,bb is cheap,show me the code“。但从一个商业产品或服务商的角度来看,客户与渠道是前台,我们的客户是谁、如何触达客户以及选用何种渠道维系客户,是一个一开始就要考虑的事情。

以这个 GPT2 bot 为例,我希望的客户是对 GPT感兴趣,但又没基础去折腾的学生或是其他领域的人士,抑或是没时间去跑 demo 的专业同行。如何触达客户:你看的这篇文章的平台,就是我的触达媒介。我最后选择用 slack 交付我的服务,而不是 qq 或 微信,是因为他成本更低,虽然阻挡了部分潜在客户,但权衡后是可以接受的。最后的工作才是依葫芦画瓢,照撸一个出来。本文参照了EdwardHuCS,并在其基础上做了部分改动。

虽然这波 AI 热潮,让很多像我这样的非科班得以上车。但在实际生产环境中,我们还是暴露了诸多问题。其中之一,便是工程能力薄弱。会写 SQL 、会手推算法、会调包,但是就是不会写能跑的整个小系统。在业务变化快的公司中,这可能不是一个好事情。你的模型也许还在细调参数,但突然整个业务就没了。如果你能拿出一个能跑的马儿,兴许能影响这个业务。这就是前面提到的加分项。

言归正传,我们回到在slack上面。我们的核心就以下代码:

核心代码解读

导入一些基础配置

import os
import time
import re
from slackclient import SlackClient
import sys
from gpt2.src import generate_unconditional_samples
# instantiate Slackk client
slack_client = SlackClient('') # 认证口令
# starterbot's user ID in Slack: value is ssigned after the bot starts up
starterbot_id = None

延迟配置以及样例和匹配模式

# constants
RTM_READ_DELAY = 1 # 1 second delay between reading from RTM
EXAMPLE_COMMAND = "God, to me, is like a "
MENTION_REGEX = "^<@(|[WU].+?)>(.*)" 
通过 slack 的事件,解析出我们的消息和对应的频道
def parse_bot_commands(slack_events):
    """
        Parses a list of events coming from the Slack RTM API to find bot commands.
        If a bot command is found, this function returns a tuple of command and channel.
        If its not found, then this function returns None, None.
    """
    for event in slack_events:
        if event["type"] == "message" and not "subtype" in event:
            user_id, message = parse_direct_mention(event["text"])
            if user_id == starterbot_id:
                return message, event["channel"]
    return None, None

消息解析

def parse_direct_mention(message_text):
    """
        Finds a direct mention (a mention that is at the beginning) in message text
        and returns the user ID which was mentioned. If there is no direct mention, returns None
    """
    matches = re.search(MENTION_REGEX, message_text)
    # the first group contains the username, the second group contains the remaining message
    return (matches.group(1), matches.group(2).strip()) if matches else (None, None)

核心的模型导入

def handle_command(command, channel):
    """
        Executes bot command if the command is known
    """
    # Default response is help text for the user
    response = "Not sure what you mean. Try *{}*.".format(EXAMPLE_COMMAND)

    # This is where you start to implement more commands!
    if len(command) < 2:
        response = "Sure...write some more text then I can do that!"
    else:
        # 这里可以替换成任何你想要的模型
        response = '"'+command+generate_unconditional_samples.sample_model(nsamples=1, length=6*len(command), top_k=len(command), command=command)[0]


    # Sends the response back to the channel
    slack_client.api_call(
        "chat.postMessage",
        channel=channel,
        text=response)

主函数入口

if __name__ == "__main__":
    if slack_client.rtm_connect(with_team_state=False):
        print("Starter Bot connected and running!")
        # Read bot's user ID by calling Web API method `auth.test`
        starterbot_id = slack_client.api_call("auth.test")["user_id"]
        while True:
            command, channel = parse_bot_commands(slack_client.rtm_read())
            if command:
                handle_command(command, channel)
            time.sleep(RTM_READ_DELAY)
    else:
        print("Connection failed. Exception traceback printed above.")

开始安装并运行

git clone git@github.com:kuhung/slack-gpt2.git
cd slack-gpt2
获取 slack app 的 token,并填充进上面的 slack_client
conda create -n slackbot python=3.6
source activate slackbot
pip install -r requirements.txt
cd gpt2
pip install -r requirements.txt
python download_model.py 117M
cd ..
python starterbot.py

如果你不熟悉或从来没用过slack,也没关系,还记得开头说的交付吗?直接加入我的 workspace,一起测评 GPT2 bot。链接:加入我的 slack workspace

总结

如同大多数应用场景一样,数据挖掘的算法需要落地,最好的办法就是封装成一个接口,给到前后端去调用。这其中还有很多性能优化的东西,但作为一个 sideproject,以上操作足够让你给别人眼前一亮的感觉。