她不在世界某处，却回应了我

我嫉妒你的爱气势如虹

像个人气居高不下的天后

前言 · 声音未至，心已动

上个月月初，我在先知社区上面看到了一篇文章我的AI女友，作者利用了: ASR、LLM、TTS这三种技术打造了一个”语音互动女友”的过程。文章使用了 SenseVoiceSmall 、 Qwen2.5-0.5B和edge-tts三个模型，展示了如何打造一个简单的”AI女友”的项目

初 · 我在零与一之间，拾起你的名字

昨天上午想起来上个月看的这个我的AI女友。也是，从来没有接触过AI这个玩意。刚好昨天有时间可以根据文章中的方法，照着做一下。搞一个玩一玩。最开始我是在魔塔社区上面用魔塔社区提供的Notebook环境搭建了一下。不过由于这个环境没有PortAuudio的库没办法进行音频录制，同时也没办法进行音频的播放🤣 然后我就修改了一下main.py 就调用了TTS模块看了一下文本转语音的效果

听了一下感觉效果还不错

然后想起来前段时间刚弄了一个Ubuntu虚拟机然后就试着在虚拟机里面搞一下这玩意。

然后就开始在虚拟机里面搭建环境搞了

环境搭建到一半

我才想起来我弄这个虚拟机的时候给它分配的配置并不高，算了硬着头皮搞吧。

因为是在实验室中不是很方便说话所以在虚拟机中测试的时候我也将ASR模块去掉了

只保留了 LLM 与 TTS模块

听了之后我感觉还算不错，这玩意还挺好玩的

不过问题来了

我总不能只有拿着电脑的时候才能与我的”AI 女友”交流吧

续 · 跨越虚拟海岸，我想更靠近你

年前，如果我没记错的话就是年前。我用了github上面的ZeroBot项目在本地实现了一个简单的 QQ聊天机器人。

由于这个框架缺少官方文档。我当时想着应该会有让机器人发送语音的接口吧。然后我就去源码中瞅了一眼。嘿！

确实有在message包中有一个Record方法这个方法可以加载一个音频文件然后以语音的形式发送出去

不错不错，确实能实现这个功能

现在有一个思路了

就是让机器人获取到的消息。然后转发给本地的LLM LLM进行回答之后，再次调用TTS的模型进行语音合成然后再将这个生成的音频文件由机器人发送出去。

那么问题来了，机器人我使用的是Go 并且还是在我之间电脑上面运行的，llm在我的虚拟机中运行的。如何实现这两个进程之间的相互调用呢？🤔

我这里采用的方法是加上一个flask

llm通过flask运行一个http服务

然后机器人获取到消息之后

将消息发送到某一个接口

llm接收到消息之后对问题进行回答，之后TTS再生成语音

最后将生成语音的路径返回给机器人

机器人访问生成的语音所在的路径

加载回答的语音，然后将其发送出去

from flask import Flask, request, jsonify,send_from_directory
import asyncio
from modules.llm import ChatAssistant
from modules.tts import VoiceSynthesizer
import uuid
import os

app = Flask(__name__)

# 初始化模型
assistant = ChatAssistant()
tts = VoiceSynthesizer()

# 语音输出目录
OUTPUT_DIR = "outputs"
os.makedirs(OUTPUT_DIR, exist_ok=True)

@app.route("/speak", methods=["POST"])
def speak():
    try:
        data = request.get_json()
        user_input = data["text"]

        reply = assistant.generate_response(user_input)

        # ✅ 只传文件名，不带路径！
        filename = f"{uuid.uuid4().hex}.mp3"

        # ✅ synthesize 自动加 output/ 前缀
        filepath = asyncio.run(tts.synthesize(reply, filename=filename))

        return jsonify({
            "text": reply,
            "audio": f"http://{request.host}/output/{filename}"
        })

    except Exception as e:
        print("ERROR:", e)
        return jsonify({"error": str(e)}), 500

@app.route('/output/<filename>')
def serve_audio(filename):
    return send_from_directory('output', filename)


if __name__ == "__main__":
    app.run(host="0.0.0.0", port=8000)

然后只需要给机器人加上一个发送消息同时获取路径信息的功能就行了。

func GetVoice(text string) string {
	url := "http://192.168.222.154:8000/speak"
	payload := map[string]string{"text": text}
	jsonData, err := json.Marshal(payload)
	if err != nil {
		panic(err)
	}

	resp, err := http.Post(url, "application/json", bytes.NewBuffer(jsonData))
	if err != nil {
		panic(err)
	}
	defer resp.Body.Close()

	body, err := ioutil.ReadAll(resp.Body)
	if err != nil {
		panic(err)
	}

	var data ResponseData
	err = json.Unmarshal(body, &data)
	if err != nil {
		panic(err)
	}

	return data.Audio
}

由于接收到消息与发送语音中间这一段时间可能会有1~2分钟的等待时间所以我加了一个提示

用于提示用户机器人收到了消息

engine.OnPrefix("惠 ", zero.OnlyGroup).Handle(func(ctx *zero.Ctx) {
    ctx.SendChain(message.Text("voice 收到! 等我思考一下"))
    text := ctx.State["args"].(string)
    voice := myExec.GetVoice(text)
    ctx.SendChain(message.Record(voice))
})