跳到正文
W Winse Blog
dev 1 min read

帮姐姐做了个视频提取字幕的小工具:写代码的意义,不止在代码里

上周三,我姐发了一篇文章给我,讲的是使用AI自动总结腾讯会议视频内容,并直接生成会议纪要。她问我: 视频内容提取成文字(字幕),难不难,麻不麻烦?

应用 | AI 自动化某讯会议转录与摘要生成系统

看了一下,对我来说,技术上都是现成的,没啥难度。各个环节你要是单独去弄,比如用ffmpeg从视频里面提取出语音,去阿里云的页面上传语音文件转成文字,每一个环节其实都是不难的,但是你要把这些流程整合串起来呢,也确实是挺花时间的。

本来想着顺手的事情,然后还可以出一篇文章,一举两得。但当做完了这个小工具后,有点失落:功能是跑起来了,但去看有啥可以写的时刻,发现没啥写的:一堆胶水代码,最后只是用Flutter界面把几个工具揉到一起而已,真觉得没啥可写的,失落啊。

感觉自己一直处在一种等风来的状态。没有前瞻,不带脑子,就仅仅是遇到问题解决问题,再遇到问题解决问题。

  1. 一开始想的必须得是可视化的,那就用浏览器来显示了。

  2. 最近写了些调用阿里云AI服务的接口,自然的就用上阿里云来进行语音识别。

  3. 实现过程中,有各种目录需要配置等等,然后加了一个配置页面。

  4. 还有,就是我不可能只提取一个页面吧?还有要查看历史怎么办呢?所以就加了数据库来保存的每一次提取的数据。

  5. 然后,状态提示用了toast。

  6. 把运行环节记录下来,显示视频异步提取状态(或者说进度)。

  7. 后来,又根据上面的文章加了个Whisper的本地语音识别的功能(机器硬件不哇塞的话,还是云资源比较香)。

视频提取字幕首页

配置页面

列表页面

每一步都打补丁似的,没有整体性。除了迈出第一步的快乐,后面都是负重前行。 体会不到那种延迟满足的极大快乐。

像我这样的程序员,其实更多是没有一种架构或者说一种产品的思维。就是哪看到不爽啦、不好啦,然后自己就在这个基础之上去改进、改善。

而不是一开始就想清楚、想明白:这个东西要怎么做,然后实现时按部就班的一个一个的去做。按Boss的话,80%的时间用在思考怎么做,写代码的时间其实是不到整体的20%。当然了,也是缺乏这方面的锻炼,或者说这方面的视野比较局限。

做完这个小工具,似乎也有点明白了借力二字了。我姐原本打算自己搞的,但我觉得这其实是她能力的边界了,对她来说,费劲巴拉的去做到了,但对她相比的浪费了更多时间。但对我来说就是发挥自己的长处,外加一点时间。

在不是咱们核心能力范围的事情,我觉得这是需要去借力的。知道什么事自己做的,什么事要交给别人做的,但其实这又是一件很很难很难的事情。

就正确的认识、评估自己其实是一件很难的事情。在刻板的思维中打转转,总觉得不管什么事情我们都得自己去把握、去掌握、去把控。但人的时间、精力就那么多,哪能去做所有的事情呢。我们为了去弥补这种虚无的未知的恐惧,消耗了太多的精力,浪费了太多的时间,我们把大部分的时间都花费在了其实不是我们核心能力的事情上。

在职场走过的十几个春秋,再来看借力这个词,我觉得其实是一个感性色彩很积极的一个词语。但是当你身处其中,你会觉得借力这个事情好像贬低了自己的能力,降低了自己的身价。

回头来想,也不用去失落。价值往往不是生产者简单去判定的,更多是使用者去决定的。比方说这个转视频转字幕的小工具,对我来说写代码的人来说,就是不同功能耦合到一起,但对我姐来说,确实省心实用的。

写文章也是一样,对于写的人来说,或许仅是一个记录。但对看的人来说,甚至乎是未来的自己,遥想大学时的自己的QQ空间竟有此等文采,要是能引起一点点共鸣,那就足够了。

在 GitHub 上讨论

欢迎通过 GitHub Issue 留言或反馈。每条讨论都会关联到对应文章的源文件路径。

2025-08-05-帮姐姐做了个视频提取字幕的小工具:写代码的意义,不止在代码里.md

Related posts