Chiptune如何从游戏跨界成为音乐流派 — 8位元声音的诞生与进化
为什么40年前的游戏音乐至今仍萦绕耳畔
超级马里奥的地上BGM、俄罗斯方块的"卡林卡"、塞尔达传说的开场曲。旋律谁都能哼上几句,但能解释这些声音是怎么做出来的人却寥寥无几。仅靠3到5个声道,而且只是简单的方波和三角波,怎么会诞生出几十年后依然刻在记忆里的旋律呢?那是内存仅有一张卡带64KB左右、作曲家与其说是音响工程师不如说更像程序员的年代。
很多人把芯片音乐(Chiptune)简单归为老游戏的声音就不再深究。但芯片音乐是硬件限制反过来催生出一整套作曲语言的罕见案例。所以即便今天,在独立游戏的原声带、广告音乐、部分流行音乐的前奏中,都仍能找到它的痕迹。如果你是创作者,理解这种声音为何如此强大,才能把它应用到自己的作品中。
本文将从NES、Famicom、Game Boy的声音芯片结构出发,介绍近藤浩治等作曲家发明的代表性技巧,2000年代以后在独立游戏与现场演出场景中的复兴,以及延伸到流行音乐和AI时代的影响力,一次性梳理清楚。
用一把声道造出一个宇宙——NES与Famicom声音芯片的结构
Ricoh 2A03——五个声道分工的小型管弦乐团
任天堂Famicom(北美名NES)搭载的声音芯片是Ricoh 2A03。CPU和声音单元被封装在同一颗芯片里,声音部分由5个声道构成:两个脉冲(方波)声道,一个三角波声道,一个噪声声道,以及一个DPCM(Delta Pulse Code Modulation,差分脉冲编码调制)声道。
两个脉冲声道通常负责旋律和和声。方波几乎没有偶次谐波,只有奇次谐波突出,因此发出"哔——"的独特尖锐音色。三角波声道音色柔和,在低音域稳定,所以多用来承担贝斯线。噪声声道发出无音高的杂音,常用作踩镲、小军鼓、爆炸音等音效。DPCM能播放短样本,用于底鼓或语音效果。
关键在于,每个声道的角色实际上是被固定下来的。作曲家面对的不是一个5轨的音序器,而是要解开一个谜题:"贝斯必须放进三角波,旋律有两条就得占满两个脉冲声道,那和声怎么办?"这种约束就是芯片音乐作曲的起点。
💡 实战提示: 想让自己的曲子有芯片音乐感,先把乐器限制在5个以内。哪怕只是按"贝斯1、旋律2、鼓1、效果1"的结构分配,NES声音的骨架就已经出来了。
Game Boy声音单元——名为波形声道的那张牌
占领掌机市场的Game Boy采用了Sharp LR35902 CPU集成声音单元的结构。声道配置与NES既像又不像:2个脉冲声道、1个自定义波形(Wave)声道、1个噪声声道,共4个声道。
最大的差异在第三个声道。NES用的是固定的三角波,而Game Boy提供的是一个32样本短波形的Wave声道,用户可以自己绘制波形填进去。可以在贝斯位置放进比三角波更接近方波或锯齿波的音色,也可以当作短旋律乐器使用。这种自由度,后来成为LSDj、Nanoloop等Game Boy音轨编辑器作为现场乐器立足的决定性原因。
但Game Boy没有像DPCM那样的样本播放声道。所以鼓声必须用噪声声道和短促的脉冲音高滑奏来合成。比较NES和Game Boy的鼓声,差异一听便知:NES的底鼓厚实地落下,Game Boy的底鼓则短促干涩地戛然而止。
理解这种差异,就能解释为什么同一作曲家的同一首曲子在不同机型上听起来不一样。同一款游戏在NES和Game Boy两边发售时,BGM被重新编曲的主要原因之一,正是声道结构和声音驱动的差异。当然,作曲家的选择、卡带容量、开发日程也共同起作用。硬件限制和音乐选择并非单方面决定的结果。
PSG、VRC6、VRC7、FDS——突破单芯片极限的方法
同时代其他机型也都有各自的声音芯片。世嘉Master System用的是TI SN76489系列,MSX用的是GI AY-3-8910/YM2149系列,许多街机基板用的是这两类中的一种或其近亲芯片。它们都归为PSG(Programmable Sound Generator,可编程声音发生器)范畴。PSG通常有3个音调声道和1个噪声声道。比NES声道少,且没有专用三角波,所以贝斯也得用方波处理,结果音色更平面化。
Famicom通过在卡带上加装扩展音源芯片的方式绕过了这一限制。Konami的VRC6增加了2个脉冲声道和1个锯齿波声道,在原有的5声道基础上再加3声道。锯齿波比方波谐波更丰富,适合主奏(Lead)音色。《恶魔城传说》(《悪魔城伝説》)在音响上比同时代其他Famicom游戏听起来更丰富,原因就在这里。
同样是Konami,VRC7的合成方式则不同。VRC7是提供6声道FM合成的芯片,可以制造管风琴、铜管、电钢琴系的复杂谐波。代表案例是《拉格朗日点》(Lagrange Point)。基于脉冲、锯齿波这类波形的VRC6,与基于FM合成的VRC7,虽同属扩展音源路线,但音色结果有本质差异,这点值得记住。
任天堂亲自开发的FDS(Famicom Disk System)增加了一个自定义波表声道。《塞尔达传说》日版原声带与美版NES卡带版本在音色上有所差异,正是这一结果。同一首曲子、同一位作曲家,通过哪颗芯片播放,印象就会不同。
💡 实战提示: 分析参考曲目时,先确认是哪种机型、哪种扩展芯片输出的音乐。只有知道声道数和合成方式,才能分辨"这首曲子哪里是芯片的极限,哪里是作曲家的选择"。
把限制当武器——8位作曲家发明的代表性技巧
琶音(Arpeggio)——用单声道模拟和弦的发明
两个脉冲声道同时铺旋律和对位旋律的话,就没有声道再去做和声了。所以8位作曲家选择在一个声道里快速轮流播放和弦中的三个音。把Do-Mi-Sol以1帧(1/60秒)为单位循环,人耳会把它识别为带颤动感的和弦。这就叫琶音(Arpeggio)。
把近藤浩治作曲的《超级马里奥兄弟》地上BGM按声道分离来听,结构就一目了然:脉冲1负责主旋律,脉冲2负责琶音和声,三角波负责贝斯,噪声负责鼓。一个声道里听起来像颤音(Tremolo)的快速颤动,其实是和弦进行。多亏了这种技法,NES仅用5个声道就听起来像4声部合奏。
琶音的关键是速度。太快会变成噪声而非和弦,太慢又会变成被拆解的旋律。在FamiTracker社区的常见做法中,1~4帧间隔被视为保持和弦感的区间,具体合适数值随曲目BPM和氛围而变。在音轨编辑器软件中,标准做法是用 0xy 这类命令以半音为单位指定两音音程并快速循环。
💡 实战提示: 想在现代DAW中模仿芯片音乐风格,可以用方波合成器以16分音符或32分音符为单位顺次输入和弦音。不需要任何后期处理,NES和声特有的颤动感就能再现。
占空比与颤音——改变音色的细节调整
脉冲波有一个属性叫占空比(Duty Cycle),指一个周期中信号停留在"高电平"的时间比例。NES脉冲声道支持12.5%、25%、50%、75%四种占空比(75%在听感上与25%相同,但相位反转)。50%给出厚实圆润的音色,12.5%给出尖细刺耳的音色。
作曲家会在同一段旋律中以帧为单位切换占空比,为音色增添变化。比如某个音的开头用12.5%、之后切到25%,就会营造出在起音处加了重音的效果。《洛克人》系列的主奏音色不会听起来单调,部分原因就是这种技巧。
颤音(Vibrato)是把音高快速上下抖动的技法。芯片音乐中是按帧把音高值以±1~3的幅度抖动来实现的。音高滑奏(Pitch Slide)则是从音的起点上方或下方快速滑入到达目标音的方式,常用于制作底鼓或贝斯"咚"的起音。Game Boy的底鼓大多就是在脉冲声道上从上往下快速做音高滑奏的结果。
鼓合成与循环设计——节省内存的作曲
NES没有专用的鼓声道。虽然有时会把DPCM声道用作样本鼓,但要节省卡带容量,或把DPCM让给语音和音效时,就得用噪声声道、三角波、脉冲组合起来合成鼓声。小军鼓通常在噪声声道上用短促的杂音爆发来制作,底鼓则用三角波加快速音高滑奏合成。踩镲则把噪声切得更短更高来表现。
这里就有问题了。三角波被用作底鼓时,贝斯线就会瞬间中断。所以NES作曲家会把贝斯模式和底鼓模式一起设计。比如贝斯以8分音符流动,在第1拍和第3拍短暂中断让底鼓进入。这种模式听起来熟悉,是因为我们在不知不觉中,在数百款NES游戏里反复听到了同样的结构。
节省内存也是作曲的一部分。Famicom卡带通常只能给声音数据分配几十KB以内的空间。所以作曲家必须重复短动机,在数据上让副歌部分指向同一段来节省容量。《超级马里奥》地上BGM也是用短钩子动机的变奏组成整首曲子的方式,正是这种结构让"钩子"强烈地主宰了听者的记忆。
初学者和熟练者的差异就在这里产生。初学的芯片音乐作曲家想把所有声道同时填满。结果就是声道冲突,以及让人不适的咔嗒噪声(音的开始/结束处产生的数字杂音)。熟练者则有意地留白。贝斯休止时旋律得到强调,旋律休止时鼓声变得突出。
💡 实战提示: 要减少声道冲突,在同一声道结束音符时,留出一帧将音量置为0。咔嗒噪声会减少,下一个音的起音也会更清晰。
独立游戏与音乐节复活的芯片音乐——2000年代之后的复兴
把音轨编辑器和Game Boy变成乐器的人们
2000年代初,芯片音乐开始从游戏音乐的怀旧情绪中独立出来,成为一个独立的音乐流派。决定性契机是音轨编辑器(Tracker)软件的普及。FamiTracker把NES/Famicom的声音芯片原样在PC上再现,让人能直接编曲。数据输入采用纵向表格形式,各声道的音符、音量、效果命令以十六进制录入。门槛较高,但其优势在于可以导出为能在真实NES硬件上播放的NSF文件。
Game Boy这边,LSDj(Little Sound DJ)和Nanoloop占据了一席之地。这两者都是以固件形式装入实际Game Boy卡带(ROM或闪存卡带)中的音乐制作工具。也就是说,可以像拿MIDI控制器一样拎着Game Boy上台进行现场演奏。游戏机本身就变成了乐器。
2006年在纽约开始的Blip Festival是这一潮流的核心。由8bitpeoples等组织起来,聚集芯片音乐艺术家的国际活动,后来成长壮大,2012年东京活动结束后,这一系列官方音乐节落下帷幕。拎着Game Boy、NES、Commodore 64上台的艺术家像EDM音乐节一样填满了舞台。这是一个把芯片音乐从单纯的复古声音重塑为可以现场享受的俱乐部声音的事件。
这一潮流带来的变化有两点:第一,芯片音乐艺术家开始作为一种职业成立。第二,游戏音效设计师重新把芯片音乐认识为一种表达工具。
独立游戏原声带中的芯片音乐运用法
随着2010年代独立游戏的兴起,芯片音乐成为原声带的主要选项之一。但具体方式因游戏而异。
《铲子骑士》(Shovel Knight,2014,Yacht Club Games)是忠实再现NES时代的案例。作曲家Jake Kaufman(艺名Virt)是以VRC6扩展音源为基准来作曲的。也就是说,他直接借用了Konami在Famicom后期使用的8声道环境。所以《铲子骑士》的BGM可以直接在NES上播放,实际上也以NSF格式单独发布过。
《Undertale》(2015,Toby Fox)采取了不同的路径。音色像芯片音乐,但实际上大多数曲目是在现代DAW中制作的。它积极使用方波、锯齿波合成器,但没有声道数限制。多重叠层、混响、现代鼓样本自由混合。这是一种有意模糊"像芯片音乐的音色"与"真正芯片音乐"边界的方式。
《Celeste》(2018)的原声带由作曲家Lena Raine制作,比起芯片音乐,更接近电子/后摇滚。不过在BOSS战或后半段会出现芯片音乐风的方波主奏,强调游戏的特征与氛围。这是把芯片音乐当作"场景工具"而非流派来使用的案例。
把这三个案例并列来看,可以把握芯片音乐在独立游戏原声带中的位置。这是一个从完全再现 → 混合 → 部分引用的光谱。
新派芯片音乐与入门者的工作流
现代芯片音乐艺术家已不再被困在NES声道限制之内。Anamanaguchi把NES声音与现场摇滚乐队编制结合。脉冲波旋律与电吉他、贝斯、真鼓一起演奏。Chipzel则在用Game Boy LSDj制作的曲目上叠加强烈的EDM结构,并凭借游戏《Super Hexagon》《Dicey Dungeons》原声带打响名号。
这种潮流被称为"新派芯片音乐(Neo Chiptune)"或"芯片音乐影响下的音乐"。核心是把8位音色作为美学选择引入,而作曲与混音则以现代标准处理。
如果入门者想制作自己的第一支芯片音乐曲目,以下4步比较现实。
- 选择工具:在FamiTracker(NES)、DefleMask(支持多种芯片)、LSDj(Game Boy实机)中选一个。习惯鼠标输入选DefleMask,习惯键盘快捷键选FamiTracker更顺手。
- 分析参考曲目:选定一首你喜欢的芯片音乐曲目,按声道分离来听。NSFPlay这类播放器提供声道静音功能。用耳朵确认贝斯在哪里、和声在哪里。
- 8小节循环:只用贝斯、旋律、鼓三轨制作一个8小节循环。一开始不要尝试完整曲目。
- A/B对比:把做好的循环与参考曲目交替听。如果音色有差异就调整占空比,如果节奏单调就调整琶音速度。
💡 实战提示: 入门阶段最常见的错误是把旋律写得太长。芯片音乐靠4~8小节动机的变奏运转。一开始就先练习用一个2小节钩子以多种方式变奏来填满8小节。
从流行到广告音乐——芯片音乐留给大众音乐的DNA
渗入主流榜单的8位音色
芯片音乐风的音色也在榜单音乐中留下了痕迹。Crystal Castles是2004~2005年前后在加拿大多伦多开始活动的电子双人组合,早期作品中积极使用Atari Punk Console、Game Boy等低比特硬件。2008年同名首张专辑那种粗糙的方波声音,在电子乐界和独立摇滚界两边,都为"lo-fi电子乐"这一类别的确立做出了贡献。
Kesha的"Tik Tok"(2009)在前奏中短暂出现8位风格的方波动机。整首曲子很难说是芯片音乐,但前奏音色决定了曲目的第一印象。这显示了即便芯片音乐风的声音不主宰整首曲子,仅作为"音色签名"使用也足以产生强烈效果。
日本这边的代表是YMCK。这是直接使用Famicom音源并叠加人声的涩谷系风格组合,把芯片音乐与J-pop人声线结合起来。在韩国大众音乐中,整首曲子用芯片音乐构成的案例较少,更多见的是部分独立曲目或游戏OST翻奏中,把方波合成器作为音色签名引用的形式。
这里有一点需要说明。"用了方波就都是芯片音乐吗?"对这个问题要谨慎回答。狭义上,芯片音乐是"用真实声音芯片或其精确模拟制作的音乐";广义上则是"借用8位时代音色与作法的音乐"。出现在榜单音乐和广告中的大多数案例属于后者,即接近芯片音乐风格、8位风格的合成器。
广告与UX音效——作为怀旧触发器的芯片音乐
芯片音乐风的音色在广告和影像音乐中可能特别有效,理由有二。第一,在必须在5~10秒内留下强烈印象的广告中,方波旋律因音色与其他广告不同而容易辨识。第二,对于在1980~90年代体验过游戏的观众,它有可能作为怀旧触发器发挥作用。
设想一个虚拟场景。假设某移动游戏公司要为新作休闲解谜游戏制作广告,广告音乐有两个方案。A方案是现代电子曲目,B方案是8位风方波动机4小节。现代曲目干净利落,但与其他几十条广告音色相似。8位动机虽然粗糙,但能迅速暗示"游戏广告"的语境。哪一方对品牌回想更有利,取决于活动目标和受众,但在差异化方面,芯片音乐风具备的潜力是明确的。
UX音效也存在类似可能性。可以见到在移动App的通知音、游戏内UI音效中使用短促芯片音乐风动机的案例。它们短小、辨识度高,以序列数据表现时,有可能比音频样本存储得小得多。不过实际移动App中,更多还是以预渲染的WAV/OGG/MP3音效形式使用,所以需要把"芯片音乐音色"与"芯片数据格式"区分开理解。
💡 实战提示: 制作品牌声音logo时,压缩到3~5个音的动机、1~2秒的长度。芯片音乐音色越短越强。做得太丰满,反而会让广告信息与音乐互相竞争。
AI音乐时代,芯片音乐将走向何方
芯片音乐在两点上与AI时代很契合。
第一,数据体积小。NSF、VGM这类格式不是渲染好的音频,而更接近芯片控制与序列数据,因此能比同等长度的MP3或WAV存储得小得多。由于编码方式根本不同,单纯的倍数比较会随曲目和是否包含驱动而变化,但在移动、Web的交互式音乐方面,这无疑是一个有吸引力的特性。
第二,结构化数据便于训练。芯片音乐本质上是序列数据。声道、音高、音量、效果命令以表格形式整齐排列。这是Transformer等序列模型容易学习的形式。事实上,学界已开展过利用NES原声带数据集(如NES-MDB等)进行音乐生成的研究。
常见误解之一是"芯片音乐不过是单纯复古"。下表对比就能看出差异。
| 方面 | 简单复古风 | 现代芯片音乐 |
|---|---|---|
| 制作动机 | 勾起怀旧 | 音色与结构的美学 |
| 使用工具 | 虚拟乐器预设 | 真实芯片或精确模拟 |
| 声道限制 | 无(松散模仿) | 有意识地应用 |
| 应用领域 | BGM、广告 | 现场演出、游戏、研究 |
芯片音乐不是把过去音色制成标本的流派,而是"把限制当作美学接受的作曲传统"。带着这个视角,即便是一个方波,听到的信息量也会不同。
💡 实战提示: 如果把芯片音乐用于学习,试着处理NSF、VGM这类原始声音芯片的数据格式。相比WAV/MP3,音乐结构(声道、音高、长度)被明确呈现,在分析和生成两方面都更容易处理。
把限制造就的美学移植到自己的作品中
芯片音乐是从硬件强加的限制中发明出来的作曲语言。5个声道,方波、三角波、噪声这有限的素材,孕育出了琶音、占空比切换、音高滑奏等技巧。这些技巧至今仍在独立游戏原声带、广告音乐、现场音乐节、AI音乐生成研究中活跃着。听芯片音乐归根到底,就是在听"如何用少的东西做出多的东西"。
这里建议一个你现在就能做的小行动。免费下载FamiTracker或DefleMask,亲手在一条脉冲声道上录入一段2小节的旋律。5个音就足够了。把同一段旋律仅改变占空比再听一遍,你会一下子明白芯片音乐作曲家为什么会在这些小小的选择上花时间。
限制不是创作的敌人,而是身份的来源。芯片音乐作曲家在5个声道之内完成的事,我们也能在自己作品的某些限制之内完成。愿好的音乐与好的工具始终伴你左右。
参考来源
- VRC7 audio - NESdev Wiki
- Famicom Expansion Audio | jsgroth's blog
- Using Expansion Audio - FamiStudio Documentation
- チップチューンのライブイベント「Blip Festival」が10月20,21日に東京で開催
- Blip Festival
- Game Boy Beats: Reaching Music's Next Level at Blip Festival 2012 | TIME.com
- Crystal Castles
- Crystal Castles: Crystal Castles Album Review | Pitchfork