MHT是什么文件？打开方法（浏览器／Office）+转HTML技巧

记得几年前我刚加入一个做法律文档归档的项目组，那会儿第一次接触到MHT文件。当时客户发来一批案例资料，全是.mht格式，团队里几个年轻同事直接傻眼——这啥玩意儿啊，打都打不开。结果耽误了半天时间才搞明白怎么处理，项目进度直接受影响。从那以后我就觉得，虽然MHT现在用得越来越少，但搞Web开发的多少还是得了解点，保不齐什么时候就会撞上。

MHT本质上是MIME HTML的缩写，你可以把它理解成一个网页的"打包文件"。它会把HTML源码、CSS样式表、图片甚至脚本这些零散资源全部打包到单个文件里，用的是MIME多部分消息的格式规范。说实话这种设计在早些年挺实用的，毕竟那时候网络不稳定，用户离线浏览网页的需求很强。我经手过几个2010年左右的企业系统，里面用到MHT来存档网页内容，确实比一堆散文件好管理。不过现在回头看，这种格式的问题也很明显——兼容性越来越差，尤其是现代浏览器都在推更先进的WebARChive格式。

先说怎么打开这玩意儿吧。最常见的是用浏览器，但这里头坑不少。像Chrome从版本80以后就默认不支持MHT了，需要借助扩展。我一般推荐用"MHT Viewer"这个扩展，安装后直接右键文件就能用浏览器打开。不过要注意，有些CSS样式可能会解析异常，特别是用了相对路径的资源。去年我给一个客户做迁移时就遇到过，他们存档的MHT页面在Chrome里打开后布局全乱，后来发现是背景图片的路径问题。解决办法其实简单，用开发者工具检查网络请求，把缺失的资源手动补上就行。

Edge浏览器反而对MHT支持更好些，毕竟微软自家格式。但要注意版本差异，新版Edge基于Chromium内核，反而没有老版Edge那么好的兼容性。如果遇到打不开的情况，可以尝试用IE模式——虽然IE已经退役，但企业环境里经常还要用它的兼容模式来处理这类历史遗留问题。

Office套件也能打开MHT，但体验真的不敢恭维。用Word打开时经常遇到格式错乱，特别是复杂的表格布局基本都会失真。我记得有次紧急处理一批财务报表的MHT文件，用Word 2016打开后所有数字格式都变了，差点导致数据解读错误。后来发现是因为MHT里的CSS样式被Word部分忽略导致的。如果非要用Office处理，建议先用Excel试试，它对表格数据的支持相对好一些。不过说到底，这只能算权宜之计。

转换MHT到HTML才是真正体现技术含量的环节。线上有些现成工具比如MHTML to HTML Converter，但我不太推荐用这些——特别是涉及企业敏感数据时，把文件上传到第三方服务器风险太大。我自己习惯用Python写脚本处理，虽然要写点代码，但胜在可控性强。

基本的转换思路是用email库来解析MHT的MIME结构，然后提取出HTML主体和关联资源。这里有个经典坑点：编码问题。早期MHT文件常用gb2312编码，现在则多是utf-8。如果没正确处理编码，转出来的中文全是乱码。我吃过这个亏，有次转换一批历史档案，因为没注意编码识别，导致整个项目返工。

贴段我常用的Python转换代码核心部分：

import email
import os

def mht_to_html(mht_path, output_dir):
    with open(mht_path, 'rb') as f:
        msg = email.message_from_binary_file(f)
    
    # 创建输出目录
    if not os.path.exists(output_dir):
        os.makedirs(output_dir)
    
    html_content = None
    for part in msg.walk():
        content_type = part.get_content_type()
        filename = part.get_filename()
        
        if content_type == 'text/html':
            # 处理编码问题
            charset = part.get_content_charset() or 'utf-8'
            html_content = part.get_payload(decode=True).decode(charset)
        elif filename:
            # 保存资源文件
            resource_data = part.get_payload(decode=True)
            with open(os.path.join(output_dir, filename), 'wb') as res_file:
                res_file.write(resource_data)
    
    # 写入主HTML文件
    if html_content:
        with open(os.path.join(output_dir, 'index.html'), 'w', encoding='utf-8') as html_file:
            html_file.write(html_content)

这段代码虽然简单，但已经能处理大多数情况。需要注意的是，有些MHT文件里的资源引用用的是Content-ID而不是文件名，这时候就需要额外处理内容定位的问题。我在金融行业项目里就遇到过这种案例，转换后图片全部丢失，就是因为没处理好CID引用。后来改进的方案是构建一个CID到文件名的映射表，替换HTML中的引用链接。

如果不想写代码，用命令行工具也是个选择。比如在Linux系统下可以用mht2html这个工具，Windows下则可以通过PowerScript来实现类似功能。不过说实话，这些现成工具的可定制性都比较有限，遇到特殊情况的处理能力不如自己写的脚本。

从技术趋势来看，MHT确实是在逐渐被淘汰。现在更推荐用WebARChive格式（.mhtml）或者直接保存为PDF。WebARChive其实和MHT很像，但标准化程度更高，浏览器支持也好得多。PDF则在保持布局方面更胜一筹，特别是对于需要打印的文档。

不过话说回来，在某些特定场景下MHT还是不可替代的。比如法律行业，很多历史案例文档都是MHT格式，要求原始样式完全保留。还有那些老的企业系统，改造成本太高，只能继续维护MHT处理流程。我去年接触过一个制造业的ERP系统，核心模块居然还在生成MHT报表，因为上下游企业都习惯这个格式了。

最后给点实用建议吧。如果你经常需要处理MHT文件，最好准备一套自己的工具链：浏览器扩展用于快速查看，Python脚本用于批量转换，再备个Office软件应急。重要的是理解MHT的结构原理，这样遇到问题才能快速定位。毕竟在IT行业，处理历史遗留问题有时候比开发新功能还考验人。

技术格式就是这样，推陈出新是常态。说不定再过几年，我们现在觉得先进的WebARChive也会变成需要专门处理的"遗留格式"。保持学习心态，掌握核心原理，这才是应对技术变革的根本办法。