财报文本分析

概述

上市公司的定期报告——如美股的 10-K（年报）和 10-Q（季报）、A 股的年报和半年报——包含大量非结构化文本信息。管理层讨论与分析 (Management Discussion and Analysis, MD&A) 部分尤为重要，其中蕴含着管理层对公司前景的判断和信息披露的策略。本文探讨 MD&A 分析、语调变化检测 (Tone Change Detection)、可读性度量 (Readability Metrics) 和文本挖掘方法。

MD&A 分析

为什么 MD&A 重要？

MD&A 是财报中管理层自由裁量空间最大的部分，其语言选择往往传递了财务报表数字之外的信息。学术研究表明，MD&A 的语调 (Tone) 能预测未来盈余 (Future Earnings) 和股价走势。

信息内容的量化

MD&A 的信息量可通过与前期报告的文本相似度变化来衡量。定义信息增量 (Information Novelty)：

\[\text{Novelty}_t = 1 - \text{CosSim}(\mathbf{v}_t, \mathbf{v}_{t-1})\]

其中 \(\mathbf{v}_t\) 为 MD&A 文本的向量表示（可使用 TF-IDF 或 BERT 嵌入）。

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

def compute_mda_novelty(mda_texts_by_period):
    """计算 MD&A 的信息新颖度"""
    vectorizer = TfidfVectorizer(max_features=5000, stop_words='english')
    tfidf_matrix = vectorizer.fit_transform(mda_texts_by_period)

    novelty_scores = []
    for t in range(1, len(mda_texts_by_period)):
        sim = cosine_similarity(tfidf_matrix[t:t+1], tfidf_matrix[t-1:t])[0, 0]
        novelty_scores.append(1 - sim)
    return novelty_scores

复制粘贴效应 (Boilerplate Effect)

大量 MD&A 文本是从前期报告中复制粘贴并微调而来。研究发现，修改的部分比不变的部分包含更多信息。因此，提取文本变化 (Text Diff) 并分析变更内容是更有效的方法。

语调变化检测 (Tone Change Detection)

语调度量

基于 Loughran-McDonald 词典的语调指标：

\[\text{Tone}_t = \frac{N_{\text{pos},t} - N_{\text{neg},t}}{N_{\text{total},t}}\]

语调变化：

\[\Delta \text{Tone}_t = \text{Tone}_t - \text{Tone}_{t-1}\]

异常语调检测

管理层可能通过积极的语调掩盖不利信息 (Strategic Tone Management)。异常语调的定义：

\[\text{AbnormalTone}_t = \text{Tone}_t - \mathbb{E}[\text{Tone}_t | \text{Fundamentals}_t]\]

通过回归模型估计"正常"语调水平：

\[\text{Tone}_t = \alpha + \beta_1 \text{ROA}_t + \beta_2 \Delta \text{Revenue}_t + \beta_3 \text{Size}_t + \epsilon_t\]

残差 \(\hat{\epsilon}_t\) 即为异常语调，正值表示管理层语调过于乐观。

import statsmodels.api as sm

def detect_abnormal_tone(tone_series, fundamentals_df):
    """检测异常语调：回归残差法"""
    X = fundamentals_df[['roa', 'revenue_growth', 'log_mcap']]
    X = sm.add_constant(X)
    y = tone_series

    model = sm.OLS(y, X).fit()
    abnormal_tone = model.resid  # 残差 = 异常语调

    return abnormal_tone, model.summary()

异常语调的投资含义

Huang et al. (2014) 发现，异常正面语调的公司未来盈余表现较差，股价随后出现回调。这表明管理层的策略性语调管理 (Strategic Tone Management) 是一个有价值的反向信号。

可读性指标 (Readability Metrics)

经典指标

Fog Index (Gunning Fog Index)：

\[\text{Fog} = 0.4 \times \left(\frac{\text{Words}}{\text{Sentences}} + 100 \times \frac{\text{Complex Words}}{\text{Words}}\right)\]

其中"复杂词"定义为三个音节以上的词汇。

Flesch Reading Ease：

\[\text{FRE} = 206.835 - 1.015 \times \frac{\text{Words}}{\text{Sentences}} - 84.6 \times \frac{\text{Syllables}}{\text{Words}}\]

金融文本专用指标

Bog Index (Bonsall et al., 2017)：专为财报设计的可读性度量，考虑了专业术语、被动语态和句子嵌套深度。

import textstat

def compute_readability(text):
    """计算多维度可读性指标"""
    metrics = {
        'fog_index': textstat.gunning_fog(text),
        'flesch_reading_ease': textstat.flesch_reading_ease(text),
        'avg_sentence_length': textstat.avg_sentence_length(text),
        'difficult_words_ratio': (
            textstat.difficult_words(text) / textstat.lexicon_count(text)
        ),
        'document_length': textstat.lexicon_count(text)
    }
    return metrics

可读性与信息隐藏

Li (2008) 的经典研究发现，业绩不佳的公司倾向于撰写更冗长、更难读的财报。财报可读性的恶化可能是管理层有意模糊不利信息的信号：

\[\text{Obfuscation Signal} = \Delta \text{Fog}_t \times \mathbb{1}[\Delta \text{EPS}_t < 0]\]

10-K/10-Q 文本挖掘

主题模型 (Topic Modeling)

使用 LDA (Latent Dirichlet Allocation) 或 BERTopic 提取财报中的主题分布：

from bertopic import BERTopic

def extract_topics_from_filings(filing_texts, n_topics=20):
    """从财报文本中提取主题分布"""
    topic_model = BERTopic(
        nr_topics=n_topics,
        embedding_model="all-MiniLM-L6-v2",
        min_topic_size=10
    )
    topics, probs = topic_model.fit_transform(filing_texts)

    # 主题分布变化可作为因子
    topic_distributions = topic_model.approximate_distribution(filing_texts)
    return topic_model, topic_distributions

风险因子提取

10-K 的 "Risk Factors" (Item 1A) 部分披露了公司面临的主要风险：

def extract_risk_factors(filing_text):
    """从 10-K 中提取风险因子章节"""
    # 定位 Risk Factors 部分
    risk_section = extract_section(filing_text, 'Item 1A')

    # 风险类别分类
    risk_categories = {
        'regulatory': ['regulation', 'compliance', 'legislation'],
        'competitive': ['competition', 'market share', 'pricing pressure'],
        'operational': ['supply chain', 'cybersecurity', 'key personnel'],
        'financial': ['debt', 'liquidity', 'credit rating'],
        'macro': ['recession', 'interest rate', 'inflation']
    }

    # 计算各类风险的提及密度
    risk_profile = {}
    for category, keywords in risk_categories.items():
        count = sum(risk_section.lower().count(kw) for kw in keywords)
        risk_profile[category] = count / len(risk_section.split())

    return risk_profile

文本变化分析 (Diff Analysis)

import difflib

def analyze_filing_changes(current_text, previous_text):
    """分析两期财报文本的具体变化"""
    differ = difflib.unified_diff(
        previous_text.split('\n'),
        current_text.split('\n'),
        lineterm=''
    )
    additions, deletions = [], []
    for line in differ:
        if line.startswith('+') and not line.startswith('+++'):
            additions.append(line[1:])
        elif line.startswith('-') and not line.startswith('---'):
            deletions.append(line[1:])

    # 对变更部分进行情感分析
    added_sentiment = sentiment_model(' '.join(additions))
    deleted_sentiment = sentiment_model(' '.join(deletions))

    return {
        'addition_ratio': len(additions) / max(len(additions) + len(deletions), 1),
        'added_sentiment': added_sentiment,
        'deleted_sentiment': deleted_sentiment,
        'tone_shift': added_sentiment - deleted_sentiment
    }

构建文本 Alpha 因子

综合上述分析维度，构建多维文本因子体系：

因子	计算方式	预期方向
语调水平	Tone Score	正面语调 → 正收益
异常语调	回归残差	异常正面 → 反转
信息新颖度	1 - CosSim(t, t-1)	高新颖度 → 高波动
可读性变化	ΔFog Index	可读性下降 → 负收益
风险披露变化	ΔRisk Words	风险增加 → 负收益

小结

财报文本分析将定性信息转化为定量因子，为投资决策提供了传统财务指标之外的增量信息。MD&A 语调、可读性变化和文本差异分析是最具实证支持的研究方向。实践中需注意财报发布的时效性、文本格式标准化以及中英文处理的差异化策略。