阿波羅網論壇

 找回密碼
 注冊
搜索
熱搜: 活動 交友
查看: 241|回復: 0

吳松磊:如何科學地消滅敏感內容

[復制鏈接]

2636

主題

1萬

帖子

0

積分

新手上路

熱心會員

Rank: 1

積分
0
發表於 2018-5-21 16:03:10 | 顯示全部樓層 |閱讀模式
回形針PaperClip

中國網民第一次發現敏感詞的存在,是在 2000 年的 qq 聊天室。

用於結交陌生朋友的聊天室功能,讓敏感內容第一次有了大規模傳播的可能,因此,禁詞表出現了。

禁詞表的規則相當粗暴——只要文本內容包含禁用詞,則無法發送,或發送後僅自己可見。直到今天,微信也仍然沿用這一規則。

好在微信環境相對封閉,審查級別並不高。多倫多大學一份 2016 年 11 月發布的報告中,只發現 178 個禁詞,且僅針對用中國大陸手機號碼。

而在 web 2.0 時代,隨着博客、論壇、社交網絡開始成為主流產品,任何信息都有可能一夜間傳遍全網。傳統禁詞方案的缺陷開始暴露出來。

首先,詞庫只能做到精準匹配,無法處理對原詞的演繹。

假設金正恩為敏感詞,那麼可以演繹出三胖、鑫,以及英文、拼音、字符版本的幾十個替代詞,甚至直接用“金”以指代,而這些詞顯然無法被禁詞表囊括。

另一方面,許多敏感內容是事件,無法僅用單個詞描述。

以“金正男機場遇刺”為例,需要“機場”、“金正男”、“遇刺”其中兩個詞同時出現才能觸發清除機制。這就給了其中單個詞相當大的替換空間,例如“機場金大胖”、“胖熊機場一日游”,都可以讓人聯想到該事件。

面對這些問題,各種消滅敏感內容的計算機算法開始被研究出來。

分詞是分析文本的第一步。

傳統的“正向最大匹配法”即從左到右掃描文本,將匹配成功的詞切分,直到無法匹配為止。

但這種方法並不可靠,如“一台獨立服務器”就還是會被分為“一/台獨/立/服務器”。

為了解決歧義問題,需要對大量真實語料進行統計,計算每個詞的出現概率,再計算不同分詞方案下的總概率。

在這個例子中,因為“立”作為詞的出現概率極低,因此“一台/獨立/服務器”的概率將明顯高於“一/台獨/立/服務器”。更進一步,還可計算兩個詞同時出現的概率,以得到更精確的分詞結果。

今天的分詞算法可以成功識別插入特殊符號的敏感詞。而配合擴展詞表,也可以處理以同音字或拼音替代的敏感詞。

但對於聯想類敏感詞和事件類敏感內容,還是需要其他算法的加持。

貝葉斯方法就是其中之一。

1763 年,英國學者托馬斯·貝葉斯(Thomas Bayes)提出了著名的貝葉斯公式:

貝葉斯方法的核心在於通過已知事件的概率(先驗概率)計算未知事件的概率(後驗概率)。

以“金正男機場遇刺”舉例,假設抽取十萬條包含“機場”的文本,其中七萬條為正常內容,三萬條為需要清除的敏感內容。

即正常評論的概率 P(g)=70%,敏感評論的概率 P(b)=30%。

再對所有文本進行分詞,計算每個詞出現的概率。

以“遇刺”為例,假設在七萬條正常內容中,有七十條“遇刺”,即出現概率概率 P(W|g)為 0.1%;而三萬條敏感內容中,有三百條“遇刺”,即出現概率 P(W|b) 為 1%。“遇刺”一詞出現的總概率 P(W) 為 0.37%。

那麼,一條提到了機場的內容里出現了“遇刺”,該內容是敏感內容的概率 P(b|W) 是多大呢?將上面的結果帶入貝葉斯公式中,可以算出概率為 P(b|W) = P(W|b)P(b) / P(W) = 81.1%。

按此方法可以計算出每個詞的敏感概率,根據這個公式就可以計算出該文本為敏感內容的期望,再根據實際情況設定閾值進行處理。

以“金大胖在機場遇刺”為例,根據「金大胖」、「機場」和「遇刺」三個詞的敏感概率,可計算出這句話是敏感內容的概率為 93.9%。

貝葉斯方案的缺陷是需要大量語料數據作為其先驗概率的支撐。但在深度學習算法逐漸成熟的今天,距離完全消滅敏感內容的最後屏障就是樣本的數量。

為了實現這一偉大目標,官方也許可以定期舉辦“敏感詞放心說”等活動,號召人民群眾一起為消滅敏感詞貢獻數據。
您需要登錄後才可以回帖 登錄 | 注冊

本版積分規則

手機版|阿波羅網

GMT+8, 2018-10-24 08:22

快速回復 返回頂部 返回列表