撰文 | 微胖
中國有多少家法律 AI 創(chuàng)業(yè)公司?
總數(shù),恐怕還不足一個微信群成員上限的十分之一。
翻開斯坦福大學的百年人工智能報告,目錄中也看不到法律這個垂直細分領域。
有一百個邁向這個領域的動力,也有一百個放棄的理由:
論蛋糕大小,遠不及出行、醫(yī)療、安防、金融等領域。
論產(chǎn)品的革命性與戰(zhàn)略性意義,可能不及虛擬語音助手和人工智能芯片。
所以在這個領域,你看不到流連于熱門細分領域的頂級資本。
然而,創(chuàng)業(yè)者們要解決問題的難度,卻絲毫不亞于熱門細分領域,甚至可以說難度更大,但人才所能獲得的回報遠不及巨頭開出的價碼。
一些國內(nèi)大型法律科技公司相關業(yè)務負責人曾告訴筆者,在吸引非常優(yōu)質(zhì)的 NLP 人才方面,他們根本不是巨頭和明星獨角獸公司的對手。
所以,當你發(fā)現(xiàn)法律人使用的搜索工具還停留在連 20 年前的谷歌時代時,也就不足為奇了。
不過最近,一家成立不久的法律 AI 創(chuàng)業(yè)公司冪律智能入駐清華科技園的創(chuàng)業(yè)大廈。這家由清華大學人工智能博士創(chuàng)立的公司想要用先進的自然語言處理技術改變法律服務。
公司創(chuàng)始人、CEO 涂存超(左),清華大學劉知遠教授(右)
一、為什么是法律?
今年三月,冪律獲得近千萬元天使輪融資。公司創(chuàng)始人涂存超是清華大學計算機系人工智能所應屆博士研究生,和他一同創(chuàng)業(yè)的張?zhí)鞊P是他的本科同學,同樣剛剛拿到清華計算機系的博士學位。
「我做社交網(wǎng)絡數(shù)據(jù)挖掘,涂存超之前也做一些 network embedding 的工作!箯?zhí)鞊P介紹道。
公司聯(lián)合創(chuàng)始人張?zhí)鞊P
涂存超最初的想法很樸素:學以致用,希望能夠通過博士期間所學真正去改變一個領域,而不是在一個大公司里扮演著螺絲釘?shù)慕巧?/span>
最開始,他們也考慮了一些熱門的領域,比如金融、醫(yī)療、教育等行業(yè),但后來發(fā)現(xiàn)這些行業(yè)的數(shù)據(jù)壁壘比較嚴重。
「如果做醫(yī)療,你必須得跟某個醫(yī)院合作才能拿到數(shù)據(jù),這可能需要比較多的社會的資源。」對于從本科一直讀到博士,沒有太多社會資源的創(chuàng)業(yè)者來說,這個難度確實比較大。
一次偶然的機會,跟律師界朋友聊了后,他們發(fā)現(xiàn)法律行業(yè)是一個特別重文本的行業(yè),而且文本質(zhì)量特別高。
事實上,全國諸多法院在經(jīng)過 20 年的信息化建設后,流程數(shù)據(jù)、證據(jù)數(shù)據(jù)、文書數(shù)據(jù)、檔案數(shù)據(jù)等都比較完整。
特別是,中國裁判文書網(wǎng)上的幾千萬裁判文書都是公開的。
「與其它垂直領域相比,這些都是非常好的文本信息,質(zhì)量非常高,都是法官寫的,表述更加嚴謹規(guī)范,而且數(shù)量足夠大。每個文書都有非常詳細的標注。比如,涉及哪些法條、犯哪些罪、量刑結果是什么、什么時間、發(fā)生的地域、法官是誰、代理律師是誰?這些標注信息以及眾多的場景非常適合 NLP 技術的落地。」涂存超說,
除了這些案例文書,法律領域還擁有法律法規(guī)、法學文獻、合同協(xié)議等豐富的文本數(shù)據(jù),這些數(shù)據(jù)也為法律智能提供了豐富的應用場景。
「我們很務實,覺得這個方向前景很好,而且堅信技術一定能夠在這個方向發(fā)揮重要作用,所以立馬開始這個方向的調(diào)研、技術開發(fā)和嘗試。在抓取了幾千萬份數(shù)據(jù)后,我們首先做了一個智能檢索引擎!箯?zhí)鞊P說。
至于為什么首先做搜索,一方面,檢索是基礎性工具,是法律行業(yè)初級從業(yè)者的基礎性需求;另一方面,現(xiàn)有的法律搜索已經(jīng)和百度、谷歌存在非常明顯的技術代差。
用戶已經(jīng)習慣了通用領域的基于語義理解的檢索方式,在百度或谷歌里檢索大段文本,或者直接問一個問題,系統(tǒng)可以直接給你答案。但是,法律領域的檢索工具還停留在關鍵詞搜索。
比如,律師遇到一個案件或者糾紛,就必須得檢索根據(jù)自己的工作經(jīng)驗總結出來一些關鍵詞,而且只有詞表里有的關鍵詞,才能檢索到結果。如果一句很簡單的自然語言形式的輸入,用戶可能就檢索不出結果。
「這種檢索方式甚至連 20 年前的谷歌搜索技術都不如,」張?zhí)鞊P說。
去年四月,他們決定做這個事情。一年多后,他們發(fā)現(xiàn),NLP 在法律領域的應用潛力還不止這些,比如,輔助量刑、合規(guī)審查、法律風險提示、智能法律咨詢等,都有著非常好的前景和可行性。
「我們堅持做法律,有一個很重要的原因,就是我們覺得它更有可能做出來!雇看娉f。
「最近一年的發(fā)展,也印證了這個想法!箯?zhí)鞊P補充道。
二、怎樣的一款產(chǎn)品?
輸入一段案情,或者一些法律要件的組合、甚至將整個案件或判決直接輸進去,系統(tǒng)就可以識別出使用者的使用意圖,然后在相應的地方進行識別語義,匹配到可能相似的案件。
坦白說,這樣的法律檢索工具會非常吸引人,和 ROSS 做的事情也有些類似。據(jù)說,體驗過產(chǎn)品原型的業(yè)內(nèi)人士也驚訝于檢索效果。
冪律的檢索系統(tǒng)(年底會做出一個產(chǎn)品)有兩個亮點:意圖識別和根據(jù)語義進行匹配。
意圖識別系統(tǒng),能夠理解用戶帶著什么樣的目的搜索這個案子,用戶到底是想要有什么。
比如,類案推送、爭議焦點,還是條文查詢。
「每一個領域的律師想要的東西可能也不完全一樣。做產(chǎn)品設計的時候,我們會調(diào)研不同應用場景,不同律師檢索時想知道什么,接下來想做什么,為他們提供更好的搜索結果!箯?zhí)鞊P說。
而基于語義理解進行類案匹配,會將文本的深度分析技術,比如關鍵詞抽取、關系和事件抽取、摘要生成等,適配到法律語境中。
「我們也在考慮,檢索出來海量相似案例之后,怎么樣就此生成一個報告!雇看娉f。
這與 ROSS 在一年多前接受我們的采訪時曾表達過的想法,不謀而合:
「接下來幾年的最大目標之一,希望 ROSS 可以瀏覽多個案例和證據(jù),然后生成備忘錄,總結問題,并列出不同觀點。這將會改變律師們研究案子的方式。」
「我們最核心能力,肯定還是 NLP 的基礎技術!雇看娉f,
「具體到法律領域,我認為,現(xiàn)在應該做類案匹配和判決預測。這兩個方面,我們算是做得最早,也應該是做得最好的!
因此,除了所有法律人都會關注的類案推薦,他們也在將 NLP 技術用于判決預測。
比如,多模態(tài)異構信息融合。如何融合案件判決時所要考慮的多文本信息(法律法規(guī)、司法解釋、甚至工商信息等),以便更好進行結果預測。
另外,預測判決罪名、量刑還涉及智能推理決策技術,比如如何模擬法官判案邏輯,在系統(tǒng)中引入推理能力。
而他們在這方面的研究正在得到學術上的肯定。
一個月前,涂存超參與的一篇研究罪名預測的論文 Few-Shot Charge Prediction with Discriminative Legal Attributes發(fā)表在了 NLP 四大頂會之一 COLING2018。
我們知道,罪名分布也是典型的長尾分布(冪律分布的一種形式,現(xiàn)在你知道公司名字的由來了):
如盜竊罪、搶劫罪等占了接近一半的案件。比較低頻的幾十個罪名,可能只占了百分之零點幾。
幾千萬案例文書當中,幾個高頻罪名,比如盜竊罪、搶劫罪等占了接近一半的案件。比較低頻的幾十個罪名,可能只占了百分之零點幾。
但是,在目前的罪名預測研究中,低頻罪名的處理效果并不理想。
傳統(tǒng)上,罪名預測一般被當作文本分類任務處理,利用案件相關的一些淺層文本文本特征或者屬性特征來預測結果。
近些年來,也有基于神經(jīng)網(wǎng)絡網(wǎng)絡分類模式的嘗試,但也不能很好處理低頻罪名和混淆罪名的問題。
涂存超所在的團隊通過模擬法官的定罪邏輯,引入 10 個有代表性的區(qū)分性屬性(盈利、買賣行為、死亡情節(jié)、暴力行為等),作為事實描述到罪名的中間映射。
通過利用注意力機制生成與屬性相關的事實表示,對一個案件的不同屬性進行預測,進而預測最終罪名結果。結果,這一方法在低頻罪名預測上獲得了接近 50% 的提升。
現(xiàn)在的模型取得了較為理想的預測結果,然而,其中的可解釋性也需要進一步挖掘,對一個法律產(chǎn)品的使用來說,這也是不可忽視的方面之一。
「智能推理決策當中,這種可解釋性的問題也非常重要!雇看娉f,法官必須知道其所以然。
在技術方法上,引入知識圖譜、法律先驗知識,模擬法律人的思維邏輯,有可能打破法律智能的黑箱問題。
劉知遠教授曾經(jīng)談及先驗語言知識與深度學習模型的有機融合對于理解世界的作用。他的團隊也在模型中考慮先驗知識的作用,并做出了一些嘗試。
作為劉知遠教授的博士研究生,涂存超最近也在做一些技術上的突破,
「看能否將現(xiàn)有的一些可解釋性研究,適配到法律智能領域。我們會有一些應用,也會針對實際情況進行一些改進!雇看娉f。
三、怎樣的一支團隊?
目前,國外大多數(shù)法律 AI 創(chuàng)業(yè)公司都少不了具有法律背景的核心成員(創(chuàng)始人或者聯(lián)創(chuàng)),比如 ROSS、LawGeex 以及被 LexisNexis 先后收購的 Lex Machina 和 Ravel Law 等。國內(nèi)更是如此,比如華宇元典、無訟、律品等。
冪律是為數(shù)甚少由純技術出身創(chuàng)業(yè)者組建的法律AI團隊。
涂存超和張?zhí)鞊P曾參加過數(shù)學和物理奧賽,其他一些團隊成員曾是信息學奧賽國家集訓隊成員。換句話說,這些人工智能專業(yè)的博士們幾乎有著類似的學霸型人生軌跡:
奧賽——保送清華——一路讀到博士——創(chuàng)業(yè)。
剛開始接觸這個領域的時候,對法律知識和行業(yè)的了解還停留在大學本科政治課的范圍內(nèi)。
研究人員或許可以做一款優(yōu)秀的產(chǎn)品,但這不一定意味商業(yè)上的成功。為避免陷入「技術為王」,一些投資人在建議技術見長的團隊初期尋找合伙人時,仍要重視市場、商務等因素對公司的重要推動作用。
「從剛開始做這個東西時,我們就已經(jīng)意識到這個問題!箯?zhí)鞊P說,
「我們也正在努力尋找這方面的人才,無論是實習生、全職還是合伙人,我們一直都在尋找。」
不過,冪律現(xiàn)在做的法律檢索工具,更多的是將一個略成熟技術進行應用,對技術的需求更大。因此,通過與律師朋友、法學院同學、老師,包括一些公司合作來獲取法律資源的模式,足夠應對當下的法律需求。
在交流過程中,我們?nèi)匀豢梢泽w會到算法創(chuàng)業(yè)團隊對技術的高度重視。
法律人主導的團隊會使用開源工具,但是,冪律的團體知道如何改進這個工具。
比如,根據(jù)法律把分詞作好,需要更有經(jīng)驗的人。
涂存超曾參與過人工智能所開源分詞工具的開發(fā),「知道怎么去做一個分詞工具,怎么去改進一個分詞工具,和只會直接用一個開源分詞工具,效果是有區(qū)別的!箯?zhí)鞊P說。
算法、法律知識圖譜方面,也是如此。
「劉知遠教授是做知識圖譜的,我對知識圖譜也算比較了解。」涂存超說。在他看來,并不是誰先花了很多資源構建出這個東西,誰就能獲得先發(fā)優(yōu)勢。關鍵仍在于,誰能構建出一個真正在算法上可用并能提升效果的法律知識圖譜。
在他們看來,法律人主導的 AI 創(chuàng)業(yè)公司也會存在一些不足。
「他們對技術的理解,與真正做 NLP 的人的理解,可能完全不一樣!箯?zhí)鞊P說。
冪律考慮的是什么樣的算法能幫助這個領域提升工具效力,然后才考慮將它設計成一個很好的產(chǎn)品,但有一些競爭對手考慮更多的可能是尋找一個新的賣點,把東西賣出去,但產(chǎn)品里面甚至沒有真正算法部分。
四、什么樣的產(chǎn)品進階之路?
現(xiàn)階段的人工智能,更多扮演著賦能行業(yè)的角色。
許多法律AI初創(chuàng)公司的初衷,都是想讓技術惠及 C 端客戶,但最終落地時幾乎都選擇了服務 B 端,比如,法院、公司法務部門和律所。
相較于 C 端,B 端用戶既保證了需求的體量與頻次,對產(chǎn)品價格也不會特別敏感。
冪律也表達了類似的規(guī)劃,「短期來看,無論數(shù)據(jù)條件、市場盈利模式、還是技術方面,短期內(nèi)都做不到(C 端)。所以,我們先為律所甚至法官、檢察官等從業(yè)者提供一個自然語言檢索工具!張?zhí)鞊P說,
「他們的需求比較高頻,尤其是初級律師,檢索的質(zhì)量和效率都是瓶頸,所以,第一階段比較明確要做的,就是這個自然語言檢索平臺!
雖然這意味著,他們第一階段的產(chǎn)品會和北大法寶,無訟等以案例為主的檢索很相似,「但是,我們可能提供的功能會更強大。」張?zhí)鞊P說。
不過,在通用技術上進行必要的積累、提供一些突破之后,冪律會考慮將基礎性技術應用到具體細分方向。長期來看,冪律仍然希望能夠打造一個能夠面向 2C 的更通用的法律智能(平臺),降低普通人享受法律服務的門檻。
五、怎樣的決心?
對涂存超來說,過去一年讓他印象最深刻的體驗是法律人和人工智能研究人員之間的那段「最遠距離」。
無論是研究還是產(chǎn)品,他們都深深感受到了橫梗在專業(yè)之間的知識壁壘。
比如,類案匹配引擎研究中,大家對什么是類案的理解完全不同。
「不光是法律知識對我們來說的一個壁壘,就連他們覺得什么樣的案子是相似的,我也完全不知道。」而另一方面,法律人士對于技術該怎么解決這個問題,也完全沒有概念。
「雙方之間存在的這種知識壁壘,包括交流成本都非常高!涂存超說。
其實,涂存超的體驗幾乎是這個領域所有從業(yè)者的共鳴。但只要我們回顧一下,法律本科生沒有高數(shù)要求,理工科本科學生僅在政治課中感受過法律,就不難理解這個交叉領域里的巴別塔現(xiàn)象了。
盡管如此,他們?nèi)匀环磸蛷娬{(diào),冪律打算長期做這個事情,雖然創(chuàng)業(yè)仍然不是當下人工智能博士們的主流選擇。
當身邊有些同學拿到 80 多萬年薪的 Offer 時,涂存超和張?zhí)鞊P卻告訴我們,在求職季里,他們一份簡歷都沒有投,因為當時已經(jīng)決定創(chuàng)業(yè),雖然還沒拿到任何投資。
即使在敲定投資人方面,他們更多的還是考慮投資人與公司的優(yōu)勢互補與業(yè)務發(fā)展。
「無論是我們還是投資人和業(yè)界朋友,他們都看好這個領域的前景!箯?zhí)鞊P說。
采訪接近結束時,我看到在還來不及收拾整理的會議室的黑板上,赫然寫著法律人再熟悉不過的三段論,團隊最近還學習了犯罪四要件和三階層。
「目前為止,我們沒有遇到過任何一家公司,他們已經(jīng)有非常好的項目經(jīng)理來處理技術和法律兩方面的問題!刮彝蝗幌氲 IBM Watson Legal 的聯(lián)合創(chuàng)始人、首席專家 Brian Kuhn 在一年前曾分享過的一個觀察。
一個成功的法律AI創(chuàng)業(yè)團隊,至少有能力將世界上「最遠距離」的兩種思維比較好地結合起來。
征途,才剛剛開始。
為防止簡歷投遞丟失請抄送一份至:boshijob@126.com(郵件標題格式:應聘職位名稱+姓名+學歷+專業(yè)+中國博士人才網(wǎng))
中國-博士人才網(wǎng)發(fā)布
聲明提示:凡本網(wǎng)注明“來源:XXX”的文/圖等稿件,本網(wǎng)轉載出于傳遞更多信息及方便產(chǎn)業(yè)探討之目的,并不意味著本站贊同其觀點或證實其內(nèi)容的真實性,文章內(nèi)容僅供參考。