中文字幕理论片,69视频免费在线观看,亚洲成人app,国产1级毛片,刘涛最大尺度戏视频,欧美亚洲美女视频,2021韩国美女仙女屋vip视频

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
【技術】基于數(shù)據(jù)挖掘聚類方法識別串并多發(fā)性侵財案件平臺的設計與實現(xiàn)

摘 要:多發(fā)性侵財案件量廣面大,直接損害廣大人民群眾切身利益,嚴重影響人民群眾的幸福感、安全感,人民群眾反映強烈,各級黨委政府高度重視。多發(fā)性侵財案件具有高發(fā)性、地域性、選擇性等特點,識別串并案件的難度較大,討論一種基于數(shù)據(jù)挖據(jù)聚類的數(shù)學方法,以期實現(xiàn)對多發(fā)性侵財案件的機器識別和串并。

關鍵詞:數(shù)據(jù)挖掘聚類 多發(fā)性 侵財案件 串并 機器識別

。

多發(fā)性侵財案件具有高發(fā)性、地域性、突然性、現(xiàn)場信息少等特點[1,2]。高發(fā)性是指案件的發(fā)案頻率、數(shù)量相比其它案件要高出許多;地域性是指作案人員相對集中,往往是團伙作案或者具有地緣性犯罪特征;突然性是指案件往往隨機發(fā)生,出人意料;現(xiàn)場信息少是指案件現(xiàn)場指紋、足跡、DNA等傳統(tǒng)刑偵信息缺乏。偵破此類案件,往往面臨取證難、偵辦難的困境,在更大范圍內(nèi)串并案件是實施有限偵查的主要途徑之一。目前,串并案件主要靠人工分析,效率不高、串并不準,應當充分利用數(shù)據(jù)挖掘方法輔助實現(xiàn)多發(fā)性侵財案件的自動識別串并。

二、基本原理

(一)多發(fā)性侵財案件實現(xiàn)自動識別串并的特點條件

搶劫、搶奪、詐騙等多發(fā)性侵財案件,(1)犯罪嫌疑人與被害人之間往往有相互接觸,被害人可以描述犯罪嫌疑人的細節(jié)特征,如性別、種族、身高、體型、大概年齡、眼睛、發(fā)色、發(fā)型、紋身、口音、搭檔人特征等等;(2)犯罪嫌疑人作案規(guī)律性比較明顯,如對侵害目標、作案地點、時間、工具和方式的選擇,同一團伙的作案特征有明顯規(guī)律性;(3)犯罪嫌疑人反偵查措施相對較少,犯罪嫌疑人往往使用同一交通工具、作案工具、作案手法和方式。

(二)數(shù)據(jù)挖掘聚類方法介紹

數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程[3]。聚類分析方法,就是按一定的規(guī)則將對象分組為多個簇,在同一個簇中的對象具有較高的相似度[4]。聚類分析主要用于探索性的研究,其分析結果可以提供多個可能的解,選擇最終的解需要研究者的主觀判斷和后續(xù)分析。

(三)多發(fā)性侵財案件自動識別串并平臺處理流程

1. 數(shù)據(jù)采集

偵查人員日常接警、處警,將案件相關信息錄入系統(tǒng)平臺。

2. 數(shù)據(jù)預處理

將輸入的條件轉(zhuǎn)化成為計算機能夠識別計算的數(shù)字編碼。

3. 聚類分析

對輸入的規(guī)范化數(shù)據(jù)進行分析,得出一個或多個具有若干相同或相近的規(guī)范化數(shù)據(jù)條件的簇。

4. 人工決策

對聚類的影響因子進行調(diào)節(jié),也就是要選擇相似度有多高的數(shù)據(jù)可以作為一個聚類的分類標準。

(一)多發(fā)性侵財案件數(shù)據(jù)采集

本文中,選取多發(fā)性侵財案件犯罪嫌疑人年齡、身高、性別、發(fā)色、發(fā)長、體型、同伙人數(shù)、交通工具等8個特征,對n個犯罪嫌疑人用p個(8個)變量來描述形成n個對象×p個變量的矩陣。

(二)數(shù)據(jù)預處理

1. 噪聲數(shù)據(jù)

對數(shù)據(jù)采集的過程中發(fā)生錯誤或存在偏離期望的孤立點值采用數(shù)據(jù)平滑技術進行處理,將噪聲數(shù)據(jù)替換為箱平均數(shù)據(jù)、箱中值數(shù)據(jù)或者箱邊界數(shù)據(jù)等。

2. 空缺數(shù)據(jù)

采用忽略該屬性、人工填寫空缺值、使用全局常量填充或使用與給定元組屬同一類的所有樣本的平均值來填充的方法,其中最常用的是用最可能的值填充空缺值。

3. 數(shù)據(jù)標準化

為了避免變量對度量單位選擇的依賴,通過標準化的方法將變量轉(zhuǎn)換為無單位值。對于給定的變量f的度量值,可以進行如下的變換:

其中x1f ,…, xnf 是 f 的 n 個度量值,mf 是 f 的平均值,即

(三)多發(fā)性侵財案件聚類算法

1. 計算2個對象之間的歐幾里得距離

2. 層次化方法聚類

采用凝聚迭代的方法,初始將每個對象作為一個簇,相繼地合并相近的對象或簇,直到所有的簇合并為一個,或者達到一個終止條件。

3. 對每一個簇進行描述

將n個對象劃分為m個簇后,分別計算出對于任一簇m中r個對象的p個變量的平均值和取值空間:

平均值: ,Ai 是簇中對象第i(i={1…p})個變量的平均值;

最小值:mini=minj={1…r}xij,mini是簇中對象第i個變量的最小值;

最大值:maxi=maxj={1…r}xij,maxi是簇中對象第i個變量的最大值。

(四)多發(fā)性侵財案件自動串并人工決策

采用最小距離法來做為終止條件,將所有對象聚合成多個簇,以實現(xiàn)串并案件。在判斷一個對象i是否能夠加入某一簇m時,計算該對象i與該簇m的平均值點的歐幾里得距離,如果該距離小于我們約定的最小距離min的,則該對象i 可以并入簇m,并入后,重新計算該簇m的平均值點,反之,則該對象i不能并入簇m。

四、實驗驗證及結果

(一)驗證數(shù)據(jù)集

協(xié)調(diào)湖南省長沙市開福公安分局,調(diào)閱開福區(qū)四方坪國防科學技術大學周邊2012年以來發(fā)生的200余起多發(fā)性侵財案件記錄。按照年齡、身高、性別、發(fā)色、發(fā)長、體型、同伙人數(shù)、交通工具等8個變量構造數(shù)據(jù)集,形成樣本數(shù)為236的樣本數(shù)據(jù)集,并對已經(jīng)明確為同一團伙作案的樣本添加類標簽。

(二)實驗方法及設置

基于Python語言完成了實驗平臺中的算法開發(fā)。運用本文聚類算法,計算兩個樣本之間歐式距離,并將每個維度上的差異歸一到0~1之間。識別后的簇將同數(shù)據(jù)集上的類標簽進行比較,查看是否存在錯誤。同時,對本文算法與k-均值聚類的正確率進行比較。

(三)實驗結果

記錄了本文提出的串并算法在不同的簇最小距離設定下的串并正確率,如表1所示。

當簇最小距離設定為0.04時,串并正確率最高,為92.6%。簇最小距離過大或過小,都會使串并正確率下降。

對比基于k-means聚類算法的串并正確率,如表2所示。

可以發(fā)現(xiàn),本文提出的串并算法具備更高的串并正確率。

五、未來發(fā)展探討

對本文的聚類串并算法可以在兩個方面進一步加強和改進:

(一)不同特征的權值問題

本文串并聚類算法將不同對象的同一類特征按照同樣的方式對待。在實際工作中,某些特征相對其它特征來說的指向性更強,如犯罪嫌疑人的性別、身高、交通工具等特征相對其發(fā)型、發(fā)色的特征來說區(qū)分的意義更大,應當考慮為不同特征賦予不同的權重值。

(二)聚類簇的不規(guī)則形狀問題

本文串并聚類算法中利用對象間的歐幾里得距離作為判定能否聚類的依據(jù),這樣的距離度量的算法趨向于發(fā)現(xiàn)具有相近尺度和密度的球狀簇。在實際中,一個簇可能是任意形狀的,應當考慮采用“基于密度的方法”來實現(xiàn)任意形狀簇的聚類。

六、結語

在機器輔助辦案決策方面的探索,西方國家走在我國前面,2000年,英國伍爾弗漢普頓大學的研究人員和西米德蘭茲郡警務人員用2年時間在英格蘭進行了相關研究,他們從三年內(nèi)在轄區(qū)內(nèi)發(fā)生的800起假冒工作人員行竊案中,挑選了89起吸引房屋主人注意力的作案人為女性的案件,其中涉及犯罪嫌疑人105人,根據(jù)受害嫌疑人的描述,運用聚類方法進行了分析,據(jù)參加研究的各方都聲稱該方法是行之有效的。當然,運用聚類等方法輔助案件判定決策還有很長的路要走,在計算機技術高速發(fā)展的今天,相信能夠取得更好的效果。

參考文獻:

[1] 公安部刑偵局. 2012年打擊多發(fā)性侵財犯罪專項行動方案[EB/OL].http://www.xz.ga/c/cn,2012-02-23.

[2] 曾文雄. 多發(fā)性侵財案件的偵查舉措[J]. 政法學刊, 2012.06:91-93.

[3] 百度百科詞條.http://baike.baidu.com/view/7893.htm.

[4] 王大龍,秦琦. 關于數(shù)據(jù)挖掘原理與算法的淺析[J]. 科技創(chuàng)新導報,2010,02:193.

[5] 百度百科詞條.http://baike.baidu.com/view/903740.htm.

[6] R. Adderley and P. B. Musfrove. General Review of Police Crime Recordingand Inverstigation Systems. Policing: An International Journal of PoliceStrategies and Management, 24(1), 2001, pp.110-114.

明略軟件云集了清華、北大、中科大、卡內(nèi)基梅隆等國內(nèi)和國際頂級大學的計算機、數(shù)學和信息學等領域?qū)I(yè)人才,形成了高效、專業(yè)的算法、產(chǎn)品及行業(yè)客戶實施團隊。憑借出色、可定制化的大數(shù)據(jù)實施及數(shù)據(jù)分析、應用能力,明略軟件已幫助了來自金融、電商及政府等多個領域的客戶實現(xiàn)了由海量規(guī)模數(shù)據(jù)支撐的業(yè)務提升。

公司官網(wǎng):http://www.mininglamp.com/

本站僅提供存儲服務,所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
Nat. Rev. Neurol. | 機器學習在神經(jīng)退行性疾病診斷和治療中的應用
【數(shù)據(jù)分析2】 關于分類和聚類算法...
K-means、K-modes與K-prototype聚類分析
學習筆記5:數(shù)據(jù)預處理與數(shù)據(jù)挖掘十大經(jīng)典算法
數(shù)據(jù)挖掘 | 異常值檢測實例
干貨!無監(jiān)督學習的公平性研究
更多類似文章 >>
生活服務
熱點新聞
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服