GO语言如何利用K近邻算法实现小说鉴黄

Usuage:
  go run kNN.go –file="data.txt"

关键是向量点的选择和阈值的判定

package main
 
import (
  "bufio"
  "flag"
  "fmt"
  "io"
  "log"
  "math"
  "os"
  "path"
  "path/filepath"
)
 
var debug bool = false
var data_dir string = "./moyan"    //文件存放目录
var limen float64 = 0.1159203888322267 //阈值
 
const (
  MIN_HANZI rune = 0x3400
  MAX_HANZI rune = 0x9fbb
)
 
var labels []rune = []rune{
  0x817f, 0x80f8, 0x4e73, 0x81c0,
  0x5c41, 0x80a1, 0x88f8, 0x6deb,
}
 
func errHandle(err error) {
  if err != nil {
    log.Fatal(err)
  }
}
 
func load(name string) (m map[rune]int, err error) {
  f, err := os.Open(name)
  if err != nil {
    return nil, err
  }
  defer f.Close()
  buf := bufio.NewReader(f)
  m = make(map[rune]int)
  var r rune
  for {
    r, _, err = buf.ReadRune()
    if err != nil {
      if err == io.EOF {
        break
      }
      return nil, err
    }
    if r >= MIN_HANZI && r <= MAX_HANZI {
      m[r] += 1
    }
  }
  return m, nil
}
func classify(m map[rune]int) (idv []float64, dis float64) {
  len_m := len(m)
  for i, v := range labels {
    if debug {
      fmt.Println(i, m[v], string(v), float64(m[v])/float64(len_m))
    }
    idv = append(idv, float64(m[v])/float64(len_m))
  }
  for _, v := range idv {
    dis += math.Pow(v, 2)
  }
  dis = math.Sqrt(dis)
  return
}
func check(fp string, dis float64) {
  switch {
  case dis >= limen:
    fmt.Println(fp, dis, "涉黄")
  case dis == 1.0:
    fmt.Println(fp, dis, "你在作弊吗")
  case dis == 0:
    fmt.Println(fp, dis, "检查一下文件字符编码是不是utf8格式吧")
  default:
    fmt.Println(fp, dis, "正常")
  }
}
 
func walkFunc(fp string, info os.FileInfo, err error) error {
  if path.Ext(fp) == ".txt" {
    m, err := load(fp)
    errHandle(err)
    _, dis := classify(m)
    check(fp, dis)
  }
  return err
}
 
var file string
 
func init() {
  _, err := os.Stat(data_dir)
  if err != nil {
    err = os.Mkdir(data_dir, os.ModePerm)
    errHandle(err)
  }
  flag.StringVar(&file, "file", "", "file read in,if you don't give the file read in,"+
    "it will create a data dictionary,just pust your files in it")
}
 
func main() {
  flag.Parse()
  if file == "" {
    filepath.Walk(data_dir, walkFunc)
    return
  }
  m, err := load(file)
  errHandle(err)
  _, dis := classify(m)
  check(file, dis)
 
}

原创文章,作者:DHFVD,如若转载,请注明出处:https://www.beidanyezhu.com/a/29171.html

(0)
DHFVD的头像DHFVD
上一篇 2025-02-05
下一篇 2025-02-05

相关推荐

  • Go语言与鸭子类型的关系是什么

    Go语言与鸭子类型的关系   先直接来看维基百科里的定义:   If it looks like a duck, swims like a duck, and quacks lik…

  • Go语言的重要性

    一、Go 开发者 数量 & 所处地区 全球大约有 110 万名职业 Go 开发者(特指在工作中专门将 Go 作为主力编程语言的群体),如果把主要使用其他编程语言但同时兼职使…

    2025-02-05
  • Go语言中CGO怎么用

    1. Go语言调用C函数例子: package main   // // 引用的C头文件需要在注释中声明,紧接着注释需要有import &q…

    2025-02-05
  • Go语言能否取代Linux脚本

      在Cloudflare的人们都非常喜欢Go语言。我们在许多内部软件项目以及更大的管道系统中使用它。但是,我们能否进入下一个层次并将其用作我们最喜欢的操作系统Linux的脚本语言…

  • 什么是Go语言的字符串

      一个Go语言字符串是一个任意字节的常量序列。 Go语言字符串与其他语言不同点   Go语言字符串与其他语言(Java,C,Python)字符串的不同点Go语言中字符串的字节使用…

  • 为什么Go语言能够成功

      常言道,历史不会重演,但总会惊人的相似。   如果您想创建一种编程语言,多向那些有经验的人士学习,他们有很多可取之处。在《GoTime》第100期节目中,两位Go语言的创造者R…

  • go语言中函数与方法是什么

      如果你遇到没有函数体的函数声明,表示该函数不是以Go实现的。   package math   func Sin(x float64) float //implemented …

  • 如何安装和使用Go语言集成开发环境的VS Code

    目录 Go语言集成开发环境之VS Code安装使用 下载与安装 安装中文简体插件 安装Go开发扩展 变更编辑器主题 安装Go语言开发工具包 配置VSCode开启自动保存 配置代码片…

    2025-02-05
  • Go语言的接口的介绍以及作用是什么

    接口就是一系列方法的集合(规范行为) 在面向对象的领域里,接口一般这样定义:接口定义一个对象的行为,规范子类对象的行为。 在 Go 语言中的接口是非侵入式接口(接口没了,不影响代码…

  • GO语言的类型有哪些

    1、值的类型给编译器提供两部分信息:一是,需要分配多少内存给这个值(即值的规模);二是这段内存表示什么。 2、用户自定义类型有两种方法。一是使用关键字 struct ,来创建一个结…

    2025-02-05

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

分享本页
返回顶部