python LIBSVMの学习データをコサイン正规化するスクリプト。

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python LIBSVMの学习データをコサイン正规化するスクリプト。相关的知识,希望对你有一定的参考价值。

#! /usr/bin/python
# -*- coding: utf-8 -*-

###############################################################################
# LIBSVM(LIBLINEAR)の学習データをコサイン正規化する.
#
# 次のコマンドで実行できる.
# 	$ python libsvm_cos-normalize.py [options]
# 		[options]
# 		-i file: 入力ファイル.省略すると35行目付近のINPUT_PATHで指定した値となる.
# 		-o file: 出力ファイル.基本は省略して構わないが,名前を指定したい時に.
#
# 入力ファイルのフォーマットはLIBSVMの学習データのフォーマットと同様.
#
# 出力ファイルはスケーリングを行った学習データのファイル.フォーマットは入力と同じ.
# デフォルトでは入力ファイルと同一ディレクトリに出力される.
#
# LIBSVM
# http://www.csie.ntu.edu.tw/~cjlin/libsvm/
##############################################################################

import argparse
import os
import sys
import numpy as np

# デフォルトの入力ファイル
INPUT_PATH = ''


def exec_argparse():
    '''
    引数をパースした結果を連想配列で返す.
    input_file: 入力ファイルパス
    output_file: 出力ファイルパス
    '''
    parser = argparse.ArgumentParser(description='')
    parser.add_argument(
        '-i', '--input_file', help='入力するファイル', default=INPUT_PATH)
    parser.add_argument('-o', '--output_file', help='出力するファイル')
    return parser.parse_args()


def cos_normalize(input_file, output_file):
    '''
    liblinear形式のファイルを読み込みコサイン正規化して出力
    '''

    # 出力ファイルが指定されていなければinput_file.outに出力
    if output_file == None:
        output_file = input_file + '.cos-normalize.scale'

    # 出力ファイルの初期化(削除)
    if os.path.exists(output_file):
        os.remove(output_file)

    # 入出力ファイルを開く
    f_input_file = open(input_file, 'r')
    f_output_file = open(output_file, "a")

    # 1行ずつ処理.
    for line in f_input_file:
        line = line.rstrip()  # 末尾の改行を削除
        field = line.split(' ')  # 半角スペースでフィールド分割
        label = field[0]  # ラベルを格納
        del field[0]  # ラベルフィールドは素性値配列に不要なので削除

        # 配列の初期化
        id_array = []  # 素性id配列
        value_array = []  # 素性値配列

        # 素性idと値を配列に格納
        for feature in field:
            field2 = feature.split(':')
            if float(field2[1]) != 0:  # 素性値0のものは省略
                id_array.append(field2[0])
                value_array.append(field2[1])

        # 素性値配列をnumpy配列に
        value_array = np.array(value_array, dtype=float)

        # コサイン正規化
        value_array = value_array / np.linalg.norm(value_array)

        # 出力
        line = []
        line.append(label)
        line.append(' ')
        for i in range(0, len(id_array)):
            line.append(id_array[i])
            line.append(':')
            line.append(str(value_array[i]))
            line.append(' ')
        line.append('\n')
        f_output_file.write(''.join(line))

        sys.stdout.write('.')

    f_output_file.close()
    f_input_file.close()


def main():
    # 引数をパースしてargsに格納
    args = exec_argparse()

    # ファイルを読み込みコサイン正規化して出力
    sys.stdout.write('normalizing ...')
    cos_normalize(args.input_file, args.output_file)
    print ' done'

    print 'Finish.'


if __name__ == "__main__":
    main()

以上是关于python LIBSVMの学习データをコサイン正规化するスクリプト。的主要内容,如果未能解决你的问题,请参考以下文章

机器学习文本挖掘之spherical k-means algorithm初识

python データを共有変数に読み込む

python スポーツナビ竞马ページとnetkeiba.comから中央竞马データをスクレイピングする的Pythonスクリプト

python スポーツナビ竞马ページとnetkeiba.comから中央竞马データをスクレイピングする的Pythonスクリプト

python ログインサイトの画面キャプチャ

r データサイエンティスト养成読本登竜门编「11-3 Rで机械学习を试してみよう」のソースコード