Mane

Posts

Showing posts from July, 2020

AI概论第二周笔记 - Building AI Projects

Thursday, July 30, 2020

前言续上一个星期的内容，禁止转载。 Week 2 Introduction 在这一篇文章中，会介绍启动一个AI项目需要做什么，AI的流程是什么，怎么去选择一个AI项目，如何组织数据和建立团队，无论对你自己或是和朋友一起，亦或是企业里更大规模的队伍，都是重要的。 Workflow of a machine learning project 机器学习可以学习从输入到输出，或 A-->B 的过程。第一步是收集数据：现在那语音助手举个例子，比如苹果的siri，你得到处走然后让人们来说这个词'siri' ，然后你把这些语音记录下来，同时也需要收集其他的词例如'你好'等很多其他的词，并且录音下来。当你收集了非常多音频数据也就是收集了很多不同人说 'siri' 或其他词语的语音后就可以开始训练数据了。第二步就是训练模型，就是说你需要利用一个机器学习算法来学习从输入到输出，或者是A到B的映射，这里输入A就是一段上面收集的语音。这个时候团队会尝试第一次建立模型和训练，如果一次尝试的效果不好就需要尝试很多次。（在人工智能领域，叫做反复迭代。）直到模型看起来足够好为止。第三步就是把训练好的模型发放给任何人用，让任何人去评估这个训练好的模型。如果有人觉得不好用，或者有人说siri之后 NN 没反应，这个时候就要维护和更新下 NN （比如英式口音和美式口音）。 Workflow of a data science project 和机器学习项目不同，可以从数据科学那里得到改进的行动和观点。这些观点可能会让你的采取不同的行动，所以数据科学项目与机器学习的工作流程不同。如果你在运营一个卖咖啡杯的电子商务平台或者是在线购物网站，所以当一个用户从你这购买咖啡杯时，他们常常需要经过一系列步骤。首先，他们将访问你的网站，浏览不同的马克杯，然后他们点进某个产品的详情页面，他们把商品放入购物车，进入支付界面，最终他们将支付订单。在这个过程中可以通过用户点击记录一份日志。第2步是分析数据，你的数据团队可能会想出很多会影响销售因素，例如，数据团队也许会认为海外顾客因为国际运费太高而被吓退，这可以解释为什么很多人虽然点进了支付页面，但是最终没有下单。如果真是这样，那么你可能会考虑是否把部分运...

AI概论第一周笔记 - What is AI ?

Wednesday, July 29, 2020

前言年纪轻轻的，学 AI 不怕掉头发吗？以下是本喵整理的笔记，禁止转载。另外个人觉得现阶段 AI 和 NN 没有什么区别，所以下面的 AI 和 NN 是互相对等的。 Week 1 Introduction 总结来讲，AI 实际上是两个独立的概念：弱人工智能：几乎所有我们可以看到的人工智能中的进展都是弱人工智能，这些的AI只会做一件事情，比如智能音箱或者自动驾驶等。这类的AI只有单方面的成果。强人工智能：他们可以做人类可以做的事情，甚至可能能够做人类都不能够做的事情。不过现阶段来说弱人工智能在进步，几乎没有强人工智能的方面。两个方面都有价值，但很不幸的是由于弱人工智能的快速发展，导致人们认为整体的人工智能有很大的进步，但也会导致一些非理性的恐惧，让人以为 AI 会取代人类。现阶段强人工智能的确是一个很厉害的目标，但还要更多的科研，他需要多方面的技术才可以实现，这意味着未来十几年或者几百年甚至几千年的探索才可以突破。正因为强人工智能离我们太远，所以也没有必要太过于担心这件事。 Machine Learning 最常用的机器学习模型实际上就是学习 A --> B 的过程，这个叫监督学习。为什么AI现在才开始崛起呢？其实原因很简单，以前的计算机有很大的限制，比如硬盘太小等等，随着时间变化，计算机和网络大量的普及，时间越久收集到的数据就越多。AI则是使用这些数据来训练，数据越多AI就越准。当 NN 越大的时候，结果就越精准，但需要的数据也就越多，这就是为什么经常听到大数据。 What is data? 到底什么是数据？简单来说就是放进去NN的那堆数据。数据从哪来？手动标记：假设你拿到了一堆猫猫狗狗的图片，你想要让 NN 区分猫猫狗狗，你就可以对这些图片进行描述，然后喂入 NN 。从采集器那边获取：比如做一个 APP 当用户点 Yes or No 的时候采集器就可以开始收集数据啦。下载开源的数据：比如 TensorFlow 自带的模块有很多开源的数据。另外，一些软件团队会经常错误的收集错误，这个时候就要和 AI团队去沟通，要使用AI做什么，有没有价值等等，但也不要错误的认为把数据交给 AI团队就一定挖掘到价值。其次是数据是非常乱的，如果你提供的...

TensorFlow 官方自然语言处理系列笔记

Monday, July 27, 2020

前言个人整理的笔记，如有错误可以评论区更正下喵，毕竟本喵正在学习，强烈建议在看这篇文章之前先去看看官方视频。视频 TensorFlow 官方自然语言处理系列视频（英文字幕，约40分钟） Natural Language Processing - Tokenization (NLP Zero to Hero - Part 1) 有些人使用每一个单词里面的字母换成 ASCII 码然后扔进去 NN 处理，但是对于 NN 来说，得到了一堆只是相同的但顺序不同的 ASCII 码，这样 NN 很难理解一个词的感情，所以这个时候，需要把一个单词变成编号即可。 [Colab] from tensorflow.keras.preprocessing.text import Tokenizer sentences = [ 'i love my dog', 'I, love my cat', 'You love my dog!' ] tokenizer = Tokenizer(num_words = 100) tokenizer.fit_on_texts(sentences) word_index = tokenizer.word_index print(word_index) 运行后的结果 {'love': 1, 'my': 2, 'i': 3, 'dog': 4, 'cat': 5, 'you': 6} 当然还可以输出 word_docs 和 word_counts 。那么问题来了，为什么 dog 和 dog! 元素是一样的呢？其实在处理的过程中，Tokenizer 会很智能的把每一个大小写或者标题符号给转换或者省略掉，当然 loves 和 love 也看成是一样的。参考 Keras分词器 Tokenizer Sequencing - Turning sentences into data (NLP Zero to Hero - Part 2) 当统计好单词以后，怎么把句子变为一串编码呢？其实只需要插入多一句就可以让句子变成编码了。 [Colab] ...

安卓adb模拟输入太慢的几个解决方法

Wednesday, July 22, 2020

前言起初通过了adb shell input 来控制安卓的输入的时候，发现 adb shell input 非常慢，网上说 adb input 输入时要对本地进行 I/O 处理，通过 getevent 发现 adb 并没有对 event 进行操作。在这里我使用我之前写的 python自动玩连连看来举个栗子，下面这个栗子使用的是夜神模拟器，Android 5。注意这篇讲如何使用 adb ，必须要对手机进行 root ，推荐使用安卓模拟器来实验。问题如果单纯的用 Python 进行控制 adb 的话，只用 adb 速度几乎一秒钟点击一次。 Python 伪代码： [Github] def run_list(setp_list): ... for setps in setp_list: for y,x in setps: tx = 131 + (x-1) * 74 ty = 146 + (y-1) * 91 subprocess.call("adb shell input tap " + str(tx) + " " + str(ty) , shell=True) 在这个情况下，对一些游戏场景还是不友好，比如玩连连看，到底要点到什么时候呢？改进一：sendevent 在 Linux 中，有一个 /dev/input/ 的目录，里面的有各种 event ，这些 event 所触发的事件都是来自外部的各个输入设备，在 /proc/bus/input/devices 可以看到当前系统的各个输入设备。 [Github] root@shamu:/ # cat /proc/bus/input/devices ... I: Bus=0000 Vendor=1234 Product=0001 Version=0001 N: Name="Android_Input" // 安卓输入事件 P: Phys= S: Sysfs=/devices/virtual/input/input4 U: Uniq= H: Handlers=sysrq r...

常用的图片相似度比较算法目录引文

Friday, July 17, 2020

前言对比两张图片的相似度，用来干啥大家都知道。常用几种的算法差异比较法：两张图片相加减，最后得到一个百分比。 How do I calculate the percentage of difference between two images using Python and OpenCV? 直方图统计：通过计算三种颜色的直方图，或者只计算一个颜色的直方图来做对比。（什么是直方图？） Python-Opencv中用compareHist函数进行直方图比较进行对比图片 OpenCV Histogram Comparison [CN] 哈希算法：找图片特征码进行对比。图像相似度中的Hash算法 python OpenCV 图片相似度 5种算法 TESTING DIFFERENT IMAGE HASH FUNCTIONS How to check similarity of two images that have different pixelization MSE & SSIM：通过每个像素的方差做对比。 Python计算两张图片的相似度 How to calculate the Structural Similarity Index (SSIM) between two images with Python 关键特征提取和匹配：图像处理之特征提取 SIFT、SURF、ORB、HOG、LBP、HAAR特征的原理概述及OpenCV代码实现 python opencv3 基于ORB的特征检测和 BF暴力匹配 knn匹配 flann匹配【python 图像相似度】OpenCV图像相似度ORB算法--相似图像去重 OpenCV-Python Feature2D 特征点检测(含SIFT/SURF/ORB/KAZE/FAST/BRISK/AKAZE) 综合： python图像识别---------图片相似度计算 Python计算图片之间的相似度还有的谷歌找去吧

Haproxy 对 socks 做负荷均衡带配置文件

Wednesday, July 08, 2020

前言海外的用户如果要使用国内进行看剧可以去找免费的socks代理，可以利用Haproxy可以做到负荷均衡。缺点只能在Linux环境下使用，Proxychains 也可以做到负荷均衡，但是效果略渣。 Windows 用户可以考虑开一个VM进行流量传输安装 sudo apt install haproxy 配置文件 /etc/haproxy/haproxy.cfg 模式对于上面的情况 Haproxy 有两大负荷均衡模式： roundrobin -- 表示简单的轮询，每个服务器根据权重轮流使用，在服务器的处理时间平均分配的情况下这是最流畅和公平的算法。该算法是动态的，对于实例启动慢的服务器权重会在运行中调整。 leastconn -- 连接数最少的服务器优先接收连接。 leastconn建议用于长会话服务，例如LDAP、SQL、TSE等，而不适合短会话协议。如HTTP.该算法是动态的，对于实例启动慢的服务器权重会在运行中调整。但免费的SOCKS的代理连接数是有限制的，比如一个代理只能由10个连接数，这个时候就可以用 leastconn 模式进行弥补了，如果遇到好的代理则可以考虑一下 roundrobin 模式。找免费代理谷歌搜索免费代理，复制粘贴，用工具去验证。工具免费版的 Socks Proxy Checker Google 搜索 socks checker github 配置文件 [Github] global log /dev/log local0 log /dev/log local1 notice user root group root daemon //守护模式启动 defaults log global mode tcp timeout connect 5s //客户端和后端服务器建立连接的超时时间 timeout client 5s //与客户端的最长空闲时间 timeout server 5s //后端服务器到客户端的超时时间 timeout check 3s //对后端服务器的检测超时...

V2ray 纯 Vmess 的 Socks 前置代理配置文件

Wednesday, July 08, 2020

注意！！这个配置不适用于 tsl+ws+web，如果你要配置 tsl+ws+web 你可以参考这篇文章！！前言某些情况下需要让V2ray来走前置代理以便提高速度，或者需要走socks代理。大概的流程图 Application <---> V2ray Client <--> Socks Server <--> V2ray Server 配置文件 [ Github] { "inbounds": [ { "port": 10808, // Local Listen Port "protocol": "socks", "sniffing": { "enabled": true, "destOverride": ["http", "tls"] }, "settings": { "auth": "noauth" } } ], "outbounds": [ { "protocol": "vmess", "settings": { "vnext": [ { "address": "V2RAY SERVER", "port": V2RAY SERVER PORT, "users": [ { "alterId": 64, "id": "aaaa-bbbb-cccc-d...